std:: mbrtoc32
|
Определено в заголовочном файле
<cuchar>
|
||
|
std::
size_t
mbrtoc32
(
char32_t
*
pc32,
const
char
*
s,
|
(начиная с C++11) | |
Преобразует узкий многобайтовый символ в его представление в формате UTF-32.
Если s не является нулевым указателем, анализирует не более n байт многобайтовой строки символов, начиная с байта, на который указывает s для определения количества байт, необходимых для завершения следующего многобайтового символа (включая любые последовательности сдвига). Если функция определяет, что следующий многобайтовый символ в s является полным и корректным, преобразует его в соответствующий 32-битный символ и сохраняет в * pc32 (если pc32 не является нулевым указателем).
Если многобайтовый символ в
*
s
соответствует последовательности из нескольких char32_t (невозможно в UTF-32), то после первого вызова этой функции
*
ps
обновляется таким образом, что последующие вызовы
mbrtoc32
будут выводить дополнительные
char32_t
, не учитывая
*
s
.
Если s является нулевым указателем, значения n и pc32 игнорируются, и вызов эквивалентен std :: mbrtoc32 ( nullptr, "" , 1 , ps ) .
Если широкий символ, полученный в результате, является нулевым символом, состояние преобразования * ps представляет начальное состояние сдвига.
Многобайтовая кодировка, используемая этой функцией, определяется текущей активной локалью C.
Содержание |
Параметры
| pc32 | - | указатель на место, куда будет записан результирующий 32-битный символ |
| s | - | указатель на многобайтовую строку символов, используемую в качестве входных данных |
| n | - | ограничение на количество байтов в s, которые могут быть проверены |
| ps | - | указатель на объект состояния преобразования, используемый при интерпретации многобайтовой строки |
Возвращаемое значение
Первое из следующих условий, которое применяется:
- 0 если символ, преобразованный из s (и сохранённый в * pc32 если не null), был нулевым символом.
- количество байт [ 1 ... n ] многобайтового символа, успешно преобразованного из s .
- - 3 если следующий char32_t из многобайтового символа char32_t был записан в * pc32 . В этом случае никакие байты из входных данных не обрабатываются.
- - 2 если следующие n байт представляют неполный, но пока корректный многобайтовый символ. Ничего не записывается в * pc32 .
- - 1 при ошибке кодирования. Ничего не записывается в * pc32 , значение EILSEQ сохраняется в errno , а значение * ps не определено.
Примеры
#include <cassert> #include <clocale> #include <cstring> #include <cuchar> #include <cwchar> #include <iomanip> #include <iostream> int main() { std::setlocale(LC_ALL, "en_US.utf8"); std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌" std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase; for (unsigned char c : str) std::cout << std::hex << +c << ' '; std::cout << "]\n"; std::mbstate_t state{}; // zero-initialized to initial state char32_t c32; const char* ptr = str.c_str(), *end = str.c_str() + str.size() + 1; while (std::size_t rc = std::mbrtoc32(&c32, ptr, end - ptr, &state)) { std::cout << "Next UTF-32 char: " << std::hex << static_cast<int>(c32) << " obtained from "; assert(rc != (std::size_t) - 3); // no surrogates in UTF-32 if (rc == (std::size_t) - 1) break; if (rc == (std::size_t) - 2) break; std::cout << std::dec << rc << " bytes [ "; for (std::size_t n = 0; n < rc; ++n) std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' '; std::cout << "]\n"; ptr += rc; } }
Вывод:
Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ] Next UTF-32 char: 0x7a obtained from 1 bytes [ 0x7a ] Next UTF-32 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ] Next UTF-32 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ] Next UTF-32 char: 0x1f34c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ]
Смотрите также
|
(C++11)
|
преобразует символ UTF-32 в узкую многобайтовую кодировку
(функция) |
|
[virtual]
|
преобразует строку из
ExternT
в
InternT
, например, при чтении из файла
(виртуальная защищенная функция-член
std::codecvt<InternT,ExternT,StateT>
)
|
|
Документация C
для
mbrtoc32
|
|