std:: mbrtoc32

From cppreference.net

Определено в заголовочном файле `<cuchar>`
std:: size_t mbrtoc32 ( char32_t * pc32, const char * s, std:: size_t n, std:: mbstate_t * ps ) ;		(начиная с C++11)

Преобразует узкий многобайтовый символ в его представление в формате UTF-32.

Если s не является нулевым указателем, анализирует не более n байт многобайтовой строки символов, начиная с байта, на который указывает s для определения количества байт, необходимых для завершения следующего многобайтового символа (включая любые последовательности сдвига). Если функция определяет, что следующий многобайтовый символ в s является полным и корректным, преобразует его в соответствующий 32-битный символ и сохраняет в * pc32 (если pc32 не является нулевым указателем).

Если многобайтовый символ в * s соответствует последовательности из нескольких char32_t (невозможно в UTF-32), то после первого вызова этой функции * ps обновляется таким образом, что последующие вызовы mbrtoc32 будут выводить дополнительные char32_t , не учитывая * s .

Если s является нулевым указателем, значения n и pc32 игнорируются, и вызов эквивалентен std :: mbrtoc32 ( nullptr, "" , 1 , ps ) .

Если широкий символ, полученный в результате, является нулевым символом, состояние преобразования * ps представляет начальное состояние сдвига.

Многобайтовая кодировка, используемая этой функцией, определяется текущей активной локалью C.

Содержание

Параметры

pc32	-	указатель на место, куда будет записан результирующий 32-битный символ
s	-	указатель на многобайтовую строку символов, используемую в качестве входных данных
n	-	ограничение на количество байтов в s, которые могут быть проверены
ps	-	указатель на объект состояния преобразования, используемый при интерпретации многобайтовой строки

Возвращаемое значение

Первое из следующих условий, которое применяется:

0 если символ, преобразованный из s (и сохранённый в * pc32 если не null), был нулевым символом.
количество байт [ 1 ... n ] многобайтового символа, успешно преобразованного из s .
- 3 если следующий char32_t из многобайтового символа char32_t был записан в * pc32 . В этом случае никакие байты из входных данных не обрабатываются.
- 2 если следующие n байт представляют неполный, но пока корректный многобайтовый символ. Ничего не записывается в * pc32 .
- 1 при ошибке кодирования. Ничего не записывается в * pc32 , значение EILSEQ сохраняется в errno , а значение * ps не определено.

Примеры

Запустить этот код

#include <cassert>
#include <clocale>
#include <cstring>
#include <cuchar>
#include <cwchar>
#include <iomanip>
#include <iostream>
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
    std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌"
    std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase;
    for (unsigned char c : str)
        std::cout << std::hex << +c << ' ';
    std::cout << "]\n";
    std::mbstate_t state{}; // zero-initialized to initial state
    char32_t c32;
    const char* ptr = str.c_str(), *end = str.c_str() + str.size() + 1;
    while (std::size_t rc = std::mbrtoc32(&c32, ptr, end - ptr, &state))
    {
        std::cout << "Next UTF-32 char: " << std::hex
                  << static_cast<int>(c32) << " obtained from ";
        assert(rc != (std::size_t) - 3); // no surrogates in UTF-32
        if (rc == (std::size_t) - 1)
            break;
        if (rc == (std::size_t) - 2)
            break;
        std::cout << std::dec << rc << " bytes [ ";
        for (std::size_t n = 0; n < rc; ++n)
            std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' ';
        std::cout << "]\n";
        ptr += rc;
    }
}

Вывод:

Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ]
Next UTF-32 char: 0x7a obtained from 1 bytes [ 0x7a ]
Next UTF-32 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ]
Next UTF-32 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ]
Next UTF-32 char: 0x1f34c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ]

Смотрите также

c32rtomb (C++11)	преобразует символ UTF-32 в узкую многобайтовую кодировку (функция)
do_in [virtual]	преобразует строку из `ExternT` в `InternT` , например, при чтении из файла (виртуальная защищенная функция-член `std::codecvt<InternT,ExternT,StateT>` )
Документация C для mbrtoc32

Compiler support
Freestanding and hosted
Language
Standard library
Standard library headers
Named requirements
Feature test macros (C++20)
Language support library
Concepts library (C++20)
Diagnostics library
Memory management library
Metaprogramming library (C++11)
General utilities library
Containers library
Iterators library
Ranges library (C++20)
Algorithms library
Strings library
Text processing library
Numerics library
Date and time library
Input/output library
Filesystem library (C++17)
Concurrency support library (C++11)
Execution control library (C++26)
Technical specifications
Symbols index
External libraries

cppreference.net

Namespaces