Namespaces
Variants

std:: mbrtoc32

From cppreference.net
Определено в заголовочном файле <cuchar>
std:: size_t mbrtoc32 ( char32_t * pc32,

const char * s,
std:: size_t n,

std:: mbstate_t * ps ) ;
(начиная с C++11)

Преобразует узкий многобайтовый символ в его представление в формате UTF-32.

Если s не является нулевым указателем, анализирует не более n байт многобайтовой строки символов, начиная с байта, на который указывает s для определения количества байт, необходимых для завершения следующего многобайтового символа (включая любые последовательности сдвига). Если функция определяет, что следующий многобайтовый символ в s является полным и корректным, преобразует его в соответствующий 32-битный символ и сохраняет в * pc32 (если pc32 не является нулевым указателем).

Если многобайтовый символ в * s соответствует последовательности из нескольких char32_t (невозможно в UTF-32), то после первого вызова этой функции * ps обновляется таким образом, что последующие вызовы mbrtoc32 будут выводить дополнительные char32_t , не учитывая * s .

Если s является нулевым указателем, значения n и pc32 игнорируются, и вызов эквивалентен std :: mbrtoc32 ( nullptr, "" , 1 , ps ) .

Если широкий символ, полученный в результате, является нулевым символом, состояние преобразования * ps представляет начальное состояние сдвига.

Многобайтовая кодировка, используемая этой функцией, определяется текущей активной локалью C.

Содержание

Параметры

pc32 - указатель на место, куда будет записан результирующий 32-битный символ
s - указатель на многобайтовую строку символов, используемую в качестве входных данных
n - ограничение на количество байтов в s, которые могут быть проверены
ps - указатель на объект состояния преобразования, используемый при интерпретации многобайтовой строки

Возвращаемое значение

Первое из следующих условий, которое применяется:

  • 0 если символ, преобразованный из s (и сохранённый в * pc32 если не null), был нулевым символом.
  • количество байт [ 1 ... n ] многобайтового символа, успешно преобразованного из s .
  • - 3 если следующий char32_t из многобайтового символа char32_t был записан в * pc32 . В этом случае никакие байты из входных данных не обрабатываются.
  • - 2 если следующие n байт представляют неполный, но пока корректный многобайтовый символ. Ничего не записывается в * pc32 .
  • - 1 при ошибке кодирования. Ничего не записывается в * pc32 , значение EILSEQ сохраняется в errno , а значение * ps не определено.

Примеры

#include <cassert>
#include <clocale>
#include <cstring>
#include <cuchar>
#include <cwchar>
#include <iomanip>
#include <iostream>
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
    std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌"
    std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase;
    for (unsigned char c : str)
        std::cout << std::hex << +c << ' ';
    std::cout << "]\n";
    std::mbstate_t state{}; // zero-initialized to initial state
    char32_t c32;
    const char* ptr = str.c_str(), *end = str.c_str() + str.size() + 1;
    while (std::size_t rc = std::mbrtoc32(&c32, ptr, end - ptr, &state))
    {
        std::cout << "Next UTF-32 char: " << std::hex
                  << static_cast<int>(c32) << " obtained from ";
        assert(rc != (std::size_t) - 3); // no surrogates in UTF-32
        if (rc == (std::size_t) - 1)
            break;
        if (rc == (std::size_t) - 2)
            break;
        std::cout << std::dec << rc << " bytes [ ";
        for (std::size_t n = 0; n < rc; ++n)
            std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' ';
        std::cout << "]\n";
        ptr += rc;
    }
}

Вывод:

Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ]
Next UTF-32 char: 0x7a obtained from 1 bytes [ 0x7a ]
Next UTF-32 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ]
Next UTF-32 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ]
Next UTF-32 char: 0x1f34c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ]

Смотрите также

(C++11)
преобразует символ UTF-32 в узкую многобайтовую кодировку
(функция)
[virtual]
преобразует строку из ExternT в InternT , например, при чтении из файла
(виртуальная защищенная функция-член std::codecvt<InternT,ExternT,StateT> )