C++ STL std::wstring_convert处理UTF8

时间：2018-07-20 13:58:28 阅读：289 评论：0 收藏：0 [点我收藏+]

标签：sof 实验 utf-16 wchar 需要 clear 编码转换析构最大

#include <iostream>  
#include <string>  
#include <locale>  
#include <codecvt>  
#include <fstream>  

int main(int argc, char *argv[])  
{  
   std::wstring str = L"123,我是谁？我爱钓鱼岛！";  
   std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;  
   std::string narrowStr = conv.to_bytes(str);  
   {  
      std::ofstream ofs ("c:\\test.txt");  
      ofs << narrowStr;  
   }  
   std::wstring wideStr = conv.from_bytes(narrowStr);  
   {  
      std::locale::global(std::locale("Chinese-simplified"));  
      std::wofstream ofs (L"c:\\testW.txt");  
      ofs << wideStr;  
   }  
｝

http://zh.cppreference.com/w/cpp/locale/codecvt_utf8

以前一直以为标准库的wofstream只能输出MBCS编码的文本文件，今日接触到codecvt后，知道自己完全错了。

研究一上午后，得出以下成果（均为自己读MSDN及实验得出）。注：以下代码及说明以VS2010为准。

先说codecvt头文件（gcc里没找到），这是MSDN的解释：http://msdn.microsoft.com/zh-cn/library/ee292114.aspx

里面包含了三个类：codecvt_utf8、codecvt_utf8_utf16、codecvt_utf16，以及一个枚举类型codecvt_mode。

codecvt是用于不同文字编码转换的一个类，codecvt_utfX继承了这个类，实现了不同编码转换的功能。

codecvt与locale结合使用，实现输出、读取UTF-8及UTF-16编码文本文件。

例如UTF-8：

#include <iostream>
#include <codecvt>
#include <fstream>
#include <string>
 
int main(void)
{
    using namespace std;
    auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);
    wofstream wfo(L"Hello.txt");
    wfo.imbue(LocUtf8);
    wfo << L"这是Utf-8编码的文本文件！";
    wfo.close();
 
    wifstream wfi(L"Hello.txt");
    wstring wstr;
    wfi.imbue(LocUtf8);
    wfi >> wstr;
    wcout.imbue(locale(""));
    wcout << wstr << endl;
    system("PAUSE");
}

static auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);用codecvt_utf8实例化一个静态locale。codecvt_utf8<wchar_t>表示在输入输出时将wchar_t转换为UTF-8编码。至于new，与buffer类似不能析构，delete由locale自动管理。wfo.imbue(LocUtf8);表示wfo在输出文件时使用LocUtf8编码，wfi.imbue(LocUtf8)类似。注意不要使用locale::global，这样会影响到wcout。程序运行后会生成Hello.txt文件，其编码用记事本打开后点另存为，其默认编码为文件编码。
UTF-8是比较特殊的编码格式，识别不需bom。如果将上例的utf8直接改为utf16后运行也有结果，但用记事本打开乱码，UTF-16需要bom头用来识别编码格式。如下：

#include <iostream>
#include <codecvt>
#include <fstream>
#include <string>
 
int main(void)
{
    using namespace std;
    auto LocUtf16=locale(locale(""),new codecvt_utf16<wchar_t, 1114111UL, generate_header>);
    wofstream wfo(L"Hello.txt");
    wfo.imbue(LocUtf16);
    wfo << L"这是Utf-16编码的文本文件！";
    wfo.close();
 
    wifstream wfi(L"Hello.txt");
    wstring wstr;
    wfi.imbue(LocUtf16);
    wfi >> wstr;
    wcout.imbue(locale(""));
    wcout << wstr << endl;
    system("PAUSE");
}

差别在这句：new codecvt_utf16<wchar_t, 0x10ffff, generate_header>。

看看codecvt_utf16的定义：

　　template<
　　　　class Elem,          //需要转换的原编码格式，此为
　　　　wchar_tunsigned long Maxcode = 0x10ffff, 　　//最大字符数，用处未知，照抄默认
　　　　codecvt_mode Mode = (codecvt_mode)0　　　//一个codecvt_mode枚举类型class codecvt_utf16 :
　　> 
　　public std::codecvt<Elem, char, StateType>

再看

　　codecvt_modeenum codecvt_mode {
　　　　consume_header = 4,    //自动确认bom头，在读取文件时检查。但经过尝试后无效，可能我的用法有误（文字没进来，但多了个换行符）
　　　　generate_header = 2,   //自动输出bom头，在输出文件时检查。
　　　　little_endian = 1      //使用little endian编码（默认big endian，具体解释查看百科）};多个参数使用|（位或）连接，结果强制转换为codecvt_mode型。
　　}

例如little endian编码+自动输出bom头的声明如下：

new codecvt_utf16<wchar_t, 0x10ffff, codecvt_mode(generate_header | little_endian)>

推荐使用默认的big endian编码，little endian输出的换行符是一个方框注意：big endian编码的文件不能用little endian，反之亦然。应该能使用consume_header自动识别，但测试无效。

C++ STL std::wstring_convert处理UTF8

标签：sof 实验 utf-16 wchar 需要 clear 编码转换析构最大

原文地址：https://www.cnblogs.com/cthon/p/9340808.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行