c語言gbk轉utf8
❶ C語言控制台程序,中文輸出變成亂碼,怎麼解決
這里涉及到一個字元在源代碼(文本)中,編譯好的二進制文件中,以及最後控制台輸出編碼形式的區別.
首先,要明確一點:C(語言/程序)並不理解ANSI,UTF-8以及任何其他編碼.它只知道處理你給它的字元的二進製表示.
在簡體中文Windows下,默認的文本保存編碼是ANSI(即GBK);Linux下根據系統locale設定,一般應該是(zh_CN.UTF-8).(以下基於簡體中文Windows)
1)對於源文件中保存的"中文"這個字元串,VS2008看到的就是"0xd6d0"和"0xcec4"的形式(默認ANSI編碼得到).但編譯器才不管是不是GBK神馬的,它就管那串數字.
區別,MinGW看到的是"0xe4b8ad"和"0xe69687"(gcc默認UTF-8).注意,用MinGW編譯的源文件中有中文寬字元必須保存為UTF-8編碼.
2)然後,在二進制文件中的存儲形式,對傳統的字元串(char str[] = "中文";),編譯器什麼都不做,直接把那串數字(如"0xd6d0","0xcec4")搬過去塞進二進制文件.
但對於寬字元串(wchar_t wstr[] = L"中文";),編譯器會將其做轉換,轉換成Unicode編碼格式(在Windows是UTF-16,而Linux下是UTF-32).如"中文"的16位Unicode是"0x4e2d"和"0x6587",然後把這串轉換後的數字("0x4e2d","0x6587")塞進二進制文件中.(這里VS和MinGW做的沒有區別)
這里有點需要注意,編譯器必須知道你的源文件保存的編碼!如VS默認是ANSI編碼,如果你用UTF-8保存.c源文件去用VS打開看一定是亂碼.同理如果你用mingw編譯ANSI編碼保存的源文件,也會出錯!(但可以修改編譯選項解決,見文章末尾) 在本文這里這個原因其實很好理解,因為編譯器需要知道,如果它要將一個保存在文件中的字元轉成寬字元時,是從什麼編碼轉到Unicode.(可見上述VS是GBK->Unicode,而MinGW是UTF-8->Unicode)
❷ C語言漢字機內碼特點是什麼漢字輸入輸出的原理
1、漢字編碼方式很多,有國標碼(GB2312_1980),大五碼,GBK,簡體18030,區位碼,電報碼,還有它們的變形:unicode 大端小端碼,UTF-8,UTF-*,HZ 等等。
內碼特點 :二進制雙位元組,每位元組用到8bits.
輸入原理,把連續輸入的ASCII字元串,通過中文輸入軟體轉化為雙位元組 中文內碼。
輸出原理,從 雙位元組中文內碼 查出 字體(font)和 「刻痕",放大/縮小,在頻幕或紙上顯示列印出來。
2、在C語言中,可以通過將漢字作為字元串輸入。
由於一個漢字佔2個位元組,所以對漢字的操作,只能以2個位元組作為操作單位。
下面通過具體實例來說明漢字在C語言中的使用:
char s[] = "首都北京"; // 將漢字字元賦值給字元數組
char s2[20]; // 定義字元數組,存放用戶輸入的漢字
scanf("%s", s2); // 接收用戶輸入的漢字字元
printf("%d\n", sizeof(s)); // 計算字元數組s所佔的內存單元,輸出9(最後一個位元組是結束字元'\0')
printf("%s\n", &s[2]); // 輸出「都北京」(首字佔2個位元組)
printf("%s\n", s2); // 輸出用戶輸入的漢字