php編碼轉換函數
『壹』 php UNICODE 編碼轉換
Unicode是一個字元集,Unicode是定長的都為雙位元組.
這里我們常用的是utf8字元集編碼,樓主是說的Unicode轉換為UTF-8吧。
/**
* Unicode字元轉換成utf8字元
* @param [type] $unicode_str Unicode字元
* @return [type] Utf-8字元
*/
function unicode_to_utf8($unicode_str) {
$utf8_str = '';
$code = intval(hexdec($unicode_str));
//這里注意轉換出來的code一定得是整形,這樣才會正確的按位操作
$ord_1 = decbin(0xe0 | ($code >> 12));
$ord_2 = decbin(0x80 | (($code >> 6) & 0x3f));
$ord_3 = decbin(0x80 | ($code & 0x3f));
$utf8_str = chr(bindec($ord_1)) . chr(bindec($ord_2)) . chr(bindec($ord_3));
return $utf8_str;
}
『貳』 php中如何轉換變數的編碼
functionunicode2utf8($str){
if(!$str)return$str;
$decode=json_decode($str);
if($decode)return$decode;
$str='["'.$str.'"]';
$decode=json_decode($str);
if(count($decode)==1){
return$decode[0];
}
return$str;
}
這是unicode編碼,使用這個函數可以很好的將unicode編碼轉為utf-8編碼。詳細的原理可以參考這篇博文《php將unicode編碼轉為utf-8方法》:http://www.welefen.com/php-unicode-to-utf8.html
『叄』 如何將phpinfo字元串類型轉換
php中iconv、mb_convert_encoding函數字元編碼轉換詳解如下:
iconv函數庫能夠完成各種字元集間的轉換,是php編程中不可缺少的基礎函數庫。
用法如下:
$string="親愛的朋友歡迎訪問博客,希望給您帶來一點點的幫助!";
iconv("utf8","gbk",$string)//將字元串string編碼由utf8轉變成gbk;
擴展如下:
echo[MathProcessingError]str=′好,歡迎訪問博客,該博客記錄一個程序員的成長過程!′;echo′<br/>′;echoiconv(′GB2312′,′UTF−8′,str);//將字元串的編碼從GB2312轉到UTF-8
echo'<br/>';
echoiconv_substr([MathProcessingError]str,1,1,′UTF−8′);//按字元個數截取而非位元組printr(iconvgetencoding());//得到當前頁面編碼信息echoiconvstrlen(str,'UTF-8');//得到設定編碼的字元串長度
//也有這樣用的
[MathProcessingError]content=iconv("UTF−8","gbk//TRANSLIT",content);
備註:
1、iconv不是php的默認函數,也是默認安裝的模塊。需要安裝才能用的。
如果是windows2000+php,你可以修改php.ini文件,將extension=php_iconv.dll前的";"去掉,同時你要你的原php安裝文件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是這個目錄,我本地的沒有操作這一步)
在linux環境下,用靜態安裝的方式,在configure時加多一項 --with-iconv就可以了,phpinfo看得到iconv的項。(Linux7.3+Apache4.06+php4.3.2);
到此php中的iconv 介紹完畢
2、用iconv函數把抓取來過的utf-8編碼的頁面轉成gb2312, 發現只有用iconv函數把抓取過來的數據一轉碼數據就會無緣無故的少一些。原因是這樣的:
string iconv ( string in_charset, string out_charset, string str )
注意:第二個參數,除了可以指定要轉化到的編碼以外,還可以增加兩個後綴://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 會自動將不能直接轉化的字元變成一個或多個近似的字元,//IGNORE 會忽略掉不能轉化的字元,而默認效果是從第一個非法字元截斷。 被截斷了,當然就會少了;
可以這樣修改iconv("UTF-8","GB2312//IGNORE",$string) 會忽略掉不能轉化的字元;
附加:
PHP中的mb_convert_encoding與iconv函數介紹
mb_convert_encoding這個函數是用來轉換編碼的,和iconv函數差不多。
英文一般不會存在編碼問題,只有中文數據才會有這個問題。比如用Zend Studio或Editplus寫程序時,用的是gbk編碼,如果數據需要入資料庫,而資料庫的編碼為utf8時,這時就要把數據進行編碼轉換,不然進到資料庫就會變成亂碼。
做一個GBK To UTF-8
<?php
header("content-Type:text/html;charset=Utf-8");//設置字元的編碼是utp-8
echomb_convert_encoding("你系我的友仔","UTF-8","GBK");
?>再做GB2312 To Big5
<?php
header("content-Type:text/html;charset=big5");
echomb_convert_encoding("朋友","big5","GB2312");
?>
不過要使用上面的函數需要安裝但是需要先enable mbstring 擴展庫,道理還是一樣的,修改php.ini。
PHP中的另外一個函數iconv也是用來轉換字元串編碼的,與上函數功能相似。
下面還有一些詳細的例子:
iconv—
(PHP4>=4.0.5,PHP5)
mb_convert_encoding—Convertcharacterencoding
(PHP4>=4.0.6,PHP5)
用法:
stringmb_convert_encoding(stringstr,stringto_encoding[,mixedfrom_encoding]
需要先enable mbstring 擴展庫,在 php.ini里將; extension=php_mbstring.dll 前面的 ;
去掉mb_convert_encoding 可以指定多種輸入編碼,它會根據內容自動識別,但是執行效率比iconv差太多;
那為何還要講解 這個 mb_convert_encoding()函數呢?答案如下:
發現iconv在轉換字元」—」到gb2312時會出錯,如果沒有ignore參數,所有該字元後面的字元串都無法被保存。不管怎麼樣,這個」—」都無法轉換成功,無法輸出。
另外mb_convert_encoding沒有這個bug.
一般情況下用 iconv,只有當遇到無法確定原編碼是何種編碼,或者iconv轉化後無法正常顯示時才用mb_convert_encoding 函數.
『肆』 php 編碼轉換
URLEncode:是指針鎮薯廳對網頁url中的中文字元的一種編碼轉化方式,最常見的就是Bai、Google等搜索引擎中輸入中文御隱查詢時候,生成經過Encode過的網頁URL。
URLEncode的方式一般有兩種,一種是傳統的基於GB2312的Encode(Bai、Yisou等使用),另一種是基於UTF-8的Encode(Google、Yahoo等使用)。
本工具分別實現兩種方式的Encode與Decode:
中文 -> GB2312的Encode -> %D6%D0%CE%C4
中文 -> UTF-8的Encode -> %E4%B8%AD%E6%96%87
我們可以用以下代碼實現轉換:
<?php echo urlencode('測試');?>
如果是gb2312編碼,轉換的結果為手滑"%B2%E2%CA%D4";
如果是utf-8編碼,轉換的結果為"%E6%B5%8B%E8%AF%95";
希望我的回答你能滿意啊!呵呵!