当前位置:首页 » 编程语言 » php转码utf8

php转码utf8

发布时间: 2022-08-29 20:29:49

Ⅰ 怎么用php把unicode转成utf8

function unescape($str) {
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
$ar = $r[0];
//print_r($ar);
foreach($ar as $k=>$v) {
if(substr($v,0,2) == "%u"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
}
elseif(substr($v,0,3) == "&#x"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
}
elseif(substr($v,0,2) == "&#") {

$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
}
}
return join("",$ar);
}
echo unescape("紫星蓝");
今天有用户反馈,表单系统用户提交的数据中文会乱码。测试发现问题出在 iconv 转换上。
iconv('UCS-2', 'GBK', '中文')
Google 搜索发现,原因是 linux 服务器上 UCS-2 编码方式与 Winodws 不一致。
于是,我改成 iconv('UCS-2BE', 'GBK', '中文') 试试,中文正常了

以下是有关两个平台 UCS-2 编码的潜规则:

1, UCS-2 不等于 UTF-16。 UTF-16 每个字节使用 ASCII 字符范围编码,而 UCS-2 对每个字节的编码可以超出 ASCII 字符范围。UCS-2 和 UTF-16 对每个字符至多占两个字节,但是他们的编码是不一样的。

2, 对于 UCS-2, windows 下默认是 UCS-2LE。用 MultibyteToWidechar(或者A2W)生成的是 UCS-2LE 的 unicode。windows记事本可以将文本保存为 UCS-2BE,相当于多了层转换。

3, 对于 UCS-2, linux 下默认是 UCS-2BE。用iconv(指定UCS-2)来转换生成的是 UCS-2BE 的 unicode。如果转换windows平台过来的 UCS-2, 需要指定 UCS-2LE。

4, 鉴于windows和linux等多个平台对 UCS-2 的理解不同(UCS-2LE,UCS-2BE)。MS 主张 unicode 有个引导标志(UCS-2LE FFFE, UCS-2BE FEFF),以表明下面的字符是 unicode 并且判别 big-endian 或 little-endian。 所以从 windows 平台过来的数据发现有这个前缀,不用慌张。

5, linux 的编码输出,比如从文件输出,从 printf 输出,需要控制台做适当的编码匹配(如果编码不匹配,一般和该程序编译时的编码有若干关系),而控制台的转换输入需要查看当前的系统编码。比如控制台当前的编码是 UTF-8, 那么 UTF-8 编码的东西能正确显示,GBK 就不能;同样,当前编码是 GBK, 就能显示 GBK 编码,后来的系统应该更智能的处理好更多的转换了。不过通过 putty 等终端还是需要设置好终端的编码转换以解除乱码的烦恼。
PHP中对汉字进行UNICODE编码和解码的实现
//将内容进行UNICODE编码
function unicode_encode($name)
{
$name = iconv('UTF-8', 'UCS-2', $name);
$len = strlen($name);
$str = '';
for ($i = 0; $i < $len - 1; $i = $i + 2)
{
$c = $name[$i];
$c2 = $name[$i + 1];
if (ord($c) > 0)
{ // 两个字节的文字
$str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
}
else
{
$str .= $c2;
}
}
return $str;
}
$name = 'MY,你大爷的';
$unicode_name=unicode_encode($name);
echo '<h3>'.$unicode_name.'</h3>';
// 将UNICODE编码后的内容进行解码
function unicode_decode($name)
{
// 转换编码,将Unicode编码转换成可以浏览的utf-8编码
$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
preg_match_all($pattern, $name, $matches);
if (!empty($matches))
{
$name = '';
for ($j = 0; $j < count($matches[0]); $j++)
{
$str = $matches[0][$j];
if (strpos($str, '\\u') === 0)
{
$code = base_convert(substr($str, 2, 2), 16, 10);
$code2 = base_convert(substr($str, 4), 16, 10);
$c = chr($code).chr($code2);
$c = iconv('UCS-2', 'UTF-8', $c);
$name .= $c;
}
else
{
$name .= $str;
}
}
}
return $name;
}
echo 'MY,\u4f60\u5927\u7237\u7684 -> '.unicode_decode($unicode_name);

Ⅱ PHP如何把数组里的中文Unicode转换成Utf-8编码

很明显你截的图是是JSON数据,如果是数组应二维数组的括号应该是[]而不是{}。
所以转换应该使用json_decode。比如对象名为$list,则:$list = json_decode($list, true);
出现中文Unicode的问题是,存储数据转成json时第二个参数使用错误,包含中文而不转义的需要使用JSON_UNESCAPED_UNICODE;这样存到数据库才是中文。如:$list = json_encode($list, JSON_UNESCAPED_UNICODE);

Ⅲ php 怎么将2进制数据中的中文转换为utf-8

使用以下函数:
string iconv ( string $in_charset , string $out_charset , string $str )

例:
str1 = '汉字'; // 假设此php源文件以GBK编码保存,那么str1就是GBK编码,占4个字节
str2 = iconv('GBK', 'UTF-8', str1); // str2是utf8编码,占6个字节

说明:如果你的php源文件已经以utf8编码保存,就不需要这样转换了。

其它相关函数:
mb_convert_encoding

Ⅳ PHP 解决utf-8和gb2312编码转换问题

终于皇天不负有心人,答案还是让我找到了。
网上的都是这样用的
复制代码
代码如下:
$content
=
iconv("utf-8","gb2312",$content);
这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢?
原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误。现在给你正确的答案。
真正的答案是这样的
复制代码
代码如下:
$content
=
iconv("utf-8","gb2312//IGNORE",$content);
很简单的,只要后面加上一个//IGNORE就行,加上这个就可以是ICONV()函数忽略错误,继续执行。
同理,要像把gb2312换为utf-8只要写上$content
=
iconv("gb2312","utf-8//IGNORE",$content);就行

Ⅳ php设置成utf-8还是乱码了怎么办

有时后php代码里边设置了“header("Content-type:
text/html;
charset=utf-8");”不一定会管用,因为有时文件本身格式就是错误的,你先把代码复制到一个txt文件里边,然后用代码工具对php文件进行转码成utf-8格式(这时你就会发现里边的代码乱码了,由其是中文和特殊字符),再把txt里边的代码复制覆盖原来的php文件内容,然后保存即可,例如用Notepad++
工具
可以对文件本身进行转码

Ⅵ php怎么转码,为什么需要gbk和utf8之间互相转换,转化为带来哪些坑

php转码,$text=iconv("UTF-8","GBK",$text);
把gb2312转成utf-8
目前用过,似乎没有什么坑,只要找到相应的码即可

Ⅶ php 不管什么编码转换成utf8

让PHP自动判断编码格式,都转换成UTF-8的。搜到一个帖子,是通过判断文件头来判断编码,但是我觉得应该有更简单的方法。
mb_convert_encoding($text, 'UTF-8','GB2312,UTF-8');这个函数基本实现了功能,但是有些编码如Unicode就会乱码 (用记事本保存时可以选,不知道是不是一种编码)。
应该把尽量多的编码放到函数第三个参数上就可以吧。

Ⅷ php 怎么将任意编码的内容转换成utf-8

最简单的:
$str = iconv("gbk", "utf-8//ignore", $str);
或者:
$str = mb_convert_encoding($str, "utf-8", "gbk");

稍微解释一下 //ignore 的意思是转换不了的字符就忽略。建议把这个写上。否则遇到转换不了的字符会报错。gbk替换成你需要转换的编码就可以了。

热点内容
手机建行密码忘记了怎么办 发布:2025-01-16 15:45:38 浏览:224
易语言视频播放源码 发布:2025-01-16 15:39:35 浏览:343
肇观算法 发布:2025-01-16 15:38:39 浏览:610
管家婆找不到加密狗 发布:2025-01-16 15:10:28 浏览:308
linux的etcfstab 发布:2025-01-16 15:00:43 浏览:364
电脑无法登录内网服务器 发布:2025-01-16 15:00:28 浏览:575
编译nasm 发布:2025-01-16 14:54:43 浏览:202
编程实战宝典 发布:2025-01-16 14:53:12 浏览:248
ibm服务器怎么关闭开机初始化 发布:2025-01-16 14:50:41 浏览:66
浏览器上传不了图片 发布:2025-01-16 14:45:46 浏览:600