pythonunicode轉utf8
① python unicode 和utf8編碼是什麼意思
編碼是用於講二進制格式(byte)轉化為漢語,英文等文字的方式。如果是unicode,那就是一種全球通用的編碼,但是台灣用的多,mac系統是utf-8,windows你用GB2312
② 怎麼將python所有unicode轉換成中文格式
中文格式就是utf8唄
In[1]:s=u"中國"
In[2]:s
Out[2]:u'u4e256fd'
In[3]:new=s.encode("utf8")
In[4]:printnew
中國
In[5]:new
Out[5]:'xe4xb8xadxe5x9bxbd'
In[6]:
如果解決了您的問題請採納!
如果未解決請繼續追問
③ python怎麼把ASNI(GB2312)轉換成UTF-8
#!/usr/bin/envpython3
fromchardetimportdetect
fn='a.txt'
withopen(fn,'rb')asf:
s=f.read()
coding=detect(s)['encoding']
print('coding:{}'.format(coding))
print('content:{}'.format(s.decode(coding).rstrip()))
newf='b.txt'
withopen(newf,'wb')asf:
f.write(s.decode(coding).encode('utf8'))
print('done!convertcodingtoutf-8andwirtecontentin`{}`'.format(newf))
如果報ImportError那就
pipinstallchardet
def 你理解代碼後自己整合吧
④ 怎麼在Python里使用UTF-8編碼
概述
在python代碼即.py文件的頭部聲明即可
解析
py文件中的編碼
Python
默認
腳本文件
都是
ANSCII
編碼的,當文件
中有非
ANSCII
編碼范圍內的字元的時候就要使用"編碼指示"來修正一個
mole
的定義中,如果.py文件中包含中文字元(嚴格的說是含有非anscii字元),則需要在第一行或第二行指定編碼聲明:
#
-*-
coding=utf-8
-*-
#coding=utf-8
#
以上兩種選其一即可
其他的編碼如:gbk、gb2312也可以;否則會出現:
SyntaxError:
Non-ASCII
character
'\xe4'
in
file
test.py
on
line
3,
but
no
encoding
declared;
see
http://www.python.org/peps/pep-0263.html
for
details
python中的編碼與解碼
先說一下python中的字元串類型,在python中有兩種字元串類型,分別是
str
和
unicode,他們都是basestring的
派生類
;
str類型是一個包含
Characters
represent
(at
least)
8-bit
bytes的序列;
unicode
的每個
unit
是一個
unicode
obj;
在str的文檔中有這樣的一句話:
The
string
data
type
is
also
used
to
represent
arrays
of
bytes,
e.g.,
to
hold
data
read
from
a
file.
也就是說在讀取一個文件的內容,或者從網路上讀取到內容時,保持的對象為str類型;如果想把一個str轉換成特定編碼類型,需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如:utf-8、gb2312等。
拓展內容
utf-8編碼
UTF-8(8-bit
Unicode
Transformation
Format)是一種針對Unicode的可變長度
字元編碼
,也是一種
前綴碼
。它可以用來表示Unicode標准中的任何字元,且其編碼中的第一個位元組仍與ASCII兼容,這使得原來處理ASCII字元的軟體無須或只須做少部分修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中,優先採用的編碼。
UTF-8使用一至六個位元組為每個字元編碼(盡管如此,2003年11月UTF-8被RFC
3629重新規范,只能使用原來Unicode定義的區域,U+0000到U+10FFFF,也就是說最多四個位元組):
1、128個US-ASCII字元只需一個位元組編碼(Unicode范圍由U+0000至U+007F)。
2、帶有附加符號的拉丁文、
希臘文
、
西里爾字母
、亞美尼亞語、
希伯來文
、
阿拉伯文
、敘利亞文及它拿字母則需要兩個位元組編碼(Unicode范圍由U+0080至U+07FF)。
3、其他
基本多文種平面
(BMP)中的字元(這包含了大部分
常用字
,如大部分的漢字)使用三個位元組編碼(Unicode范圍由U+0800至U+FFFF)。
4、其他極少使用的Unicode
輔助平面
的字元使用四至六位元組編碼(Unicode范圍由U+10000至U+1FFFFF使用四位元組,Unicode范圍由U+200000至U+3FFFFFF使用五位元組,Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組)。
對上述提及的第四種字元而言,UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字元同樣需要四個位元組來編碼,所以要決定UTF-8或UTF-16哪種編碼比較有效率,還要視所使用的字元的分布范圍而定。不過,如果使用一些傳統的壓縮系統,比如DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大,可以考慮使用Unicode標准壓縮格式(SCSU)。
互聯網工程工作小組(IETF)要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟(IMC)建議所有電子郵件軟體都支持UTF-8編碼。
⑤ python 日文轉utf-8
轉碼就行了。
⑥ python中unicode編碼怎麼轉換為utf-8
實現代碼如下:
a = 'abce'# print type(a)b = a.decode("ascii")# print type(b)c = a.decode("ascii").encode("utf-8")# print type(c)
在python中進行編碼轉換都是通過unicode作為中間值實現的。所以要先decode成unicode字元,然後再使用encode轉換成utf-8編碼的str。可以把注釋取消了,看下轉換過程中的類型。