pythonunicode轉漢字

發布時間: 2023-03-22 20:42:53

① python2 怎麼將unicode編碼轉成中文

1、python2與python3稍微有點區別
2、python2中默認的字元編碼格式都是unicode,在字元串前加'u'，表示unicode 編碼
3、將unicode轉換成中文，只需要用deconde解碼就可以了！

② Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

③ Python json unicode轉中文

importsys
reload(sys)
sys.setdefaultencoding("utf-8")

result=[[u'9.6',u'50'],1,True,u'1292052',[u'u72afu7f6a',u'u5267u60c5'],[u'u7f8eu56fd'],u'',u'1994-09-10',15,725531,u'9.6']

f=open('data.csv','w')

foriinresult:
	iftype(i)islist:
		forjini:
			iftype(j)==intortype(j)==floatortype(j)==bool:
				j=str(j)+','
			else:
				j=j.encode('gbk')+','
			printj,
			print>>f,j,
	else:
		iftype(i)==intortype(i)==floatortype(i)==bool:
			i=str(i)+','
		else:
			i=i.encode('gbk')+','
		printi,
		print>>f,i,

f.close()

④ python123漢字的unicode編碼值

python的默認編碼是ascii，可以通過sys.setdefaultencoding('utf-8')函數設置python的默認編碼。

python中可以通過encode和decode的方式改變數據的編碼，比如：

>>> u'漢字'

u'\u6c49\u5b57'

>>> u'漢字'.encode('utf-8')

'\xe6\xb1\x89\xe5\xad\x97'

>>> u'漢字'.encode('utf-8').decode('utf-8')

u'\u6c49\u5b57'

我們可以通過這兩個函數設置編碼。

那麼，python中的str是什麼類型？

>>> import binascii

>>> '漢字'

'\xba\xba\xd7\xd6'

>>> type('漢字')

>>> print binascii.b2a_hex('漢字')

babad7d6

>>> print binascii.b2a_hex(u'漢字')

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in

position 0-1: ordinal not in range(128)

>>> print binascii.b2a_hex(u'漢字'.encode('utf-8'))

e6b189e5ad97

>>> print binascii.b2a_hex(u'漢字'.encode('gbk'))

babad7d6

binascii是將數據的二進制轉換成ascii，上面的解釋是：『漢字'的類型是str，二進制是babad7d6，u『漢字'是無法轉換成ascii，這樣就報出了開頭的第一個錯誤。解決辦法就是把它.encode(『utf-8')成str類型。因為我命令行是windows默認的GBK編碼，所有u'漢字'.encode(『gbk')的時候，輸出結果和『漢字'結果一樣。

⑤ python 字元串格式的unicode編碼轉中文

python對於Unicode編碼可以使用decode進行轉換成中文：

>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'

>>> str.decode('utf-8')

'費腦子'

如果是字元串類型的Unicode編碼沒辦法直接用decode進行轉換：

>>> str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"

>>> str.decode('utf-8')

Traceback (most recent call last):

File "<stdin>", line 1, in <mole>

AttributeError: 'str' object has no attribute 'decode'

處理方式：

>>> str = eval("b" + "\"" + str + "\"")

>>> str.decode('utf-8')

'費腦子'

⑥ python中怎樣將unicode轉換成原來的中文

python默認就是unicode存儲。如果是從文件讀取的，在open的參數中指定encoding關鍵字參數就行。如下：

#coding=utf-8/importjson /defLoadQuestion(): /f=open("test.json",'r') qas=json.load(f) question=qas['documents'] /returnquestion/t=LoadQuestion() /printstr(t).decode("unicode-escape")

拓展資料：

通常python2時所有IO讀寫都是byte方式。也就是編碼後的。java也是這樣子。只有python3還有某些特定的模塊才會自動將byte重新轉換成unicode

在python2里的確可以使用s.decode('gbk','ignore')之類的變成unicode。不過在python3里應該是這樣子, s.encode('gbk','ignore')這樣就變成了byte

如果你喜歡 utf-8，可以s.encode(『utf-8','ignore')和s.decode(『utf-8','ignore')

⑦ Python 根據漢字的 unicode 編碼（int類型）得到漢字字元

def decimal2hex(number):
return hex(number)[2:]

def hex2unicode(hex_number_string):
return '\\u' + hex_number_string

def unicode2chinese(unicode_number):
if isinstance(unicode_number, str):
return unicode_number.encode("latin-1").decode("unicode-escape")
elif isinstance(unicode_number, bytes):
return unicode_number.decode("unicode-escape")

if __name__ == "__main__":
number = 39532
hex_number_string = decimal2hex(number)
unicode_number = hex2unicode(hex_number_string)
chinese = unicode2chinese(unicode_number)
print(chinese)

閱讀全文

熱點內容

林肯冒險家怎麼查看配置發布：2024-11-05 15:55:12 瀏覽：112

可以上傳球球的照片發布：2024-11-05 15:42:59 瀏覽：738

拉箱怎麼改密碼發布：2024-11-05 15:38:02 瀏覽：862

http怎麼配置發布：2024-11-05 15:02:45 瀏覽：461

12級緩存發布：2024-11-05 14:52:09 瀏覽：578

神武4腳本發布：2024-11-05 14:48:50 瀏覽：702

王者榮耀反復解壓發布：2024-11-05 14:31:58 瀏覽：853

存儲引擎有哪些品牌發布：2024-11-05 14:25:59 瀏覽：39

紅薯的存儲方法發布：2024-11-05 14:17:32 瀏覽：757

腳本錯誤彈窗口在哪裡發布：2024-11-05 14:01:16 瀏覽：967

pythonunicode轉漢字

拓展資料：

與pythonunicode轉漢字相關的資訊