pythonunicode轉中文

發布時間: 2022-11-22 19:04:37

❶ python2 怎麼將unicode編碼轉成中文

1、python2與python3稍微有點區別
2、python2中默認的字元編碼格式都是unicode,在字元串前加'u'，表示unicode 編碼
3、將unicode轉換成中文，只需要用deconde解碼就可以了！

❷ python3.6從網頁源碼中抓取的unicode無法輸出中文

importrequests
frombs4importBeautifulSoup
importchardet
defget_charset(byte_str):
charset=chardet.detect(byte_str)['encoding']
returncharset
r=requests.get('http://xiaorui.cc/2016/02/19/代碼分析python-requests庫中文編碼問題/')
r.encoding=get_charset(r.content)
soup=BeautifulSoup(r.text,'lxml')
soup.text

亂碼的原因主要是網頁的字元集和你輸出的字元集不一致造成的，讓你的輸出和採集到的字元集保持一致就可以了

我這里用requests

urllib庫也是一樣的

❸ python unicode編碼

python unicode編碼：

下面的代碼創建了一個Unicode字元串，用UTF-8編碼器將它編碼，然後寫入到一個文件中去，接著把數據從文件中讀回來，解碼成Unicode字元串對象，最後，列印出Unicode字元串，用以確認程序正確地運行。

在Linux中編寫，在VIM中輸入如下代碼，保存為uniFile.py

#/home/xiaopeng/python/code/uniFile.py
'''
:Writes
aUnicodestringtoafileinutf-8andreadsitbackin
'''
CODEC='utf-8'編碼方式
FILE='unicode.txt'要存的文件名
hello_out=u"Helloworld
"創建了一個Unicode格式的字元串
bytes_out=hello_out.encode(CODEC)用UTF-8編碼
f=open(FILE,'w')
f.write(bytes_out)寫入指定文件中
f.close()
f=open(FILE,'r')
bytes_in=f.read()讀取
f.close()
hello_in=bytes_in.decode(CODEC)解碼
printhello_in列印

在終端中輸入：python uniFile.py

結果列印出 Hello world

然後在python目錄下會發現多了一個名為unicode.txt的文件，用cat命令查看一下，發現裡面的內容和列印的結果一樣.

把Unicode應用到實際中注意一下四點：

1程序中出現字元串時一定要加一個前綴u

2不要用str()函數，用Unicode()代替

3 不要用過時的string模塊。如果傳給它非ASCII碼，它會把一切搞砸。

4 不到必須時不要在你的程序里編解碼Unicode字元，只在你要寫入文件或者資料庫或者網路時，才調用encode()函數和decode()函數。

❹ Python json unicode轉中文

importsys
reload(sys)
sys.setdefaultencoding("utf-8")

result=[[u'9.6',u'50'],1,True,u'1292052',[u'u72afu7f6a',u'u5267u60c5'],[u'u7f8eu56fd'],u'',u'1994-09-10',15,725531,u'9.6']

f=open('data.csv','w')

foriinresult:
	iftype(i)islist:
		forjini:
			iftype(j)==intortype(j)==floatortype(j)==bool:
				j=str(j)+','
			else:
				j=j.encode('gbk')+','
			printj,
			print>>f,j,
	else:
		iftype(i)==intortype(i)==floatortype(i)==bool:
			i=str(i)+','
		else:
			i=i.encode('gbk')+','
		printi,
		print>>f,i,

f.close()

❺ Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

❻ python亂碼unicode編碼解決\xe7\xbb\x87\…轉漢字

當我用respose.content 輸出請求的內容時，發現中文全部變成了下面這樣。。。。

❼ 怎麼將python所有unicode轉換成中文格式

中文格式就是utf8唄

In[1]:s=u"中國"

In[2]:s
Out[2]:u'u4e256fd'

In[3]:new=s.encode("utf8")

In[4]:printnew
中國

In[5]:new
Out[5]:'xe4xb8xadxe5x9bxbd'

In[6]:

如果解決了您的問題請採納！
如果未解決請繼續追問

❽ Python中中文字元串怎麼處理

如果處理的字元串中出現中文表示的字元，要想不出錯，就得轉成unicode編碼了。具體的方法有：
1、decode()，將其他邊編碼的字元串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字元串str1轉換成unicode編碼；
2、encode()，將unicode編碼轉換成其他編碼的字元串，如str2.encode('gb2312')，表示將unicode編碼的字元串str2轉換成gb2312編碼；
3、unicode()，同decode()，將其他編碼的字元串轉換成unicode編碼，如unicode(str3, 'gb2312')，表示將gb2312編碼的字元串str3轉換成unicode編碼。
轉碼的時候一定要先搞明白字元串str是什麼編碼，然後decode成unicode，最後再encode成其他編碼。
另外，對一個unicode編碼的字元串在進行解碼會出錯，所以在編碼未知的情況下要先判斷其編碼方式是否為unicode，可以用isinstance(str, unicode)。
不僅是中文，以後處理含非ascii編碼的字元串時，都可以遵循以下步驟：
1、確定源字元的編碼格式，假設是utf8；
2、使用unicode()或decode()轉換成unicode編碼，如str1.decode('utf8')，或者unicode(str1, 'utf8');
3、把處理後字元串用encode()編碼成指定格式。

閱讀全文

熱點內容

掛機伺服器的搭建發布：2025-01-16 12:34:07 瀏覽：414

安卓怎麼刪除信任憑證發布：2025-01-16 12:22:06 瀏覽：335

代理編譯發布：2025-01-16 12:07:59 瀏覽：793

伺服器為什麼老是無響應發布：2025-01-16 12:07:59 瀏覽：891

安卓怎麼傳軟體到蘋果發布：2025-01-16 12:01:28 瀏覽：952

pythonforzip 發布：2025-01-16 11:59:46 瀏覽：909

磁感密碼鎖有多少鑰匙發布：2025-01-16 11:41:12 瀏覽：117

酷睿電腦配置怎麼查看發布：2025-01-16 11:27:26 瀏覽：563

怎麼看安卓手機應用程序發布：2025-01-16 11:19:36 瀏覽：109

ftp密碼為空怎麼處理發布：2025-01-16 11:19:34 瀏覽：803

pythonunicode轉中文

與pythonunicode轉中文相關的資訊