python處理中文文本

發布時間: 2023-08-04 09:19:18

㈠ python中中文字元串怎麼處理

如果處理的字元串中出現中文表示的字元，要想不出錯，就得轉成unicode編碼了。具體的方法有：
1、decode()，將其他邊編碼的字元串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字元串str1轉換成unicode編碼；
2、encode()，將unicode編碼轉換成其他編碼的字元串，如str2.encode('gb2312')，表示將unicode編碼的字元串str2轉換成gb2312編碼；
3、unicode()，同decode()，將其他編碼的字元串轉換成unicode編碼，如unicode(str3, 'gb2312')，表示將gb2312編碼的字元串str3轉換成unicode編碼。
轉碼的時候一定要先搞明白字元串str是什麼編碼，然後decode成unicode，最後再encode成其他編碼。
另外，對一個unicode編碼的字元串在進行解碼會出錯，所以在編碼未知的情況下要先判斷其編碼方式是否為unicode，可以用isinstance(str, unicode)。
不僅是中文，以後處理含非ascii編碼的字元串時，都可以遵循以下步驟：
1、確定源字元的編碼格式，假設是utf8；
2、使用unicode()或decode()轉換成unicode編碼，如str1.decode('utf8')，或者unicode(str1, 'utf8');
3、把處理後字元串用encode()編碼成指定格式。

㈡ python 中怎麼讀取txt文件中的中文文字

代碼：

# -*- coding: utf-8 -*-

f = open('luciatest1.txt', encoding='gb18030')
filecontent = f.read()
print(filecontent)

運行效果：

㈢ python中怎樣處理漢語的同義詞用結巴分詞

python中文分詞：結巴分詞
中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：
基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法
安裝（Linux環境）
下載工具包，解壓後進入目錄下，運行：python setup.py install

模式
默認模式，試圖將句子最精確地切開，適合文本分析
全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

介面
組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數：
第一個參數為需要分詞的字元串
cut_all參數用來控制分詞模式
待分詞的字元串可以是gbk字元串、utf-8字元串或者unicode
jieba.cut返回的結構是一個可迭代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list

實例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)

㈣ Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

㈤如何解決Python中文問題

python的中文問題一直是困擾新手的頭疼問題，Python的發行版至今尚未包括任何中文支持模塊。當然，幾乎可以確定的是，在將來的版本中，python會徹底解決此問題，不用我們這么麻煩了。筆者使用的是2.5版本。Python的版本可以通過調用sys模塊的sys.version查看。在幾個月的學習中，主要遇到以下問題：

1. print列印中文的問題：

在編輯器中輸入一段測試代碼：

s=』測試』

print s
運行結果如下：

Non-ASCII character '\xb2' in file c:\Documents and Settings\Administrator\桌面\2.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details: 2.py, line 1, pos 0

原因是如果文件里有非ASCII字元，需要指定編碼聲明。把2.py文件的編碼重新改為utf-8，並加上編碼聲明：

# -*- coding: utf-8 -*-

s=』測試』

print s
運行後可以正確列印中文。

2.中文路徑的問題。

在D盤下保存一個名字為『中文.txt『的文件。運行如下測試代碼：

# -*- coding: utf-8 -*-

f=open('D:\\中文.txt', 'r')

print f.read()
運行結果如下：

IOError: [Errno 2] No such file or directory: 'D:\\\xe4\xb8\xad\xe6\x96\x87.txt'

字元串有很多的編碼，不同的系統和平台有各自的編碼，為了實現系統或平台之間的信息交互可能需要編碼轉換。這里只需要先使用UNICODE編碼一下，這樣再讀取中文路徑就不會有問題了：

復制代碼

# -*- coding: utf-8 -*-

path='D:\\中文.txt'
spath=unicode(path , "utf8")
f=open(spath,'r')
print f.read()
復制代碼
然後就可以正確顯示文件內容

總結：

所有的中文顯示問題都可以歸結為編碼問題，遇到其他類似的問題，那隻能仔細看文檔，靠你的經驗，靠你多做測試。而且根據python所報出來的錯誤一般也可以判斷出來。那麼當發現需要編碼轉換時，剩下的就是如何正確進行碼制轉換。

為了正確處理多語言文本，Python在2.0版後引入了Unicode字元串。從那時起，Python語言中的字元串就分為兩種：一種是2.0版之前就已經使用很久的傳統Python字元串，一種則是新的Unicode字元串。在Python語言中，一般的解決辦法是使用unicode()內建函數對一個傳統Python字元串進行「解碼」，得到一個Unicode字元串，然後又通過Unicode字元串的encode()方法對這個Unicode字元串進行「編碼」，將其「編碼」成為傳統Python字元串。

㈥ python怎樣讀取文本文件里的中文

#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理，包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元

閱讀全文

熱點內容

小黃狗編程發布：2025-03-24 06:43:02 瀏覽：638

華為手機手畫密碼如何設置發布：2025-03-24 06:40:20 瀏覽：658

讀java源碼發布：2025-03-24 06:29:06 瀏覽：35

歐皇源碼發布：2025-03-24 06:26:18 瀏覽：858

為什麼id密碼在異地登錄發布：2025-03-24 06:17:13 瀏覽：46

google地圖連接伺服器地址發布：2025-03-24 06:12:43 瀏覽：359

安卓怎麼樣恢復手機刪除的視頻發布：2025-03-24 06:07:03 瀏覽：133

格式化手機usb存儲器發布：2025-03-24 05:52:33 瀏覽：238

留學網源碼發布：2025-03-24 05:37:09 瀏覽：875

如何讓瀏覽器用戶名密碼不過期發布：2025-03-24 05:29:18 瀏覽：929

python處理中文文本

與python處理中文文本相關的資訊