python漢字
㈠ python3 字元串多少個漢字
在python中一個漢字算一個字元,一個英文字母算一個字元。如:
##coding:utf-8
s='我們的'
k=len(s)
print(k)
輸出結果是3。
===================================
所以,可以採取排除法,凡返回字元的ascII碼在大於127的作為漢字統計。
##coding:utf-8
s='我們的88工作和生活168'
k=len(s)
print(k)
n=0
forcins:
iford(c)>127:
n+=1
print(n)
㈡ 怎樣在python中寫漢字
在python中寫漢字的方法:
在注釋符「#」後面可以直接寫中文
也可以使用「引號<中文>引號」的方式將中文字元以字元串的方式寫出來
示例如下:
# 宇宙好大,地球好小
a = '世界好大,地球好小'
print(a)
執行結果如下:
想了解更多python知識,請觀看Python入門教程(黑馬程序員)!!
㈢ python 將漢字 輸出GB2312
我用的python3.5 用ascii函數處理
s="中文"
lst=[]
forcins:
lst.append(int('0x'+ascii(c)[3:7],16))
print(lst)
輸出是:[20013, 25991]
㈣ 用python編寫漢字 「合」
風。但是優秀的情節引起了別人的注意,重新製作讓這個動漫成功。
㈤ python一個漢字的長度是多少
這要看使用的哪種編碼方式,utf-8的話是用了3個位元組,GBK的話是用了兩個
>>>'漢'.encode('utf-8')
b'xe6xb1x89'
>>>'漢'.encode('GBK')
b'xbaxba'
㈥ python如何從文本中篩選出帶指定漢字的句子
#coding=gbk
#下面就是代碼,測試了一下沒有問題
#python 2.7.5
def srch(fileName):
f = open(fileName,'r').read()
s = f.split('\n')
a0 = s[0]
for i in range(0,len(s)):
if len(s) == 1: #這一行我不知道有沒有用,判斷文本是否只有一行
if a0[:1] != '#':
print '0' #return 0
break
a = s[i]
if a[:1] == '#':
print '-1' #return -1
else:
print '0' #return 0
print srch('abc.txt') #abc.txt is your file
㈦ python 判斷是不是中文字
法一:
isinstance(s, str) 用來判斷是否為一般字元串
isinstance(s, unicode) 用來判斷是否為unicode
或
if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass
法二:
Python chardet 字元編碼判斷
使用 chardet 可以很方便的實現字元串/文件的編碼檢測。尤其是中文網頁,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網頁編碼很重要的,雖然HTML頁面有charset標簽,但是有些時候是不對的。那麼chardet就能幫我們大忙了。
chardet實例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函數來檢測所給字元的編碼。函數返回值為字典,有2個元數,一個是檢測的可信度,另外一個就是檢測到的編碼。
chardet 安裝
下載chardet後,解壓chardet壓縮包,直接將chardet文件夾放在應用程序目錄下,就可以使用import chardet開始使用chardet了。
或者使用setup.py安裝文件,將chardet拷貝到Python系統目錄下,這樣所有的python程序只要用import chardet就可以了。
㈧ python正則匹配漢字
#python2使用如下即可:
#encoding:UTF-8
importre
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
defextract_number(input):
match=re.search(u"[u4e00-u9fa5]+",input)
returnmatch.group()
if__name__=="__main__":
printextract_number(unicode("dss2第三季度建安大sdssd43fds",'utf8'))#python3使用如下:
#encoding:UTF-8
importre
defextract_number(input):
match=re.search("[u4e00-u9fa5]+",input)
returnmatch.group()
if__name__=="__main__":
print(extract_number("dss2第三季度建安大sdssd43fds"))
㈨ python 如何將亂碼轉成漢字
1、python2與python3稍微有點區別
2、python2中默認的字元編碼格式都是unicode,在字元串前加'u',表示unicode 編碼
3、將unicode轉換成中文,只需要用deconde解碼就可以了
>>> u='歡迎'>>> e=u.encode()>>> eb'\xe6\xac\xa2\xe8\xbf\x8e'>>> e.decode()#python3中默認就是utf-8編碼'歡迎'>>> e.decode('gbk')#如果解碼為gbk就是亂碼'嬈四繋'
python2編碼環境比較復雜,在這里不做詳細說明
㈩ python怎麼讀取文本中的漢字
x="你好"
print("你好")