python字元串包含中文

發布時間: 2023-07-27 04:04:37

『壹』請教python匹配中文字元的方法

#-*-coding:UTF-8-*-
__author__=u'麗江海月客棧'

s="""{"hearl":"","nickname":"","loginstatus":"","loginstate":"","tip":"未注冊服務","idUser":"","sessionId":"","upgradeUrl":"","checkCodeKey":"false"}"""

ss=s.decode('utf-8')

importre


re_words=re.compile(u"[u4e00-u9fa5]+")
m=re_words.search(ss,0)
printm.group()

『貳』 Python字元串是什麼，如何使用

字元串的表示

字元串可以被成對的單引號(single quote)或雙引號(double quotes)包圍起來，這兩者的作用是一樣的：

更多關於Python的基礎性知識可以看下這個網頁的視頻教程，Python常見的數據類型及使用方法掌握，希望我的回答能幫到你。

『叄』 python 判斷字元串中是否含有漢字

#!
/usr/bin/python
#
-*-
coding:
utf-8
-*-
import
re
zhPattern
=
re.compile(u'[\u4e00-\u9fa5]+')
#一個小應用，判斷一段文本中是否包含簡體中：
contents=u'一個小應用，判斷一段文本中是否包含簡體中：'
match
=
zhPattern.search(contents)
if
match:
print
u'有中文：%s'
%
(match.group(0),)
else:
print
u'沒有包含中文'

『肆』 Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

『伍』 python 判斷是否含有數字，英文字元和漢字

str=''
這里到str代表任意字元串
1.判斷是否含有數字
if str >= u'\u4e00' and str =< u'\u9fa5':
return "包含漢字"
else:
return "不包含漢字"
2.判斷一個unicode是否是英文字母
if (str>= u'\u0041' and str<=u'\u005a') or (str >= u'\u0061'and str<=u'\u007a'):
return "包含"
else:
return "不包含"
3.判斷是否非漢字，數字和英文字元
if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
return True
else:
return False

『陸』 Python中中文字元串怎麼處理

如果處理的字元串中出現中文表示的字元，要想不出錯，就得轉成unicode編碼了。具體的方法有：
1、decode()，將其他邊編碼的字元串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字元串str1轉換成unicode編碼；
2、encode()，將unicode編碼轉換成其他編碼的字元串，如str2.encode('gb2312')，表示將unicode編碼的字元串str2轉換成gb2312編碼；
3、unicode()，同decode()，將其他編碼的字元串轉換成unicode編碼，如unicode(str3, 'gb2312')，表示將gb2312編碼的字元串str3轉換成unicode編碼。
轉碼的時候一定要先搞明白字元串str是什麼編碼，然後decode成unicode，最後再encode成其他編碼。
另外，對一個unicode編碼的字元串在進行解碼會出錯，所以在編碼未知的情況下要先判斷其編碼方式是否為unicode，可以用isinstance(str, unicode)。
不僅是中文，以後處理含非ascii編碼的字元串時，都可以遵循以下步驟：
1、確定源字元的編碼格式，假設是utf8；
2、使用unicode()或decode()轉換成unicode編碼，如str1.decode('utf8')，或者unicode(str1, 'utf8');
3、把處理後字元串用encode()編碼成指定格式。

閱讀全文

熱點內容

安卓手機a16數據在哪個文件夾發布：2025-04-05 18:01:44 瀏覽：483

netty實現ftp 發布：2025-04-05 17:35:54 瀏覽：92

列印菱形java 發布：2025-04-05 17:35:53 瀏覽：912

等響演算法發布：2025-04-05 17:24:17 瀏覽：998

演算法精編發布：2025-04-05 17:17:03 瀏覽：355

虐殺原形2和熱血無賴哪個配置高發布：2025-04-05 17:09:23 瀏覽：610

計算機常用演算法發布：2025-04-05 17:07:54 瀏覽：65

天選2密碼在哪裡設置發布：2025-04-05 16:36:28 瀏覽：87

目前什麼安卓手機續航能力最強發布：2025-04-05 16:31:22 瀏覽：598

夢幻壓縮打造什麼意思發布：2025-04-05 16:28:55 瀏覽：235

python字元串包含中文

與python字元串包含中文相關的資訊