python正則表達式匹配中文

發布時間: 2023-09-20 07:24:10

『壹』 python怎麼用正則表達式提取中文

Python re正則匹配中文，其實非常簡單，把中文的unicode字元串轉換成utf-8格式就可以了，然後可以在re中隨意調用
unicode中中文的編碼為/u4e00-/u9fa5，因此正則表達式u」[\u4e00-\u9fa5]+」可以表示一個或者多個中文字元
>>> import re

>>> s='中文：123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'
>>> print s
中文：123456aa哈哈哈bbcc

>>> re.match(u"[\u4e00-\u9fa5]+",s)
<_sre.SRE_Match object at 0xb77742c0>

>>> pat='中文'.decode("utf8")
>>> re.search(pat,s)
<_sre.SRE_Match object at 0x16a16df0>

>>> newpat='這里是中文內容'.decode("utf8")

>>> news=re.sub(pat,newpat,s)
>>> print news
這里是中文內容：123456aa哈哈哈bbcc

from:http://blog.aizhet.com/web/12078.html

『貳』 python正則表達式中w居然能匹配漢字，請問是怎麼一回事

w匹配的是能組成單詞的字元，在python3
中re默認支持的是unicode字元集，當然也支持漢字
如果要讓w僅支持英文，加個re.A標志
print(re.findall(r"w",s,re.A))
這樣就不會匹配漢字了

『叄』 python怎麼獲取正則表達式匹配文之後的數據

可以使用re模塊中的search或finditer函數來獲取正則表達式匹配的文本之後的數據。search函數返回第一個匹配的對象，finditer函數返回一個迭代器，可慎虛沒洞以遍歷所有匹配對象。在匹配對象上寬察燃調用group()函數可以獲取匹配的數據。

示例代碼：

『肆』 Python re函數中文正則匹配

建議使用以下正則表達式：
(?<=>)[^a-zA-Z0-9_]+(?=<)

前面的 (?<=>) 和後面的 (?=<) ，使得匹配出現在> . . . < 之間；
[^a-zA-Z0-9_]+ 排除對英文數字下劃線的匹配，可根據具體情況作變動。

『伍』 Python用正則表達式匹配含有中文的字元串，匹配不到

代碼如下：

#coding=utf-8

importre
s=u'<li><aclass="nav-first"href="/">首頁</a></li>'
r=re.compile(u'<li><asclass="[^"]*"shref="[^"]">(.*?)(?=</a></li>)')
ss=r.findall(s)
forstrinss:
printstr

運行結果：

『陸』如何用Python正則表達式去匹配漢字加字母加數字的字元串

# -*- coding: utf-8 -*-
import re
pattern = re.compile(r'[\'白\'\'藍\'\'綠\'\'黃\']{1}[A-Z]{1}[A-Z0-9]{5}')
match = pattern.match('黃A')
if match:
print "OK"
else:
print "not ok"

『柒』 python，用正則表達式匹配特定漢字

在Python的string前面加上『r』，是為了告訴編譯器這個string是個raw string，不要轉意backslash '\' 。例如，\n 在raw string中，是兩個字元，\和n，而不會轉意為換行符。由於正則表達式和 \ 會有沖突，因此，當一個字元串使用了正則表達式後，最好在前面加上'r'。
在[]中
-長用來指定一個字元集，在這個字元集中的一個可以拿來匹配：[abc] [a-z]
-元字元在在字元集中不起作用
-在[]內用^表示補集，用來匹配不在區間范圍內的字元
s=r'aba' 匹配abc
s=r't[io]p' 匹配tip或者top
s=r't[a-z0-9A-Z]'匹配t+0-9或者a-z或者A-Z
[abc]表示「a」或「b」或「c」
[0-9]表示0~9中任意一個數字，等價於[0123456789]
[\u4e00-\u9fa5]表示任意一個漢字
[^a1<]表示除「a」、「1」、「<」外的其它任意一個字元
[^a-z]表示除小寫字母外的任意一個字元

『捌』 python怎麼用正則表達式提取中文

1、字元串line='ufeffD0002044x01大數據x01數據分析x01技術x01工具x01應用 '
想提取出其中的「大數據」，「數據分析」，「技術」，「工具」，「應用」這些中文，用了正則表達式：
>>>pat2='x01(.*?)'
>>>rs=re.compile(pat2).findall(line)
>>>print(rs)
['','','','','']
顯示的結果是空，請問如何才能正確的提出中文部分。

2、原文：法規名稱:'《中華人民共和國合同法》',Items:[{法條名稱:'第五十二條'
匹配成：《中華人民共和國合同法》第五十二條
(?<=法規名稱:').*?（',Items:[{法條名稱:'）.*?(?=') 請問這樣匹配哪裡錯了？Python報sre_constants.error: unterminated character set at position 22

3、Python re正則匹配中文，其實非常簡單，把中文的unicode字元串轉換成utf-8格式就可以了，然後可以在re中隨意調用
unicode中中文的編碼為/u4e00-/u9fa5，因此正則表達式u」[u4e00-u9fa5]+」可以表示一個或者多個中文字元
>>> import re
>>> s='中文：123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u''
>>> print s
中文：123456aa哈哈哈bbcc 。

『玖』 python的re，正則表達式，可以用中文么

解決了>>>
a='中文'>>>
a'\xd6\xd0\xce\xc4'>>>
import
re>>>
mytestre=re.compile('\xd6\xd0\xce\xc4')>>>
b='中文asdf223中文ss'>>>
mytestre.sub('zw',b)'zwasdf223zwss'>>>復制代碼關鍵是要找到中文相應coding對應的編碼，這里中文='\xd6\xd0\xce\xc4'所以，就用\xd6\xd0\xce\xc4代替中文就可以了，如果是其他編碼，也用類似的方法找到編碼的字元串就可以了，沒測試過，應該是這樣的。哈哈。:mrgreen:

閱讀全文

熱點內容

單身解壓發布：2025-03-09 09:19:24 瀏覽：430

圖片分布式存儲方案發布：2025-03-09 08:54:49 瀏覽：58

火影手游競技場腳本發布：2025-03-09 08:48:31 瀏覽：743

電腦如何訪問谷歌發布：2025-03-09 08:39:37 瀏覽：173

安卓怎麼多開微信發布：2025-03-09 08:34:02 瀏覽：595

怎麼看金蝶伺服器的ip地址發布：2025-03-09 08:33:59 瀏覽：270

pyc在線反編譯發布：2025-03-09 08:33:17 瀏覽：934

天龍極速腳本發布：2025-03-09 08:33:09 瀏覽：977

刀劍神域伺服器維護到什麼時候發布：2025-03-09 08:31:40 瀏覽：218

phppdf轉html 發布：2025-03-09 08:23:01 瀏覽：641

python正則表達式匹配中文

與python正則表達式匹配中文相關的資訊