python抓取中文
『壹』 python抓取網頁中文信息
#-*-coding:utf-8-*-
importurllib
importre
#使用正則表達式限定抓取的網頁地址
regex=r'<ahref="(.+?)"target="_blank"><strongclass="'
pat=re.compile(regex)
page=1
url="
info=urllib.urlopen(url).read()
Sub_pages=re.findall(pat,info)
#獲得網址中所有產品信息
regex=r'<td>(.+?) </td>'
pat=re.compile(regex)
forpageinSub_pages:
content=urllib.urlopen(page).read()
info=re.findall(pat,content)
print' '.join(info)#改成這樣試試
『貳』 python 抓取的網頁鏈接,鏈接中的中文亂碼問題
應該是shell的編碼和listinfo編碼不一樣導致的,部分正常,部分亂碼有可能是因為兩種編碼部分字元恰好一樣。
試試
importsys
printi[i].encode(sys.getdefaultencoding())
『叄』 python3 re模塊怎麼抓取中文類型
Python的re模塊里沒有直接匹配中文的屬性或者方法。
不過可以用re.findall+()來匹配,但是如果數據裡面有中英文,那麼就得再次匹配了。
例:
test = '<html><head>網路</head></html>'
cont = re.findall(r'<ht.*?head>(.*?)</hea',test)
print(cont)
『肆』 求助python截取字元串中中文的方法
>>>re.findall(r'[^0-9a-zA-Z]+','測試awk測試123測試11')
['xb2xe2xcaxd4','xb2xe2xcaxd4','xb2xe2xcaxd4']
『伍』 python怎麼用正則表達式提取中文
1、字元串line='ufeffD0002044x01大數據x01數據分析x01技術x01工具x01應用
'
想提取出其中的「大數據」,「數據分析」,「技術」,「工具」,「應用」這些中文,用了正則表達式:
>>>pat2='x01(.*?)'
>>>rs=re.compile(pat2).findall(line)
>>>print(rs)
['','','','','']
顯示的結果是空,請問如何才能正確的提出中文部分。
2、原文: 法規名稱:'《中華人民共和國合同法》',Items:[{法條名稱:'第五十二條'
匹配成: 《中華人民共和國合同法》第五十二條
(?<=法規名稱:').*?(',Items:[{法條名稱:').*?(?=') 請問這樣匹配哪裡錯了?Python報sre_constants.error: unterminated character set at position 22
3、Python re正則匹配中文,其實非常簡單,把中文的unicode字元串轉換成utf-8格式就可以了,然後可以在re中隨意調用
unicode中中文的編碼為/u4e00-/u9fa5,因此正則表達式u」[u4e00-u9fa5]+」可以表示一個或者多個中文字元
>>> import re
>>> s='中文:123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u''
>>> print s
中文:123456aa哈哈哈bbcc 。
『陸』 Python2.7 request.get抓取網頁,中文亂碼怎麼破
可以使用pandas里的dataframe,這個很方便處理數據。我舉個例子 import pandas as pddata=pd.DataFrame(...) #...為招聘信息儲存的變數(或者列、行等等)data.to_excel('D:/recruit.xls')很方便,即使招聘信息有很多,也可以1秒內完成轉換
『柒』 如何python提取txt文檔裡面全部的中文和中文符號,並且保存為新的txt文檔
用beautifulsoup處理啊,去除英文和符號就是中文啦
importre
zhongwen=re.sub(r'[w<>/,=:"']','',text')
『捌』 python如何提取網頁xml文件中的中文
『玖』 為什麼python爬取的中文亂碼
編碼錯了唄,python的bytes,默認的decode參數utf-8,如果網頁不是utf-8的,你就得手動指定編碼,國內很多網頁是gbk、gb2312的