python提取文字
① python怎麼抓取網頁中DIV的文字
使用 BeautifulSoup 進行解析 html,需要安裝 BeautifulSoup
#coding=utf-8
importurllib2
importsocket
importhttplib
frombs4importBeautifulSoup
UserAgent='Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/57.0.2987.98Safari/537.36'
defdownloadPage(url):
try:
opener=urllib2.build_opener()
headers={'User-Agent':UserAgent}
req=urllib2.Request(url=url,headers=headers)
resp=opener.open(req,timeout=30)
result=resp.read()
returnresult
excepturllib2.HTTPError,ex:
printex
return''
excepturllib2.URLError,ex:
printex
return''
exceptsocket.error,ex:
printex
return''
excepthttplib.BadStatusLine,ex:
printex
return''
if__name__=='__main__':
content=downloadPage("這填douban的地址")
#printcontent
soap=BeautifulSoup(content,'lxml')
lst=soap.select('ol.grid_viewli')
foriteminlst:
#電影詳情頁鏈接
printitem.select('div.item>div.pica')[0].attrs['href']
#圖片鏈接
printitem.select('div.item>div.picaimg')[0].attrs['src']
#標題
printitem.select('div.item>div.info>div.hd>a>span.title')[0].get_text()
#評分
printitem.select('div.item>div.info>div.bd>div.star>span.rating_num')[0].get_text()
print'-------------------------------------------------------------------------'
② python中如何從字元串內提取指定的字元
1、雙擊打開pycharm開發工具,新建一個python項目,查看對應的文件夾。
③ Python提取兩個字元串之間的內容
Python提取兩個字元串之間的內容步驟如下:
1、截取前6個字元:c='12369abcdefg./.、
'print (c[0:6]) ,注意,c裡面第0個字元,就是'1',是從第零個開始數的。
④ 怎樣把其中的漢字提取出來呀,求Python大佬解答
網頁源碼提取方式一般有三種:
bs4 >> css 選擇器
lxml >> xpath 選擇器
re >> 正則表達式
既然你選擇用 BeautifulSoup,所以你要自己好好學 css 選擇器。
⑤ 怎樣用Python提取文本中某一段文字
可以用正則或者切片。
處理大文本用正則,效率高。
簡單提取的話用切片就行了。
取出「test」四個字母,需要找前後的標識符,這里可以看做是「one」和「text」中間的字元。
1、切片使用方法(注意冒號):
text='onetesttext123'
right=text[text.find('one')+3:]#right結果為「testtext123」
result=right[:right.find('text')]
printresult
2、正則方法:
importre
text='onetesttext123'
match=re.search('one(w+)text',text)
result=match.group(1)
printresult
正則對新手來說過於復雜,有很多的語法和結構需要學習。
切片相對簡單,找出前後字元的位置(用find),再用字元切片,就能輕松取出想要的文本。
⑥ python怎樣抓取網頁中的文字和數字數據
通過xpath路徑來定位到要提取的元素,在路徑後面加上/text()可以提取該元素的文本,如果是要提取屬性值,在路徑後面加上/@屬性名就可以。如果要只採集數字或者文字,可以使用正則來實現。比如數字的正字表達式:[0-9]+。希望可以幫到題主
⑦ 如何使用python來獲取pdf文件里的文字,最好是不能亂碼
提取pdf文字可以推薦一個工具 參考圖片上下載試試
第一種文字型PDF比較簡單,可以採用格式轉換的方式直接轉換PDF文件為文本。打開PDF文字識別軟體,執行「文件」-「打開圖像...」導入PDF文件,然後執行「輸出」-「PDF文件轉換為TXT文件」第二種圖像型PDF,有的PDF都是掃描圖片,這個就不能復制文字了,可以採用OCR識別的方式,將PDF文件轉換為可編輯文檔。這也是本文主要講的pdf文字識別方法。還是打開PDF文字提取軟體,執行「文件」-「打開圖像...」導入PDF文件。然後執行「識別」-「開始識別...」。
⑧ python 爬蟲提取span文字
xpath('//span/text()')就直接所有span下文字的列表
⑨ 如何用Python requests 爬取網頁所有文字
您可以用requests庫的get方法,以請求的網址為參數,獲取網頁所有html代碼,再訪問結果是text屬性即可。