divpython
⑴ python怎麼獲取div下的ul下的li下的a里href的內容
利用request獲取網頁內容;
利用BeautifulSoup處理並獲取節點信息。
Python代碼
若沒有上述兩個模塊就用pip等工具安裝到python庫中
⑵ python怎麼抓取網頁中DIV的文字
使用 BeautifulSoup 進行解析 html,需要安裝 BeautifulSoup
#coding=utf-8
importurllib2
importsocket
importhttplib
frombs4importBeautifulSoup
UserAgent='Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/57.0.2987.98Safari/537.36'
defdownloadPage(url):
try:
opener=urllib2.build_opener()
headers={'User-Agent':UserAgent}
req=urllib2.Request(url=url,headers=headers)
resp=opener.open(req,timeout=30)
result=resp.read()
returnresult
excepturllib2.HTTPError,ex:
printex
return''
excepturllib2.URLError,ex:
printex
return''
exceptsocket.error,ex:
printex
return''
excepthttplib.BadStatusLine,ex:
printex
return''
if__name__=='__main__':
content=downloadPage("這填douban的地址")
#printcontent
soap=BeautifulSoup(content,'lxml')
lst=soap.select('ol.grid_viewli')
foriteminlst:
#電影詳情頁鏈接
printitem.select('div.item>div.pica')[0].attrs['href']
#圖片鏈接
printitem.select('div.item>div.picaimg')[0].attrs['src']
#標題
printitem.select('div.item>div.info>div.hd>a>span.title')[0].get_text()
#評分
printitem.select('div.item>div.info>div.bd>div.star>span.rating_num')[0].get_text()
print'-------------------------------------------------------------------------'
⑶ 新手求助,關於python抓取一個DIV的內容
import re
a = '<div>test</div>'
b = '<div>(?P<content>.*)</div>'
c = re.match(b, a)
print c.groups()
結果('test', )
⑷ python用scrapy怎樣獲取div里的內容
我們都知道python中可以是threading模塊實現多線程, 但是模塊並沒有提供暫停, 恢復和停止線程的方法, 一旦線程對象調用start方法後, 只能等到對應的方法函數運行完畢. 也就是說一旦start後, 線程就屬於失控狀態.
⑸ divmod在python中是什麼意思
python中divmod()是一個內置函數。
python中 divmod() 函數把除數和余數運算結果結合起來,返回一個包含商和余數的元組(a // b, a % b),這樣得到的結果是整數部分和余數。divmod的兩個參數一般情況下都是可以參與數學運算的數字,在python2.3版本之後又引入了復數的運算,但很少用到。
參數及舉例:
參數:a,b:可以為數字(包括復數)。
返回值:返回的是a//b(除法取整)以及a對b的余數,即返回包含商和余數的元組;返回結果類型為tuple。
例如:divmod(7,2)得到的結果是(3,1),其中3代表是7/2的整數部分,1代表7/2的余數部分。