抓取網頁數據python
① python如何提取網頁信息
requests庫+ 正則表達式/dom庫/xpath庫等
② python怎麼抓取網頁中DIV的文字
使用 BeautifulSoup 進行解析 html,需要安裝 BeautifulSoup
#coding=utf-8
importurllib2
importsocket
importhttplib
frombs4importBeautifulSoup
UserAgent='Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/57.0.2987.98Safari/537.36'
defdownloadPage(url):
try:
opener=urllib2.build_opener()
headers={'User-Agent':UserAgent}
req=urllib2.Request(url=url,headers=headers)
resp=opener.open(req,timeout=30)
result=resp.read()
returnresult
excepturllib2.HTTPError,ex:
printex
return''
excepturllib2.URLError,ex:
printex
return''
exceptsocket.error,ex:
printex
return''
excepthttplib.BadStatusLine,ex:
printex
return''
if__name__=='__main__':
content=downloadPage("這填douban的地址")
#printcontent
soap=BeautifulSoup(content,'lxml')
lst=soap.select('ol.grid_viewli')
foriteminlst:
#電影詳情頁鏈接
printitem.select('div.item>div.pica')[0].attrs['href']
#圖片鏈接
printitem.select('div.item>div.picaimg')[0].attrs['src']
#標題
printitem.select('div.item>div.info>div.hd>a>span.title')[0].get_text()
#評分
printitem.select('div.item>div.info>div.bd>div.star>span.rating_num')[0].get_text()
print'-------------------------------------------------------------------------'
③ python如何讀取網頁中的數據
用Beautiful Soup這類解析模塊:
Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規范標記並生成剖析樹(parse tree);
它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作;
用urllib或者urllib2(推薦)將頁面的html代碼下載後,用beautifulsoup解析該html;
然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如:
html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
soup=BeautifulSoup(html)
soup.contents[0].name
#u'html'
soup.comtents[0].contents[0].name
#u'head'
head=soup.comtents[0].contents[0]
head.parent.name
#u'html'
head.next
#u'<title>test</title>
④ 如何用python抓取網頁資料庫
最簡單可以用urllib,python2.x和python3.x的用法不同,以python2.x為例:
import urllib
html = urllib.open(url)
text = html.read()
復雜些可以用requests庫,支持各種請求類型,支持cookies,header等
再復雜些的可以用selenium,支持抓取javascript產生的文本
⑤ python request怎麼抓取網頁數據
我們經常會發現網頁中的許多數據並不是寫死在HTML中的,而是通過js動態載入的。所以也就引出了什麼是動態數據的概念, 動態數據在這里指的是網頁中由Javascript動態生成的頁面內容,是在頁面載入到瀏覽器後動態生成的,而之前並沒有的。
在編寫爬蟲進行網頁數據抓取的時候,經常會遇到這種需要動態載入數據的HTML網頁,如果還是直接從網頁上抓取那麼將無法獲得任何數據。
今天,我們就在這里簡單聊一聊如何用python來抓取頁面中的JS動態載入的數據。
給出一個網頁:豆瓣電影排行榜,其中的所有電影信息都是動態載入的。我們無法直接從頁面中獲得每個電影的信息。
如下圖所示,我們無法在HTML中找到對應的電影信息。
⑥ 如何用python爬取一個網站的評論數據
假如一個商品全部評論數據為20w+ 默認好評15w+ 這15w+的默認好評就會不顯示出來。那麼我們可以爬取的數據就只剩下5w+ 接下來 我們就分別爬取全部好評 好評 中評 差評 追加評價 但是就算這些數據加起來 也仍然不足5w+ 上文的博主猜測可能有兩點原因:
1.出現了數據造假,這個數字可能是刷出來的
2.真的有這么多的評論,但這時候系統可能只顯示其中比較新的評論,而對比較舊的評論進行了存檔。
在博主理論的基礎上我也進行了很多相應的測試,就是說無論如何 我們最終都爬不到剩下的5w條數據 只能爬取一部分但這一部分數據也將近上千多條 如果有小夥伴能爬取下更多歡迎補充。
整體思路
全部評價 好評 中評 差評 追加評價的網址都是涉及到一定的參數的 只要修改網頁的數據 在遍歷頁碼 即可完成全部的爬取。
⑦ 如何用python抓取網頁資料庫
最簡單可以用urllib,python2.x和python3.x的用法不同,以python2.x為例:
import
urllib
html
=
urllib.open(url)
text
=
html.read()
復雜些可以用requests庫,支持各種請求類型,支持cookies,header等
再復雜些的可以用selenium,支持抓取javascript產生的文本
⑧ 如何用python抓取網頁上的數據
使用內置的包來抓取,就是在模仿瀏覽器訪問頁面,再把頁面的數據給解析出來,也可以看做是一次請求。
⑨ 如何用Python爬蟲抓取網頁內容
首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.
importrequests
frombs4importBeautifulSoup
iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'
res=requests.get(iurl)
res.encoding='utf-8'
#print(len(res.text))
soup=BeautifulSoup(res.text,'html.parser')
#標題
H1=soup.select('#artibodyTitle')[0].text
#來源
time_source=soup.select('.time-source')[0].text
#來源
origin=soup.select('#artibodyp')[0].text.strip()
#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()
#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text
這樣就可以了
⑩ 如何用python從網頁上抓取數據
用Beautiful Soup這類解析模塊: Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規范標記並生成剖析樹(parse tree); 它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作