當前位置:首頁 » 編程語言 » 抓取網頁數據python

抓取網頁數據python

發布時間: 2022-11-03 12:58:19

python如何提取網頁信息

requests庫+ 正則表達式/dom庫/xpath庫等

② python怎麼抓取網頁中DIV的文字

使用 BeautifulSoup 進行解析 html,需要安裝 BeautifulSoup

#coding=utf-8

importurllib2
importsocket
importhttplib
frombs4importBeautifulSoup

UserAgent='Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/57.0.2987.98Safari/537.36'

defdownloadPage(url):

try:

opener=urllib2.build_opener()

headers={'User-Agent':UserAgent}

req=urllib2.Request(url=url,headers=headers)

resp=opener.open(req,timeout=30)
result=resp.read()

returnresult

excepturllib2.HTTPError,ex:
printex
return''
excepturllib2.URLError,ex:
printex
return''
exceptsocket.error,ex:
printex
return''
excepthttplib.BadStatusLine,ex:
printex
return''


if__name__=='__main__':

content=downloadPage("這填douban的地址")

#printcontent

soap=BeautifulSoup(content,'lxml')

lst=soap.select('ol.grid_viewli')

foriteminlst:
#電影詳情頁鏈接
printitem.select('div.item>div.pica')[0].attrs['href']

#圖片鏈接
printitem.select('div.item>div.picaimg')[0].attrs['src']

#標題
printitem.select('div.item>div.info>div.hd>a>span.title')[0].get_text()

#評分
printitem.select('div.item>div.info>div.bd>div.star>span.rating_num')[0].get_text()
print'-------------------------------------------------------------------------'

③ python如何讀取網頁中的數據

用Beautiful Soup這類解析模塊:

  1. Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規范標記並生成剖析樹(parse tree);

  2. 它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作;

  3. 用urllib或者urllib2(推薦)將頁面的html代碼下載後,用beautifulsoup解析該html;

  4. 然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如:


    html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
    soup=BeautifulSoup(html)
    soup.contents[0].name
    #u'html'
    soup.comtents[0].contents[0].name
    #u'head'
    head=soup.comtents[0].contents[0]
    head.parent.name
    #u'html'
    head.next
    #u'<title>test</title>

④ 如何用python抓取網頁資料庫

最簡單可以用urllib,python2.x和python3.x的用法不同,以python2.x為例:

import urllib
html = urllib.open(url)
text = html.read()
復雜些可以用requests庫,支持各種請求類型,支持cookies,header等
再復雜些的可以用selenium,支持抓取javascript產生的文本

⑤ python request怎麼抓取網頁數據

我們經常會發現網頁中的許多數據並不是寫死在HTML中的,而是通過js動態載入的。所以也就引出了什麼是動態數據的概念, 動態數據在這里指的是網頁中由Javascript動態生成的頁面內容,是在頁面載入到瀏覽器後動態生成的,而之前並沒有的。

在編寫爬蟲進行網頁數據抓取的時候,經常會遇到這種需要動態載入數據的HTML網頁,如果還是直接從網頁上抓取那麼將無法獲得任何數據。

今天,我們就在這里簡單聊一聊如何用python來抓取頁面中的JS動態載入的數據。

給出一個網頁:豆瓣電影排行榜,其中的所有電影信息都是動態載入的。我們無法直接從頁面中獲得每個電影的信息。

如下圖所示,我們無法在HTML中找到對應的電影信息。

⑥ 如何用python爬取一個網站的評論數據

假如一個商品全部評論數據為20w+ 默認好評15w+ 這15w+的默認好評就會不顯示出來。那麼我們可以爬取的數據就只剩下5w+ 接下來 我們就分別爬取全部好評 好評 中評 差評 追加評價 但是就算這些數據加起來 也仍然不足5w+ 上文的博主猜測可能有兩點原因:

1.出現了數據造假,這個數字可能是刷出來的
2.真的有這么多的評論,但這時候系統可能只顯示其中比較新的評論,而對比較舊的評論進行了存檔。
在博主理論的基礎上我也進行了很多相應的測試,就是說無論如何 我們最終都爬不到剩下的5w條數據 只能爬取一部分但這一部分數據也將近上千多條 如果有小夥伴能爬取下更多歡迎補充。

整體思路

全部評價 好評 中評 差評 追加評價的網址都是涉及到一定的參數的 只要修改網頁的數據 在遍歷頁碼 即可完成全部的爬取。

⑦ 如何用python抓取網頁資料庫

最簡單可以用urllib,python2.x和python3.x的用法不同,以python2.x為例:
import
urllib
html
=
urllib.open(url)
text
=
html.read()
復雜些可以用requests庫,支持各種請求類型,支持cookies,header等
再復雜些的可以用selenium,支持抓取javascript產生的文本

⑧ 如何用python抓取網頁上的數據

使用內置的包來抓取,就是在模仿瀏覽器訪問頁面,再把頁面的數據給解析出來,也可以看做是一次請求。

⑨ 如何用Python爬蟲抓取網頁內容

首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.

importrequests
frombs4importBeautifulSoup

iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res=requests.get(iurl)

res.encoding='utf-8'

#print(len(res.text))

soup=BeautifulSoup(res.text,'html.parser')

#標題
H1=soup.select('#artibodyTitle')[0].text

#來源
time_source=soup.select('.time-source')[0].text


#來源
origin=soup.select('#artibodyp')[0].text.strip()

#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()

#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text

這樣就可以了

⑩ 如何用python從網頁上抓取數據

用Beautiful Soup這類解析模塊: Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規范標記並生成剖析樹(parse tree); 它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作

熱點內容
蘇州什麼是刀片伺服器 發布:2025-01-10 17:08:55 瀏覽:916
樓宇對講linux和安卓哪個好 發布:2025-01-10 17:08:53 瀏覽:630
編程貓電腦版 發布:2025-01-10 17:07:25 瀏覽:941
上傳音樂表 發布:2025-01-10 17:04:52 瀏覽:166
如何在安卓tv上裝當貝市場 發布:2025-01-10 16:59:54 瀏覽:979
電腦鐵電存儲 發布:2025-01-10 16:57:19 瀏覽:464
c語言源程序的基本單位 發布:2025-01-10 16:47:37 瀏覽:287
王者安卓賬號如何換到蘋果 發布:2025-01-10 16:34:47 瀏覽:730
c語言lua 發布:2025-01-10 16:34:46 瀏覽:208
我的世界檢測伺服器人員 發布:2025-01-10 16:32:30 瀏覽:834