豆瓣python

發布時間: 2022-01-21 00:31:03

A. 怎樣用python爬取豆瓣電影

推薦you-get工具包，pip可以直接下載安裝

B. 如何用python去爬豆瓣圖書

如何用python去爬豆瓣圖書
首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。

好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。

C. Python抓取豆瓣電影排行榜

1.觀察url
首先觀察一下網址的結構 http://movie.douban.com/top250?start=0&filter=&type= ：
可以看到，問號?後有三個參數 start、filter、type，其中start代表頁碼，每頁展示25部電影，0代表第一頁，以此類推25代表第二頁，50代表第三頁...
filter顧名思義，是過濾已經看過的電影，filter和type在這里不重要，可以不管。
2.查看網頁源代碼
打開上面的網址，查看源代碼，可以看到信息的展示結構如下：
1 <ol class="grid_view"> 2 <li> 3 <div class="item"> 4 <div class="pic"> 5 <em class="">1</em> 6 <a href="http://movie.douban.com/subject/1292052/"> 7 <img alt="肖申克的救贖" src="http://img3.douban.com/view/movie_poster_cover/ipst/public/p480747492.jpg" class=""> 8 </a> 9 </div>10 <div class="info">11 <div class="hd">12 <a href="http://movie.douban.com/subject/1292052/" class="">13 <span class="title">肖申克的救贖</span>14 <span class="title"> / The Shawshank Redemption</span>15 <span class="other"> / 月黑高飛(港) / 刺激1995(台)</span>16 </a>17 18 19 <span class="playable">[可播放]</span>20 </div>21 <div class="bd">22 <p class="">23 導演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins /...<br>24 1994 / 美國 / 犯罪劇情25 </p>26 27 28 <div class="star">29 <span class="rating5-t"><em>9.6</em></span>30 <span>646374人評價</span>31 </div>32 33 <p class="quote">34 <span class="inq">希望讓人自由。</span>35 </p>36 </div>37 </div>38 </div>39 </li>
其中<em class="">1</em>代表排名，<span class="title">肖申克的救贖</span>代表電影名，其他信息的含義也很容易能看出來。
於是接下來可以寫正則表達式：
1 pattern = re.compile(u'<div.*?class="item">.*?<div.*?class="pic">.*?' 2 + u'<em.*?class="">(.*?)</em>.*?' 3 + u'<div.*?class="info">.*?<span.*?class="title">(.*?)' 4 + u'</span>.*?<span.*?class="title">(.*?)</span>.*?' 5 + u'<span.*?class="other">(.*?)</span>.*?</a>.*?' 6 + u'<div.*?class="bd">.*?<p.*?class="">.*?' 7 + u'導演: (.*?) ' 8 + u'主演: (.*?)<br>' 9 + u'(.*?) / (.*?) / '10 + u'(.*?)</p>'11 + u'.*?<div.*?class="star">.*?<em>(.*?)</em>'12 + u'.*?<span>(.*?)人評價</span>.*?<p.*?class="quote">.*?'13 + u'<span.*?class="inq">(.*?)</span>.*?</p>', re.S)
在此處flag參數re.S代表多行匹配。
3.使用面向對象的設計模式編碼
代碼如下：
1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 import sys 6 7 class MovieTop250: 8 def __init__(self): 9 #設置默認編碼格式為utf-810 reload(sys)11 sys.setdefaultencoding('utf-8')12 self.start = 013 self.param = '&filter=&type='14 self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'}15 self.movieList = []16 self.filePath = 'D:/coding_file/python_file/File/DoubanTop250.txt'17 18 def getPage(self):19 try:20 URL = 'http://movie.douban.com/top250?start=' + str(self.start)21 request = urllib2.Request(url = URL, headers = self.headers)22 response = urllib2.urlopen(request)23 page = response.read().decode('utf-8')24 pageNum = (self.start + 25)/2525 print '正在抓取第' + str(pageNum) + '頁數據...' 26 self.start += 2527 return page28 except urllib2.URLError, e:29 if hasattr(e, 'reason'):30 print '抓取失敗，具體原因：', e.reason31 32 def getMovie(self):33 pattern = re.compile(u'<div.*?class="item">.*?<div.*?class="pic">.*?'34 + u'<em.*?class="">(.*?)</em>.*?'35 + u'<div.*?class="info">.*?<span.*?class="title">(.*?)'36 + u'</span>.*?<span.*?class="title">(.*?)</span>.*?'37 + u'<span.*?class="other">(.*?)</span>.*?</a>.*?'38 + u'<div.*?class="bd">.*?<p.*?class="">.*?'39 + u'導演: (.*?) '40 + u'主演: (.*?)<br>'41 + u'(.*?) / (.*?) / '42 + u'(.*?)</p>'43 + u'.*?<div.*?class="star">.*?<em>(.*?)</em>'44 + u'.*?<span>(.*?)人評價</span>.*?<p.*?class="quote">.*?'45 + u'<span.*?class="inq">(.*?)</span>.*?</p>', re.S)46 while self.start <= 225:47 page = self.getPage()48 movies = re.findall(pattern, page)49 for movie in movies:50 self.movieList.append([movie[0], movie[1], movie[2].lstrip(' / '),
51 movie[3].lstrip(' / '), movie[4],
52 movie[5], movie[6].lstrip(), movie[7], movie[8].rstrip(),53 movie[9], movie[10], movie[11]])54 55 def writeTxt(self):56 fileTop250 = open(self.filePath, 'w')57 try:58 for movie in self.movieList:59 fileTop250.write('電影排名：' + movie[0] + '\r\n')60 fileTop250.write('電影名稱：' + movie[1] + '\r\n')61 fileTop250.write('外文名稱：' + movie[2] + '\r\n')62 fileTop250.write('電影別名：' + movie[3] + '\r\n')63 fileTop250.write('導演姓名：' + movie[4] + '\r\n')64 fileTop250.write('參與主演：' + movie[5] + '\r\n')65 fileTop250.write('上映年份：' + movie[6] + '\r\n')66 fileTop250.write('製作國家/地區：' + movie[7] + '\r\n')67 fileTop250.write('電影類別：' + movie[8] + '\r\n')68 fileTop250.write('電影評分：' + movie[9] + '\r\n')69 fileTop250.write('參評人數：' + movie[10] + '\r\n')70 fileTop250.write('簡短影評：' + movie[11] + '\r\n\r\n')71 print '文件寫入成功...'72 finally:73 fileTop250.close()74 75 def main(self):76 print '正在從豆瓣電影Top250抓取數據...'77 self.getMovie()78 self.writeTxt()79 print '抓取完畢...'80 81 DouBanSpider = MovieTop250()82 DouBanSpider.main()

代碼比較簡單，最後將信息寫入一個文件，沒有什麼需要解釋的地方。

D. python3.5.2怎麼使用豆瓣鏡像

這里涉及urllib、urllib2及cookielib常用方法的使用登錄豆瓣，由於有驗證碼，採取的辦法是將驗證碼圖片下載到同目錄下，查看圖片後輸入驗證碼即可登錄、發帖帖子內容寫死在代碼中了

E. 如何用Python在豆瓣中獲取自己喜歡的TOP N

F. 豆瓣為什麼用python

人家只是在應用層用某種語言，在大型架構中，這只是佔到程序的一部分，特別是瓶頸不在這里。

G. 怎麼用python抓取豆瓣上用戶對電影的評分

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣電影TOP250 - 完整示例代碼
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()

H. python爬蟲豆瓣電影評價

這部電影看著非常不錯，畫面拍得非常唯美。

I. python爬取豆瓣影評，對於有基礎知識的爬蟲新手來說難度怎麼樣

最難五顆星，豆瓣影評最多2顆星。

J. python 代碼里如何判斷成功登錄豆瓣

#!py3
#_*_coding:utf-8_*_
importos
importsqlite3
importrequests
fromwin32.

defgetcookiefromchrome(host='.douban.com'):
'''最好還是從瀏覽器自動獲取當前登錄帳號的cookies，
然後再抓取內容，這里是演示從GoogleChrome中獲取cookies的例子。
host登錄伺服器的主域名，注意要在前面加個點號。
'''
cookiepath=os.environ['LOCALAPPDATA']+r""
sql="selecthost_key,name,encrypted_valuefromcookieswherehost_key='%s'"%host
withsqlite3.connect(cookiepath)asconn:
cu=conn.cursor()
cookies={name:CryptUnprotectData(encrypted_value)[1].decode()forhost_key,name,encrypted_valueincu.execute(sql).fetchall()}
print(cookies)
returncookies

url='http://www.douban.com'

httphead={'User-Agent':('Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.181Safari/537.36'),}

r=requests.get(url,headers=httphead,cookies=getcookiefromchrome('.douban.com'),allow_redirects=1)
print(r.text)

需要安裝的第三方模塊：requests，pywin32

閱讀全文

熱點內容

光遇安卓服周年傘在哪裡領取發布：2025-02-13 02:22:18 瀏覽：673

寫mv腳本軟體發布：2025-02-13 02:21:56 瀏覽：695

超內核源碼發布：2025-02-13 02:12:54 瀏覽：443

趣粉腳本發布：2025-02-13 02:11:23 瀏覽：951

壓縮的茶葉怎麼弄開發布：2025-02-13 02:11:16 瀏覽：738

n1ftp伺服器發布：2025-02-13 02:10:39 瀏覽：347

沒有卡沒有密碼怎麼辦啊發布：2025-02-13 01:51:53 瀏覽：460

linux2個ftp伺服器發布：2025-02-13 01:44:31 瀏覽：14

戴爾r730網路配置後如何保存發布：2025-02-13 01:38:27 瀏覽：344

php用什麼編譯發布：2025-02-13 01:37:12 瀏覽：703

豆瓣python

與豆瓣python相關的資訊