python分布式爬蟲
① python爬蟲之scrapy_redis原理分析並實現斷點續爬以及分布式爬蟲
學習目標:深入理解scrapy_redis在斷點續爬和分布式爬蟲中的應用,通過實戰GitHub demo代碼和dmoz文件進行實踐。
首先,我們從dmoz爬蟲文件入手,它使用crawlspider類型,但settings.py中新增了關鍵配置。RedisPipeline用於數據處理,RFPDupeFilter實現指紋去重,Scheler則負責請求調度,以及SCHEDULER_PERSIST的持久化策略。
運行dmoz爬蟲時,觀察到爬蟲在前次基礎上繼續擴展,證明它是基於增量式url的爬蟲。RedisPipeline的process_item方法負責數據存儲到Redis,RFPDupeFilter對request對象進行加密,而Scheler則根據策略決定何時加入請求隊列並過濾已抓取記錄。
要實現單機斷點續爬,可以借鑒網易招聘爬蟲的模式,它同樣基於增量式url。針對分布式爬蟲,我們分析example-project項目中的myspider_redis.py,其中包含分布式爬蟲的代碼結構。
實戰中,如要將Tencent爬蟲改造為分布式,需關注啟動方式的變化。整體來說,scrapy_redis的精髓在於高效去重、調度和分布式處理,通過這些組件的整合,我們可以靈活地實現斷點續爬和分布式爬取。
② 沒有django基礎可以學慕課網的python分布式爬蟲課程嗎
沒有django基礎也可以學,因為慕課 網 的python分布式爬蟲課程中對django的應用比較簡單,不過也就是提供搜索介面和展示搜索數據罷了,老師主要是講scrapy和elasticsearch這部分內容,不過你學習這個課程也不能赤膊上陣,還是得需要具備一定的原生爬蟲基礎的,而且還得了解前端頁面,面向對象概念,計算機網路協議和資料庫知識,同時知道html的dom結構和少量的css。
③ Python的爬蟲框架有哪些
向大家推薦十個Python爬蟲框架。
1、Scrapy:Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。它是很強大的爬蟲框架,可以滿足簡單的頁面爬取,比如可以明確獲知url pattern的情況。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。它的特性有:HTML, XML源數據 選擇及提取 的內置支持;提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders),對智能處理爬取數據提供了內置支持。
2、Crawley:高速爬取對應網站的內容,支持關系和非關系資料庫,數據可以導出為JSON、XML等。
3、Portia:是一個開源可視化爬蟲工具,可讓使用者在不需要任何編程知識的情況下爬取網站!簡單地注釋自己感興趣的頁面,Portia將創建一個蜘蛛來從類似的頁面提取數據。簡單來講,它是基於scrapy內核;可視化爬取內容,不需要任何開發專業知識;動態匹配相同模板的內容。
4、newspaper:可以用來提取新聞、文章和內容分析。使用多線程,支持10多種語言等。作者從requests庫的簡潔與強大得到靈感,使用Python開發的可用於提取文章內容的程序。支持10多種語言並且所有的都是unicode編碼。
5、Python-goose:Java寫的文章提取工具。Python-goose框架可提取的信息包括:文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標簽。
6、Beautiful Soup:名氣大,整合了一些常用爬蟲需求。它是一個可以從HTML或XML文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。Beautiful Soup的缺點是不能載入JS。
7、mechanize:它的優點是可以載入JS。當然它也有缺點,比如文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
8、selenium:這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。Selenium是自動化測試工具,它支持各種瀏覽器,包括 Chrome,Safari,Firefox等主流界面式瀏覽器,如果在這些瀏覽器裡面安裝一個 Selenium 的插件,可以方便地實現Web界面的測試. Selenium支持瀏覽器驅動。Selenium支持多種語言開發,比如 Java,C,Ruby等等,PhantomJS 用來渲染解析JS,Selenium 用來驅動以及與Python的對接,Python進行後期的處理。
9、cola:是一個分布式的爬蟲框架,對於用戶來說,只需編寫幾個特定的函數,而無需關注分布式運行的細節。任務會自動分配到多台機器上,整個過程對用戶是透明的。項目整體設計有點糟,模塊間耦合度較高。
10、PySpider:一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分布式架構,支持多種資料庫後端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器。Python腳本控制,可以用任何你喜歡的html解析包。
以上就是分享的Python爬蟲一般用的十大主流框架。這些框架的優缺點都不同,大家在使用的時候,可以根據具體場景選擇合適的框架。
④ python分布式爬蟲是什麼意思
一、分布式爬蟲架構
在了解分布式爬蟲架構之前,首先回顧一下Scrapy的架構,如下圖所示。
我們需要做的就是在多台主機上同時運行爬蟲任務協同爬取,而協同爬取的前提就是共享爬取隊列。這樣各台主機就不需要各自維護爬取隊列,而是從共享爬取隊列存取Request。但是各台主機還是有各自的Scheler和Downloader,所以調度和下載功能分別完成。如果不考慮隊列存取性能消耗,爬取效率還是會成倍提高。
二、維護爬取隊列
那麼這個隊列用什麼來維護?首先需要考慮的就是性能問題。我們自然想到的是基於內存存儲的Redis,它支持多種數據結構,例如列表(List)、集合(Set)、有序集合(Sorted Set)等,存取的操作也非常簡單。
Redis支持的這幾種數據結構存儲各有優點。
列表有lpush()、lpop()、rpush()、rpop()方法,我們可以用它來實現先進先出式爬取隊列,也可以實現先進後出棧式爬取隊列。
集合的元素是無序的且不重復的,這樣我們可以非常方便地實現隨機排序且不重復的爬取隊列。
有序集合帶有分數表示,而Scrapy的Request也有優先順序的控制,我們可以用它來實現帶優先順序調度的隊列。
我們需要根據具體爬蟲的需求來靈活選擇不同的隊列。
三、如何去重
Scrapy有自動去重,它的去重使用了Python中的集合。這個集合記錄了Scrapy中每個Request的指紋,這個指紋實際上就是Request的散列值。我們可以看看Scrapy的源代碼,如下所示:
importhashlib
defrequest_fingerprint(request, include_headers=None):
ifinclude_headers:
include_headers = tuple(to_bytes(h.lower())
forhinsorted(include_headers))
cache = _fingerprint_cache.setdefault(request, {})
ifinclude_headersnotincache:
fp = hashlib.sha1()
fp.update(to_bytes(request.method))
fp.update(to_bytes(canonicalize_url(request.url)))
fp.update(request.bodyorb'')
ifinclude_headers:
forhdrininclude_headers:
ifhdrinrequest.headers:
fp.update(hdr)
forvinrequest.headers.getlist(hdr):
fp.update(v)
cache[include_headers] = fp.hexdigest()
returncache[include_headers]
request_fingerprint()就是計算Request指紋的方法,其方法內部使用的是hashlib的sha1()方法。計算的欄位包括Request的Method、URL、Body、Headers這幾部分內容,這里只要有一點不同,那麼計算的結果就不同。計算得到的結果是加密後的字元串,也就是指紋。每個Request都有獨有的指紋,指紋就是一個字元串,判定字元串是否重復比判定Request對象是否重復容易得多,所以指紋可以作為判定Request是否重復的依據。
那麼我們如何判定重復呢?Scrapy是這樣實現的,如下所示:
def__init__(self):
self.fingerprints = set()
defrequest_seen(self, request):
fp = self.request_fingerprint(request)
iffpinself.fingerprints:
returnTrue
self.fingerprints.add(fp)
在去重的類RFPDupeFilter中,有一個request_seen()方法,這個方法有一個參數request,它的作用就是檢測該Request對象是否重復。這個方法調用request_fingerprint()獲取該Request的指紋,檢測這個指紋是否存在於fingerprints變數中,而fingerprints是一個集合,集合的元素都是不重復的。如果指紋存在,那麼就返回True,說明該Request是重復的,否則這個指紋加入到集合中。如果下次還有相同的Request傳遞過來,指紋也是相同的,那麼這時指紋就已經存在於集合中,Request對象就會直接判定為重復。這樣去重的目的就實現了。
Scrapy的去重過程就是,利用集合元素的不重復特性來實現Request的去重。
對於分布式爬蟲來說,我們肯定不能再用每個爬蟲各自的集合來去重了。因為這樣還是每個主機單獨維護自己的集合,不能做到共享。多台主機如果生成了相同的Request,只能各自去重,各個主機之間就無法做到去重了。
那麼要實現去重,這個指紋集合也需要是共享的,Redis正好有集合的存儲數據結構,我們可以利用Redis的集合作為指紋集合,那麼這樣去重集合也是利用Redis共享的。每台主機新生成Request之後,把該Request的指紋與集合比對,如果指紋已經存在,說明該Request是重復的,否則將Request的指紋加入到這個集合中即可。利用同樣的原理不同的存儲結構我們也實現了分布式Reqeust的去重。
四、防止中斷
在Scrapy中,爬蟲運行時的Request隊列放在內存中。爬蟲運行中斷後,這個隊列的空間就被釋放,此隊列就被銷毀了。所以一旦爬蟲運行中斷,爬蟲再次運行就相當於全新的爬取過程。
要做到中斷後繼續爬取,我們可以將隊列中的Request保存起來,下次爬取直接讀取保存數據即可獲取上次爬取的隊列。我們在Scrapy中指定一個爬取隊列的存儲路徑即可,這個路徑使用JOB_DIR變數來標識,我們可以用如下命令來實現:
scrapy crawl spider -s JOB_DIR=crawls/spider
更加詳細的使用方法可以參見官方文檔,鏈接為:https://doc.scrapy.org/en/latest/topics/jobs.html。
在Scrapy中,我們實際是把爬取隊列保存到本地,第二次爬取直接讀取並恢復隊列即可。那麼在分布式架構中我們還用擔心這個問題嗎?不需要。因為爬取隊列本身就是用資料庫保存的,如果爬蟲中斷了,資料庫中的Request依然是存在的,下次啟動就會接著上次中斷的地方繼續爬取。
所以,當Redis的隊列為空時,爬蟲會重新爬取;當Redis的隊列不為空時,爬蟲便會接著上次中斷之處繼續爬取。
五、架構實現
我們接下來就需要在程序中實現這個架構了。首先實現一個共享的爬取隊列,還要實現去重的功能。另外,重寫一個Scheer的實現,使之可以從共享的爬取隊列存取Request。
幸運的是,已經有人實現了這些邏輯和架構,並發布成叫Scrapy-Redis的Python包。接下來,我們看看Scrapy-Redis的源碼實現,以及它的詳細工作原理
⑤ Python爬蟲好寫嗎
python爬蟲不簡單的,基礎爬蟲:
(1)基礎庫:urllib模塊/requests第三方模塊
首先爬蟲就是要從網頁上把我們需要的信息抓取下來的,那麼我們就要學習urllib/requests模塊,這兩種模塊是負責爬取網頁的。這里大家覺得哪一種用的習慣就用哪一種,選擇一種精通就好了。我推薦讀者使用使用requests模塊,因為這一種簡便很多,容易操作、容易理解,所以requests被稱為「人性化模塊」。
(2)多進程、多線程、協程和分布式進程:
為什麼要學著四個知識呢?假如你要爬取200萬條的數據,使用一般的單進程或者單線程的話,你爬取下載這些數據,也許要一個星期或是更久。試問這是你想要看到的結果嗎?顯然單進程和單線程不要滿足我們追求的高效率,太浪費時間了。只要設置好多進程和多線程,爬取數據的速度可以提高10倍甚至更高的效率。
(3)網頁解析提取庫:xpath/BeautifulSoup4/正則表達式
通過前面的(1)和(2)爬取下來的是網頁源代碼,這里有很多並不是我們想要的信息,所以需要將沒用的信息過濾掉,留下對我們有價值的信息。這里有三種解析器,三種在不同的場景各有特色也各有不足,總的來說,學會這三種靈活運用會很方便的。推薦理解能力不是很強的朋友或是剛入門爬蟲的朋友,學習BeautifulSoup4是很容易掌握並能夠快速應用實戰的,功能也非常強大。
(4)反屏蔽:請求頭/代理伺服器/cookie
在爬取網頁的時候有時會失敗,因為別人網站設置了反爬蟲措施了,這個時候就需要我們去偽裝自己的行為,讓對方網站察覺不到我們就是爬蟲方。請求頭設置,主要是模擬成瀏覽器的行為;IP被屏蔽了,就需要使用代理伺服器來破解;而cookie是模擬成登錄的行為進入網站。
(5)異常:超時處理/異常處理,這里不做介紹了,自己去了解一下。
(6)數據儲存庫:文件系統儲存/MySQL/MongoDB
數據的儲存大概就這三種方式了,文件系統儲存是運用了python文件操作來執行的;而MySQL要使用到資料庫創建表格來儲存數據;MongoDB在爬蟲里是非常好的儲存方式,分布式爬蟲就是運用了MongoDB來儲存的。各有特色,看自己需要哪種,在靈活運用。
(7)動態網頁抓取:Ajax/PhantomJS/Selenium這三個知識點
(8)抓包:APP抓包/API爬蟲
(9)模擬登陸的 爬蟲