php爬蟲教程

發布時間: 2024-02-05 14:15:19

㈠ python 爬蟲的入門教程有哪些值得推薦的

Python 爬蟲的入門教程有很多值得推薦的，以下是一些比較受歡迎和推薦的教程：

1.《精通 Python 網路爬蟲》：這本書是一本入門級的 Python 爬蟲教程，適合初學者學習。

Python3 網路爬蟲實戰：這是一個在線教程，詳細介紹了 Python 爬蟲的基礎知識，包括爬蟲的原理、如何使用 Python 爬取網頁、如何使用正則表達式和 XPath 解析網頁等。
Python 爬蟲指南：這是一個在線教程，通過幾個簡單的例子來介紹 Python 爬蟲的基礎知識。
網路爬蟲實戰：這是一個在線課程，通過幾個實際案例來介紹 Python 爬蟲的基礎知識和進階技巧。
Python 爬蟲實戰：這是一個在線課程，通過幾個實際案例來介紹 Python 爬蟲的基礎知識和進階技巧。

以上是一些比較受歡迎和推薦的 Python 爬蟲入門教程，你可以根據自己的需求和學習進度選擇適合自己的教程。

bilibili上也有一些視頻教程。

㈡如何用PHP做網路爬蟲

其實用PHP來爬會非常方便，主要是PHP的正則表達式功能在搜集頁面連接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

㈢如何入門 Python 爬蟲

「入門」是良好的動機，但是可能作用緩慢。如果你手裡或者腦子里有一個項目，那麼實踐起來你會被目標驅動，而不會像學習模塊一樣慢慢學習。

另外如果說知識體系裡的每一個知識點是圖里的點，依賴關系是邊的話，那麼這個圖一定不是一個有向無環圖。因為學習A的經驗可以幫助你學習B。因此，你不需要學習怎麼樣「入門」，因為這樣的「入門」點根本不存在！你需要學習的是怎麼樣做一個比較大的東西，在這個過程中，你會很快地學會需要學會的東西的。當然，你可以爭論說需要先懂python，不然怎麼學會python做爬蟲呢？但是事實上，你完全可以在做這個爬蟲的過程中學習python :D
看到前面很多並孝答案都講的「術」——用什麼軟體怎麼爬，那我就講講「道」和「術」吧——爬蟲怎麼工作以及怎麼在python實現。
先長話短說summarize一下：
你需要學習

基本的爬蟲工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大規模網頁抓取，你需要學習分布式爬蟲的概念。其實沒那麼玄乎，你只要學會怎樣維護一個所有集群機器能夠有效分享的分布式隊列就好。最簡單的實現是python-rq: https://github.com/nvie/rq
rq和Scrapy的結合：darkrho/scrapy-redis · GitHub
後續處理，網頁析取(grangier/python-goose · GitHub)，存儲(Mongodb)

以下是短話長說：
說說當初寫的一個集群爬下整個豆瓣的經驗吧。
1）首先你要明白爬蟲怎樣工作。
想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。
在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。
好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。
那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。
所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。
2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。
問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一絕雹稿下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而肆橘每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。
通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example
注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。
3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...
那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？
我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub
4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。
但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。
所以，不要問怎麼入門，直接上路就好了：）

閱讀全文

熱點內容

win7ftp用戶名和密碼設置發布：2025-01-22 17:46:48 瀏覽：220

三表聯查的sql語句發布：2025-01-22 17:27:13 瀏覽：418

安卓怎麼解壓分卷壓縮發布：2025-01-22 17:24:59 瀏覽：720

歐姆龍plc編程語言發布：2025-01-22 17:21:48 瀏覽：395

和值編程發布：2025-01-22 17:20:07 瀏覽：517

微信青少年模式獨立密碼是什麼發布：2025-01-22 16:52:06 瀏覽：589

騰訊雲伺服器怎麼購買發布：2025-01-22 16:45:01 瀏覽：630

天貓怎麼上傳視頻發布：2025-01-22 16:40:02 瀏覽：727

安卓如何把抖音評論換成黑色發布：2025-01-22 16:30:57 瀏覽：702

連接池Java 發布：2025-01-22 16:28:27 瀏覽：260

php爬蟲教程

與php爬蟲教程相關的資訊