php新聞抓取
『壹』 php怎麼實現採集網易新聞,並且帶有分頁效果
對於第一項表單而言
比如:
內容的第一頁http://php168.com/1/index-22.html
內容的第二頁http://php168.com/1/index-22_2.htm
那麼表單填.html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字元出現不同,就把第一頁網址之後的字元復制出來
如果是這種情況
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2
對於這種情況,他後面不同的是一個數字,即是頁碼數字的話,就不需要填寫.留空即可
對於第二項表單而言
第一頁http://php168.com/1/index-22.html
第二頁http://php168.com/1/index-22_2.htm
那麼右邊的表單填_[page].htm
分析規則就是對比第一頁與第二頁的網址從左到右哪個字元出現不同,就把第二頁的網址之後的字元復制出來,並把變動的頁碼數字用[page]替換
如果是這種情況
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2
對於這種情況,他後面不同的是一個數字,即是頁碼數字的話,更簡單,只需要填寫[page]即可
對於第三項表單而言
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_1.html
此時屬於怪癖的,理論上應該是
第三頁http://php168.com/1/index_2.html
所以表單請選擇是,但一般情況都是選否的,也就是說頁碼數字為1卻是第二頁.頁碼數為2卻是第三頁.就屬於特殊現象.需要選則是.
『貳』 怎樣用 PHP 採集網站校園新聞的列表
$content=file_get_contents('url地址');preg_match('/標題的正則規則/',$content,$arr)
遍歷$arr
『叄』 PHP 採集 新浪新聞列表 正則表達式
我覺得你可以分步做
先做個採集所有代碼的函數
接著截取正文部分函數
再來個去掉格式函數
最後包裝輸出函數
分步的好處是調用方法 出錯易排