php網路爬蟲

發布時間: 2023-03-12 18:56:35

⑴ 如何用php 編寫網路爬蟲

其實用PHP來爬會非常方便，主要是PHP的正則表達式功能在搜集頁面連接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

⑵ 除了python可以爬蟲還有哪些編程語言可以爬蟲

能夠做網路爬蟲的編程語言很多，包括PHP、Java、C/C++、Python等都能做爬蟲，都能達到抓取想要的數據資源。針對不同的環境，我們需要了解他們做爬蟲的優缺點，才能選出合適的開發環境。

（一）PHP
網路爬蟲需要快速的從伺服器中抓取需要的數據，有時數據量較大時需要進行多線程抓取。PHP雖然是世界上最好的語言，但是PHP對多線程、非同步支持不足，並發不足，而爬蟲程序對速度和效率要求極高，所以說PHP天生不是做爬蟲的。

（二）C/C++
C語言是一門面向過程、抽象化的通用程序設計語言，廣泛應用於底層開發，運行效率和性能是最強大的，但是它的學習成本非常高，需要有很好地編程知識基礎，對於初學者或者編程知識不是很好地程序員來說，不是一個很好的選擇。當然，能夠用C/C++編寫爬蟲程序，足以說明能力很強，但是絕不是最正確的選擇。

（三）Java
在網路爬蟲方面，作為Python最大的對手Java，擁有強大的生態圈。但是Java本身很笨重，代碼量大。由於爬蟲與反爬蟲的較量是持久的，也是頻繁的，剛寫好的爬蟲程序很可能就不能用了。爬蟲程序需要經常性的修改部分代碼。而Java的重構成本比較高，任何修改都會導致大量代碼的變動。

（四）Python
Python在設計上堅持了清晰劃一的風格，易讀、易維護，語法優美、代碼簡潔、開發效率高、第三方模塊多。並且擁有強大的爬蟲Scrapy，以及成熟高效的scrapy-redis分布式策略。實現同樣的爬蟲功能，代碼量少，而且維護方便，開發效率高。

⑶ PHP爬蟲基礎，xampp是幹嘛的軟體PhpStorm又是幹嘛的dreamweaver呢

xampp是Apache+MySQL+PHP+PERL，可以再多個系統下使用，支持多種語言包括中文！
phpstorm是寫php代碼的一個編譯軟體。
dreamweaver簡稱dw，中文名夢想編織者，網頁製作和管理網站為一體的網頁編輯器。

⑷ 求一個簡易的php爬蟲提取網頁的title

header("Content-Type: text/html; charset=gbk");
$url = "http://www..com/";
$fcontents = file_get_contents($url);
if (ereg("<title>(.*)</title>", $fcontents, $regs)){echo "ok";}else{echo "error";}
echo "<br>";
print_r($regs);

⑸ php中curl爬蟲怎麼樣通過網頁獲取所有鏈接

本文承接上面兩篇，本篇中的示例要調用到前兩篇中的函數，做一個簡單的URL採集。一般php採集網路數據會用file_get_contents、file和cURL。不過據說cURL會比file_get_contents、file更快更專業，更適合採集。今天就試試用cURL來獲取網頁上的所有鏈接。示例如下：

<?php
/*
* 使用curl 採集hao123.com下的所有鏈接。
*/
include_once('function.php');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.hao123.com/');
// 只需返回HTTP header
curl_setopt($ch, CURLOPT_HEADER, 1);
// 頁面內容我們並不需要
// curl_setopt($ch, CURLOPT_NOBODY, 1);
// 返回結果，而不是輸出它
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
$info = curl_getinfo($ch);
if ($html === false) {
echo "cURL Error: " . curl_error($ch);
}
curl_close($ch);
$linkarr = _striplinks($html);
// 主機部分，補全用
$host = 'http://www.hao123.com/';
if (is_array($linkarr)) {
foreach ($linkarr as $k => $v) {
$linkresult[$k] = _expandlinks($v, $host);
}
}
printf("<p>此頁面的所有鏈接為：</p><pre>%s</pre>n", var_export($linkresult , true));
?>

function.php內容如下（即為上兩篇中兩個函數的合集）：

<?php
function _striplinks($document) {
preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links);
// catenate the non-empty matches from the conditional subpattern
while (list($key, $val) = each($links[2])) {
if (!empty($val))
$match[] = $val;
} while (list($key, $val) = each($links[3])) {
if (!empty($val))
$match[] = $val;
}
// return the links
return $match;
}
/*===================================================================*
Function: _expandlinks
Purpose: expand each link into a fully qualified URL
Input: $links the links to qualify
$URI the full URI to get the base from
Output: $expandedLinks the expanded links
*===================================================================*/
function _expandlinks($links,$URI)
{
$URI_PARTS = parse_url($URI);
$host = $URI_PARTS["host"];
preg_match("/^[^?]+/",$URI,$match);
$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0]);
$match = preg_replace("|/$|","",$match);
$match_part = parse_url($match);
$match_root =
$match_part["scheme"]."://".$match_part["host"];
$search = array( "|^http://".preg_quote($host)."|i",
"|^(/)|i",
"|^(?!http://)(?!mailto:)|i",
"|/./|",
"|/[^/]+/../|"
);
$replace = array( "",
$match_root."/",
$match."/",
"/",
"/"
);
$expandedLinks = preg_replace($search,$replace,$links);
return $expandedLinks;
}
?>

閱讀全文

熱點內容

動態規劃01背包演算法發布：2024-11-05 22:17:40 瀏覽：849

nasm編譯器如何安裝發布：2024-11-05 22:01:13 瀏覽：181

登錄密碼在微信的哪裡發布：2024-11-05 22:00:29 瀏覽：739

c防止反編譯工具發布：2024-11-05 21:56:14 瀏覽：247

安卓虛擬機怎麼用發布：2024-11-05 21:52:48 瀏覽：344

php時間搜索發布：2024-11-05 20:58:36 瀏覽：479

燕山大學編譯原理期末考試題發布：2024-11-05 20:13:54 瀏覽：528

華為電腦出現臨時伺服器發布：2024-11-05 20:05:08 瀏覽：408

斗戰神免費挖礦腳本發布：2024-11-05 19:53:25 瀏覽：665

網吧伺服器分別是什麼發布：2024-11-05 19:45:32 瀏覽：392

php網路爬蟲

與php網路爬蟲相關的資訊