php防止採集

發布時間: 2024-09-22 11:04:42

① 對於數據抓取和採集，是用python好還是php好

1. python不是腳本語言，雖然他是動態解釋的。他可以完成系統級的開發。
2. python是跨平台的，你可以運用python在mac,在linux，在win下，甚至是s60手機中開發軟體；PHP沒有這些能力。
3. 從語法上說python的語法蜜糖更多些，語言結構簡練，最簡單的，PHP的$煩死你。
4. web開發上，PHP應用較廣，有很多現成的代碼和模版，python這方面欠缺，雖然他有很多很好的框架。比如django。
5. python因其應用范圍，學習時間更長，當然如果你只玩網站建設，像上面有人說的webpy學習周期很短，基本上在瀏覽器中就能完成基本的建站工作。
6. 如果要學習編程技術，建議python。如果像盡快出網站建議PHP。

② 我編寫了一個php採集器。主要是採集某個網站的文本信息，可是瀏覽器時間一長就斷了

這是因為，PHP腳本是一般情況下只能運行30秒左右，

具體數據與伺服器的設置有關。

如果你的腳本超時，就要對任務對進分解。

做成任務接力的形式。

當PHP頁面處理大事務時，頁面往往會發生超時的錯誤，我解決此問題的方法如下：

1.優化程序代碼：

這種方法可能有時立竿見影，但對一些已經很優化或者第三方開發的程序，可能用處不大，但我個人覺得這個辦法還是應該優先考慮，這個一個優秀程序員必需有的工作美德。

2.對多個任務進行拆分：

對於一些程序，可能問題並不出現在代碼效率上，如Paypal的SOAP調用，大量時間花費在網路的數據傳遞上了，（此問題在Web Services的遠程調用時經常發生），我們當然不能等將來網速的提高來解決這個問題。其實我們可以查看一下在一個POST動作中是否包含了多個任務，如付費、發Email、發貨等等。如是這樣其實可以對這些任務進行拆分，把這個工作拆分成多個子工作來實現。如執行完付費任務時，使用PHP的 Header函數重定向到發送Email的頁面，完成後再定向到其他頁面，採用redirect頁面的方式來接力地完成任務。

設計三個PHP文件，分別是s2.php s3.php s4.php

讓這三個文件進行接力，

s2.php的內容如下

<?php
ob_start();

sleep(3);//代表做某些任務所用的時間
echo "在做第一件事。";
header("Location: http://127.0.0.1/s3.php?i=1");

ob_end_flush();
?>
s3.php的內容如下：

<?php
ob_start();
$i=$_GET['i']+1;
echo 「在做第二件事」;
sleep(3);//用來代表做了某件事件
header("Location: http://127.0.0.1/s4.php?i=$i");

ob_end_flush();
?>
s4.php

<?php
ob_start();
$i=$_GET['i']+1;
sleep(3);
echo "在做第三件事";

ob_end_flush();
?>

變數i用來傳送文件之間的參數。

③ 對於數據抓取和採集，是用python好還是php好

1. python不是腳本語言，雖然它是動態解釋的。它可以完成系統級的開發。
2. python是跨平台的，你可以運用python在mac,在linux，在win下，甚至是s60手機中開發軟體；PHP沒有這些能力。
3. 從語法上說python的語法蜜糖更多些，語言結構簡練，最簡單的，PHP的就比較復雜繁瑣。
4. web開發上，PHP應用較廣，有很多現成的代碼和模版，python這方面欠缺，雖然它有很多很好的框架。比如django。
5. python因其應用范圍，學習時間更長，當然如果你只玩網站建設，像有人說的webpy學習周期很短，基本上在瀏覽器中就能完成基本的建站工作。
6. 如果要學習編程技術，建議python。如果想盡快出網站建議PHP。

④ php如何防止網站內容被採集

1、限制IP地址單位時間的訪問次數
分析：沒有哪個常人一秒鍾內能訪問相同網站5次，除非是程序訪問，而有這種喜好的，就剩下搜索引擎爬蟲和討厭的採集器了。
弊端：一刀切，這同樣會阻止搜索引擎對網站的收錄
適用網站：不太依靠搜索引擎的網站
採集器會怎麼做：減少單位時間的訪問次數，減低採集效率
2、屏蔽ip
分析：通過後台計數器，記錄來訪者ip和訪問頻率，人為分析來訪記錄，屏蔽可疑Ip。
弊端：似乎沒什麼弊端，就是站長忙了點
適用網站：所有網站，且站長能夠知道哪些是google或者網路的機器人
採集器會怎麼做：打游擊戰唄!利用ip代理採集一次換一次，不過會降低採集器的效率和網速(用代理嘛)。
3、利用js加密網頁內容
Note:這個方法我沒接觸過，只是從別處看來
分析：不用分析了，搜索引擎爬蟲和採集器通殺
適用網站：極度討厭搜索引擎和採集器的網站
採集器會這么做：你那麼牛，都豁出去了，他就不來采你了
4、網頁里隱藏網站版權或者一些隨機垃圾文字，這些文字風格寫在css文件中
分析：雖然不能防止採集，但是會讓採集後的內容充滿了你網站的版權說明或者一些垃圾文字，因為一般採集器不會同時採集你的css文件，那些文字沒了風格，就顯示出來了。
適用網站：所有網站
採集器會怎麼做：對於版權文字，好辦，替換掉。對於隨機的垃圾文字，沒辦法，勤快點了。
5、用戶登錄才能訪問網站內容
分析：搜索引擎爬蟲不會對每個這樣類型的網站設計登錄程序。聽說採集器可以針對某個網站設計模擬用戶登錄提交表單行為。
適用網站：極度討厭搜索引擎，且想阻止大部分採集器的網站
採集器會怎麼做：製作擬用戶登錄提交表單行為的模塊

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：904

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1179

python中的init方法發布：2025-10-20 08:17:33 瀏覽：871

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1046

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：928

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1275

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：494

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：383

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1048

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1031

php防止採集

與php防止採集相關的資訊