php禁止抓取

發布時間: 2022-02-28 11:16:20

❶ 禁止所有引擎抓取網站plus目錄下的ad_js.php 文件（包含子目錄）是什麼意思

應該是讓你在robots文件里，禁止搜索引擎抓取ad_js.php這個廣告文件。

robots.txt文件是我們用來規范搜索引擎蜘蛛在索引網站時的索引范圍。防止搜索引擎索引我們網站的私密文件。

❷ php使用curl抓取一個網站的內容被拒絕

剛寫的。希望有用

<?php
$binfo=array('Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;InfoPath.2;AskTbPTV/5.17.0.25589;AlexaToolbar)','Mozilla/5.0(WindowsNT5.1;rv:22.0)Gecko/20100101Firefox/22.0','Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NET4.0C;AlexaToolbar)','Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)',$_SERVER['HTTP_USER_AGENT']);
//218.242.124.16*
//125.90.88.*
$cip='218.242.124.'.mt_rand(0,254);
$xip='218.242.124.'.mt_rand(0,254);
$header=array(
'CLIENT-IP:'.$cip,
'X-FORWARDED-FOR:'.$xip,
);
functiongetimgs($url,$data,$userinfo,$header)
{
$ch=curl_init();
$timeout=5;
curl_setopt($ch,CURLOPT_URL,"$url");
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
curl_setopt($ch,CURLOPT_REFERER,"http://www.sgs.gov.cn/lz/etpsInfo.do?method=index");
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
curl_setopt($ch,CURLOPT_USERAGENT,"$userinfo");
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
$contents=curl_exec($ch);
curl_close($ch);
return$contents;
}

$url='http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch';
$u=$binfo[mt_rand(0,3)];
$data=array(
'keyWords'=>'上海科波',
'searchType'=>'1'
);

$html=(getimgs($url,$data,$u,$header));
//替換鏈接地址
$html=str_replace('href="#"','href="http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch#"',$html);

echo$html;


?>

❸ /index.phpupcache=1 用robots怎麼寫法不被百度抓取

你是怎麼寫的？ http://baoko.com/bzwk/540.html 這個裡面有robots的寫法，你可以看看！ User-agent: * 表示對所有的搜索引擎都採用下面的規則； Disallow: /wp- 不允許Google/網路spider抓取和索引wp-開頭的文件及目錄，如wp-login.php,wp-admin目錄等均被阻止；Allow: /wp-content/uploads/ 因為在上一條將wp-content目錄屏蔽了，這樣Google圖片搜索和網路就無法訪問放在/wp-content/uploads/目錄下的圖片，為了能使Google圖片搜索收錄圖片等附件，將這個目錄設置為Allow； Disallow: /? 禁止搜索引擎spider索引以?開頭的網址 Disallow: /feed 禁止Google,網路搜索引擎索引feed博客頁面。博客都有一個訂閱整站的feed，每個文章分類，每篇文章也分別有一個feed，feed頁面和網站頁面內容基本相同。如果不禁止，可能出現一片文章兩個鏈接的情況 Disallow: /*/*/feed 這條規則禁止Google/等搜索引擎訪問文章分類和單獨文章文章頁面的feed。後面兩條trackback和feed一樣。 Disallow: /index.php? 這條規則是為了防止搜索引擎收錄abc.com/index.php這種url產生的動態網址 Disallow: /index.php/ 這條規則是為了防止搜索引擎收錄abc.com/index.php這種url下的所有目錄 Disallow: /*.php$ 這條規則是為了禁止搜索引擎訪問和收錄.php後綴結尾的url，包括abc.com/index.php，有效防止了首頁權重被分散。 Disallow: /*.css$ 禁止搜索引擎訪問css文件。 Disallow: /date/ 禁止搜索引擎訪問日期存檔頁面 Disallow: /page/ 禁止搜索引擎訪問博客文章翻頁頁面，這里設置後好處是減少了重復頁面，壞處是Google和的spider無法檢索到老文章，因此這里要和網站地圖Sitemap.xml配合使用。 Sitemap:搜索引擎會根據這個網站地圖去抓取

❹ PHP使用curl抓取頁面提示禁止訪問!

由於你所要curl的網站禁止非瀏覽器訪問獲取信息,你可以查看用瀏覽器正常訪問的header頭信息完全偽裝即可

❺ 如何防止別人php抓取網路數據

試試nginx:
1. ngx_http_limit_conn_mole 可以用來限制單個IP的連接數
http://nginx.org/en/docs/http/ngx_http_limit_conn_mole.html
2. ngx_http_limit_req_mole 可以用來限制單個IP每秒請求數
http://nginx.org/en/docs/http/ngx_http_limit_req_mole.html
3. nginx_limit_speed_mole 可以用來對IP限速
https://github.com/yaoweibin/nginx_limit_speed_mole

或者使用Nginx的fail2ban模塊：http://www.fail2ban.org/wiki/index.php/Main_Page

除了上面還可以使用圖片/URL防盜鏈

❻ php怎麼防止抓包工具

我是做數據採集的，
在我看來，除了輸入驗證碼，沒有什麼能對我起到很好的防採集，

一般大的網站都是採用網頁加入一次性隨機值，再有前端JS 生成秘鑰，最後一並提交加密了的數據，這種沒什麼效果。對一般的人可以做下防禦。但是，我只要找出它的JS加密函數。使用一個JS伺服器（node.js）,或php的 php 改寫的js加密實現過程，加密初始值，再模擬發送。所以，這個也沒什麼多大作用。

對於驗證碼，一般簡單的都可以程序識別，復雜的提交到前台讓手動輸入。再一並發送。這種用戶體驗不好。慎行。

總的來說，建議用JS 加密吧。
但是，還是防禦不了。

我一般用 filefox 的 filebug 或小提琴工具。
目前大半年了，沒有破解不了的網站。

我用我的php程序，可以操作你的網站。實現用戶操作我的php程序，我的php程序再去操作源網站。

你可以去研究下 58同城網的登錄。那裡面一堆的加密。在我看來都是垃圾代碼。我的程序一鍵登錄進去。

❼ 怎麼禁止php獲取linux伺服器所有文件

httpd進程是root身份吧，這樣很危險，一般的辦法是設置httpd的進程身份為apache、www或者nobody這樣普通用戶，如果是APACHE，可以在httpd.conf裡面如下設置：
user = apache
group = apache
當然，需要建立對應的用戶，否則無法啟動。

❽ 怎麼阻止百度蜘蛛查詢admin php文件

在網站根目錄添加robots.txt文件試試
格式為
User-agent: *
Disallow: /admin.php

❾ 誰告訴我robots.txt如何禁止搜索引擎抓取index.php#!u=

你好，下面是我的回答請採納吧！

最簡單的robots.txt文件使用以下兩條規則：

User-agent：應用以下規則的漫遊器

Disallow：您要攔截的網址

這兩行被視為文件中的一個條目。您可根據需要添加任意多個條目。您可在一個條目中添加多個Disallow行和多個User-agent。

robots.txt 文件的各個部分都是獨立的，而不是在先前部分的基礎上構建的。例如：

User-agent:*
Disallow:/folder1/
User-Agent:Googlebot
Disallow:/folder2/

在本示例中，只有與 /folder2/ 匹配的網址才不會被 Googlebot 抓取。

對於你的問題，只要在robots.txt中條件相應的代碼就可以禁止搜索引擎抓取動態鏈接，代碼如下：

Disallow:/*?

具體詳細的資料你可以參考我之前的一篇博客文章「robots協議」引用地址是：http://www.it-cheng.com/blog/seo/153.html

閱讀全文

熱點內容

mssql資料庫伺服器發布：2025-10-18 17:49:27 瀏覽：13

android凱立德發布：2025-10-18 17:36:41 瀏覽：461

安卓手機如何互轉發布：2025-10-18 17:29:12 瀏覽：872

python批處理腳本發布：2025-10-18 17:24:39 瀏覽：842

android無法接收廣播發布：2025-10-18 17:18:39 瀏覽：377

java上海培訓發布：2025-10-18 17:12:29 瀏覽：689

編程機招聘發布：2025-10-18 17:07:23 瀏覽：266

手機說出密碼怎麼用發布：2025-10-18 16:55:48 瀏覽：864

字元代替c語言發布：2025-10-18 16:47:32 瀏覽：863

夜神模擬器哪個版本安裝安卓5 發布：2025-10-18 16:30:24 瀏覽：701

php禁止抓取

與php禁止抓取相關的資訊