php禁止抓取
❶ 禁止所有引擎抓取網站plus目錄下的ad_js.php 文件(包含子目錄)是什麼意思
應該是讓你在robots文件里,禁止搜索引擎抓取ad_js.php這個廣告文件。
robots.txt文件是我們用來規范搜索引擎蜘蛛在索引網站時的索引范圍。防止搜索引擎索引我們網站的私密文件。
❷ php使用curl抓取一個網站的內容被拒絕
剛寫的。希望有用
<?php
$binfo=array('Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;InfoPath.2;AskTbPTV/5.17.0.25589;AlexaToolbar)','Mozilla/5.0(WindowsNT5.1;rv:22.0)Gecko/20100101Firefox/22.0','Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NET4.0C;AlexaToolbar)','Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)',$_SERVER['HTTP_USER_AGENT']);
//218.242.124.16*
//125.90.88.*
$cip='218.242.124.'.mt_rand(0,254);
$xip='218.242.124.'.mt_rand(0,254);
$header=array(
'CLIENT-IP:'.$cip,
'X-FORWARDED-FOR:'.$xip,
);
functiongetimgs($url,$data,$userinfo,$header)
{
$ch=curl_init();
$timeout=5;
curl_setopt($ch,CURLOPT_URL,"$url");
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
curl_setopt($ch,CURLOPT_REFERER,"http://www.sgs.gov.cn/lz/etpsInfo.do?method=index");
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
curl_setopt($ch,CURLOPT_USERAGENT,"$userinfo");
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
$contents=curl_exec($ch);
curl_close($ch);
return$contents;
}
$url='http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch';
$u=$binfo[mt_rand(0,3)];
$data=array(
'keyWords'=>'上海科波',
'searchType'=>'1'
);
$html=(getimgs($url,$data,$u,$header));
//替換鏈接地址
$html=str_replace('href="#"','href="http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch#"',$html);
echo$html;
?>
❸ /index.phpupcache=1 用robots怎麼寫法不被百度抓取
你是怎麼寫的? http://baoko.com/bzwk/540.html 這個裡面有robots的寫法,你可以看看! User-agent: * 表示對所有的搜索引擎都採用下面的規則; Disallow: /wp- 不允許Google/網路spider抓取和索引wp-開頭的文件及目錄,如wp-login.php,wp-admin目錄等均被阻止;Allow: /wp-content/uploads/ 因為在上一條將wp-content目錄屏蔽了,這樣Google圖片搜索和網路就無法訪問放在/wp-content/uploads/目錄下的圖片,為了能使Google圖片搜索收錄圖片等附件,將這個目錄設置為Allow; Disallow: /? 禁止搜索引擎spider索引以?開頭的網址 Disallow: /feed 禁止Google,網路搜索引擎索引feed博客頁面。博客都有一個訂閱整站的feed,每個文章分類,每篇文章也分別有一個feed,feed頁面和網站頁面內容基本相同。如果不禁止,可能出現一片文章兩個鏈接的情況 Disallow: /*/*/feed 這條規則禁止Google/等搜索引擎訪問文章分類和單獨文章文章頁面的feed。 後面兩條trackback和feed一樣。 Disallow: /index.php? 這條規則是為了防止搜索引擎收錄abc.com/index.php這種url產生的動態網址 Disallow: /index.php/ 這條規則是為了防止搜索引擎收錄abc.com/index.php這種url下的所有目錄 Disallow: /*.php$ 這條規則是為了禁止搜索引擎訪問和收錄.php後綴結尾的url,包括abc.com/index.php,有效防止了首頁權重被分散。 Disallow: /*.css$ 禁止搜索引擎訪問css文件。 Disallow: /date/ 禁止搜索引擎訪問日期存檔頁面 Disallow: /page/ 禁止搜索引擎訪問博客文章翻頁頁面,這里設置後好處是減少了重復頁面,壞處是Google和的spider無法檢索到老文章,因此這里要和網站地圖Sitemap.xml配合使用。 Sitemap:搜索引擎會根據這個網站地圖去抓取
❹ PHP使用curl抓取頁面提示禁止訪問!
由於你所要curl的網站禁止非瀏覽器訪問獲取信息,你可以查看用瀏覽器正常訪問的header頭信息完全偽裝即可
❺ 如何防止 別人php抓取網路數據
試試nginx:
1. ngx_http_limit_conn_mole 可以用來限制單個IP的連接數
http://nginx.org/en/docs/http/ngx_http_limit_conn_mole.html
2. ngx_http_limit_req_mole 可以用來限制單個IP每秒請求數
http://nginx.org/en/docs/http/ngx_http_limit_req_mole.html
3. nginx_limit_speed_mole 可以用來對IP限速
https://github.com/yaoweibin/nginx_limit_speed_mole
或者使用Nginx的fail2ban模塊:http://www.fail2ban.org/wiki/index.php/Main_Page
除了上面還可以使用圖片/URL防盜鏈
❻ php怎麼防止抓包工具
我是做數據採集的,
在我看來,除了輸入驗證碼 , 沒有什麼能對我起到很好的防採集,
一般大的網站都是採用 網頁加入一次性隨機值 ,再有前端JS 生成秘鑰 ,最後一並提交加密了的數據 ,這種沒什麼效果 。對一般的人可以做下防禦 。但是,我只要找出它的JS加密函數 。 使用一個JS伺服器(node.js),或php的 php 改寫的js加密實現過程 ,加密初始值,再模擬發送 。所以,這個也沒什麼多大作用 。
對於驗證碼 ,一般簡單的都可以程序識別 ,復雜的提交到前台讓手動輸入 。再一並發送。 這種用戶體驗不好。 慎行。
總的來說,建議用JS 加密吧 。
但是,還是防禦不了。
我一般用 filefox 的 filebug 或 小提琴工具 。
目前大半年了,沒有破解不了的網站 。
我用我的php程序 ,可以操作你的網站 。實現 用戶操作 我的php程序 ,我的php程序 再去操作源網站 。
你可以去研究下 58同城網 的登錄 。那裡面一堆的加密 。 在我看來都是垃圾代碼 。 我的程序一鍵登錄進去。
❼ 怎麼禁止php獲取linux伺服器所有文件
httpd進程是root身份吧,這樣很危險,一般的辦法是設置httpd的進程身份為apache、www或者nobody這樣普通用戶,如果是APACHE,可以在httpd.conf裡面如下設置:
user = apache
group = apache
當然,需要建立對應的用戶,否則無法啟動。
❽ 怎麼阻止百度蜘蛛查詢admin php文件
在網站根目錄添加robots.txt文件試試
格式為
User-agent: *
Disallow: /admin.php
❾ 誰告訴我robots.txt如何禁止搜索引擎抓取index.php#!u=
你好,下面是我的回答請採納吧!
最簡單的robots.txt文件使用以下兩條規則:
User-agent:應用以下規則的漫遊器
Disallow:您要攔截的網址
這兩行被視為文件中的一個條目。您可根據需要添加任意多個條目。您可在一個條目中添加多個Disallow行和多個User-agent。
robots.txt 文件的各個部分都是獨立的,而不是在先前部分的基礎上構建的。例如:
User-agent:*
Disallow:/folder1/
User-Agent:Googlebot
Disallow:/folder2/
在本示例中,只有與 /folder2/ 匹配的網址才不會被 Googlebot 抓取。
對於你的問題,只要在robots.txt中條件相應的代碼就可以禁止搜索引擎抓取動態鏈接,代碼如下:
Disallow:/*?
具體詳細的資料你可以參考我之前的一篇博客文章「robots協議」引用地址是:http://www.it-cheng.com/blog/seo/153.html