php禁止抓取
❶ 禁止所有引擎抓取网站plus目录下的ad_js.php 文件(包含子目录)是什么意思
应该是让你在robots文件里,禁止搜索引擎抓取ad_js.php这个广告文件。
robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围。防止搜索引擎索引我们网站的私密文件。
❷ php使用curl抓取一个网站的内容被拒绝
刚写的。希望有用
<?php
$binfo=array('Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;InfoPath.2;AskTbPTV/5.17.0.25589;AlexaToolbar)','Mozilla/5.0(WindowsNT5.1;rv:22.0)Gecko/20100101Firefox/22.0','Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NET4.0C;AlexaToolbar)','Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)',$_SERVER['HTTP_USER_AGENT']);
//218.242.124.16*
//125.90.88.*
$cip='218.242.124.'.mt_rand(0,254);
$xip='218.242.124.'.mt_rand(0,254);
$header=array(
'CLIENT-IP:'.$cip,
'X-FORWARDED-FOR:'.$xip,
);
functiongetimgs($url,$data,$userinfo,$header)
{
$ch=curl_init();
$timeout=5;
curl_setopt($ch,CURLOPT_URL,"$url");
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
curl_setopt($ch,CURLOPT_REFERER,"http://www.sgs.gov.cn/lz/etpsInfo.do?method=index");
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
curl_setopt($ch,CURLOPT_USERAGENT,"$userinfo");
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
$contents=curl_exec($ch);
curl_close($ch);
return$contents;
}
$url='http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch';
$u=$binfo[mt_rand(0,3)];
$data=array(
'keyWords'=>'上海科波',
'searchType'=>'1'
);
$html=(getimgs($url,$data,$u,$header));
//替换链接地址
$html=str_replace('href="#"','href="http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch#"',$html);
echo$html;
?>
❸ /index.phpupcache=1 用robots怎么写法不被百度抓取
你是怎么写的? http://baoko.com/bzwk/540.html 这个里面有robots的写法,你可以看看! User-agent: * 表示对所有的搜索引擎都采用下面的规则; Disallow: /wp- 不允许Google/网络spider抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和网络就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow; Disallow: /? 禁止搜索引擎spider索引以?开头的网址 Disallow: /feed 禁止Google,网络搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同。如果不禁止,可能出现一片文章两个链接的情况 Disallow: /*/*/feed 这条规则禁止Google/等搜索引擎访问文章分类和单独文章文章页面的feed。 后面两条trackback和feed一样。 Disallow: /index.php? 这条规则是为了防止搜索引擎收录abc.com/index.php这种url产生的动态网址 Disallow: /index.php/ 这条规则是为了防止搜索引擎收录abc.com/index.php这种url下的所有目录 Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括abc.com/index.php,有效防止了首页权重被分散。 Disallow: /*.css$ 禁止搜索引擎访问css文件。 Disallow: /date/ 禁止搜索引擎访问日期存档页面 Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用。 Sitemap:搜索引擎会根据这个网站地图去抓取
❹ PHP使用curl抓取页面提示禁止访问!
由于你所要curl的网站禁止非浏览器访问获取信息,你可以查看用浏览器正常访问的header头信息完全伪装即可
❺ 如何防止 别人php抓取网络数据
试试nginx:
1. ngx_http_limit_conn_mole 可以用来限制单个IP的连接数
http://nginx.org/en/docs/http/ngx_http_limit_conn_mole.html
2. ngx_http_limit_req_mole 可以用来限制单个IP每秒请求数
http://nginx.org/en/docs/http/ngx_http_limit_req_mole.html
3. nginx_limit_speed_mole 可以用来对IP限速
https://github.com/yaoweibin/nginx_limit_speed_mole
或者使用Nginx的fail2ban模块:http://www.fail2ban.org/wiki/index.php/Main_Page
除了上面还可以使用图片/URL防盗链
❻ php怎么防止抓包工具
我是做数据采集的,
在我看来,除了输入验证码 , 没有什么能对我起到很好的防采集,
一般大的网站都是采用 网页加入一次性随机值 ,再有前端JS 生成秘钥 ,最后一并提交加密了的数据 ,这种没什么效果 。对一般的人可以做下防御 。但是,我只要找出它的JS加密函数 。 使用一个JS服务器(node.js),或php的 php 改写的js加密实现过程 ,加密初始值,再模拟发送 。所以,这个也没什么多大作用 。
对于验证码 ,一般简单的都可以程序识别 ,复杂的提交到前台让手动输入 。再一并发送。 这种用户体验不好。 慎行。
总的来说,建议用JS 加密吧 。
但是,还是防御不了。
我一般用 filefox 的 filebug 或 小提琴工具 。
目前大半年了,没有破解不了的网站 。
我用我的php程序 ,可以操作你的网站 。实现 用户操作 我的php程序 ,我的php程序 再去操作源网站 。
你可以去研究下 58同城网 的登录 。那里面一堆的加密 。 在我看来都是垃圾代码 。 我的程序一键登录进去。
❼ 怎么禁止php获取linux服务器所有文件
httpd进程是root身份吧,这样很危险,一般的办法是设置httpd的进程身份为apache、www或者nobody这样普通用户,如果是APACHE,可以在httpd.conf里面如下设置:
user = apache
group = apache
当然,需要建立对应的用户,否则无法启动。
❽ 怎么阻止百度蜘蛛查询admin php文件
在网站根目录添加robots.txt文件试试
格式为
User-agent: *
Disallow: /admin.php
❾ 谁告诉我robots.txt如何禁止搜索引擎抓取index.php#!u=
你好,下面是我的回答请采纳吧!
最简单的robots.txt文件使用以下两条规则:
User-agent:应用以下规则的漫游器
Disallow:您要拦截的网址
这两行被视为文件中的一个条目。您可根据需要添加任意多个条目。您可在一个条目中添加多个Disallow行和多个User-agent。
robots.txt 文件的各个部分都是独立的,而不是在先前部分的基础上构建的。例如:
User-agent:*
Disallow:/folder1/
User-Agent:Googlebot
Disallow:/folder2/
在本示例中,只有与 /folder2/ 匹配的网址才不会被 Googlebot 抓取。
对于你的问题,只要在robots.txt中条件相应的代码就可以禁止搜索引擎抓取动态链接,代码如下:
Disallow:/*?
具体详细的资料你可以参考我之前的一篇博客文章“robots协议”引用地址是:http://www.it-cheng.com/blog/seo/153.html