php禁止抓取

发布时间: 2022-02-28 11:16:20

❶ 禁止所有引擎抓取网站plus目录下的ad_js.php 文件（包含子目录）是什么意思

应该是让你在robots文件里，禁止搜索引擎抓取ad_js.php这个广告文件。

robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围。防止搜索引擎索引我们网站的私密文件。

❷ php使用curl抓取一个网站的内容被拒绝

刚写的。希望有用

<?php
$binfo=array('Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;InfoPath.2;AskTbPTV/5.17.0.25589;AlexaToolbar)','Mozilla/5.0(WindowsNT5.1;rv:22.0)Gecko/20100101Firefox/22.0','Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NET4.0C;AlexaToolbar)','Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)',$_SERVER['HTTP_USER_AGENT']);
//218.242.124.16*
//125.90.88.*
$cip='218.242.124.'.mt_rand(0,254);
$xip='218.242.124.'.mt_rand(0,254);
$header=array(
'CLIENT-IP:'.$cip,
'X-FORWARDED-FOR:'.$xip,
);
functiongetimgs($url,$data,$userinfo,$header)
{
$ch=curl_init();
$timeout=5;
curl_setopt($ch,CURLOPT_URL,"$url");
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
curl_setopt($ch,CURLOPT_REFERER,"http://www.sgs.gov.cn/lz/etpsInfo.do?method=index");
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
curl_setopt($ch,CURLOPT_USERAGENT,"$userinfo");
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
$contents=curl_exec($ch);
curl_close($ch);
return$contents;
}

$url='http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch';
$u=$binfo[mt_rand(0,3)];
$data=array(
'keyWords'=>'上海科波',
'searchType'=>'1'
);

$html=(getimgs($url,$data,$u,$header));
//替换链接地址
$html=str_replace('href="#"','href="http://www.sgs.gov.cn/lz/etpsInfo.do?method=doSearch#"',$html);

echo$html;


?>

❸ /index.phpupcache=1 用robots怎么写法不被百度抓取

你是怎么写的？ http://baoko.com/bzwk/540.html 这个里面有robots的写法，你可以看看！ User-agent: * 表示对所有的搜索引擎都采用下面的规则； Disallow: /wp- 不允许Google/网络spider抓取和索引wp-开头的文件及目录，如wp-login.php,wp-admin目录等均被阻止；Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了，这样Google图片搜索和网络就无法访问放在/wp-content/uploads/目录下的图片，为了能使Google图片搜索收录图片等附件，将这个目录设置为Allow； Disallow: /? 禁止搜索引擎spider索引以?开头的网址 Disallow: /feed 禁止Google,网络搜索引擎索引feed博客页面。博客都有一个订阅整站的feed，每个文章分类，每篇文章也分别有一个feed，feed页面和网站页面内容基本相同。如果不禁止，可能出现一片文章两个链接的情况 Disallow: /*/*/feed 这条规则禁止Google/等搜索引擎访问文章分类和单独文章文章页面的feed。后面两条trackback和feed一样。 Disallow: /index.php? 这条规则是为了防止搜索引擎收录abc.com/index.php这种url产生的动态网址 Disallow: /index.php/ 这条规则是为了防止搜索引擎收录abc.com/index.php这种url下的所有目录 Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url，包括abc.com/index.php，有效防止了首页权重被分散。 Disallow: /*.css$ 禁止搜索引擎访问css文件。 Disallow: /date/ 禁止搜索引擎访问日期存档页面 Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面，这里设置后好处是减少了重复页面，坏处是Google和的spider无法检索到老文章，因此这里要和网站地图Sitemap.xml配合使用。 Sitemap:搜索引擎会根据这个网站地图去抓取

❹ PHP使用curl抓取页面提示禁止访问!

由于你所要curl的网站禁止非浏览器访问获取信息,你可以查看用浏览器正常访问的header头信息完全伪装即可

❺ 如何防止别人php抓取网络数据

试试nginx:
1. ngx_http_limit_conn_mole 可以用来限制单个IP的连接数
http://nginx.org/en/docs/http/ngx_http_limit_conn_mole.html
2. ngx_http_limit_req_mole 可以用来限制单个IP每秒请求数
http://nginx.org/en/docs/http/ngx_http_limit_req_mole.html
3. nginx_limit_speed_mole 可以用来对IP限速
https://github.com/yaoweibin/nginx_limit_speed_mole

或者使用Nginx的fail2ban模块：http://www.fail2ban.org/wiki/index.php/Main_Page

除了上面还可以使用图片/URL防盗链

❻ php怎么防止抓包工具

我是做数据采集的，
在我看来，除了输入验证码，没有什么能对我起到很好的防采集，

一般大的网站都是采用网页加入一次性随机值，再有前端JS 生成秘钥，最后一并提交加密了的数据，这种没什么效果。对一般的人可以做下防御。但是，我只要找出它的JS加密函数。使用一个JS服务器（node.js）,或php的 php 改写的js加密实现过程，加密初始值，再模拟发送。所以，这个也没什么多大作用。

对于验证码，一般简单的都可以程序识别，复杂的提交到前台让手动输入。再一并发送。这种用户体验不好。慎行。

总的来说，建议用JS 加密吧。
但是，还是防御不了。

我一般用 filefox 的 filebug 或小提琴工具。
目前大半年了，没有破解不了的网站。

我用我的php程序，可以操作你的网站。实现用户操作我的php程序，我的php程序再去操作源网站。

你可以去研究下 58同城网的登录。那里面一堆的加密。在我看来都是垃圾代码。我的程序一键登录进去。

❼ 怎么禁止php获取linux服务器所有文件

httpd进程是root身份吧，这样很危险，一般的办法是设置httpd的进程身份为apache、www或者nobody这样普通用户，如果是APACHE，可以在httpd.conf里面如下设置：
user = apache
group = apache
当然，需要建立对应的用户，否则无法启动。

❽ 怎么阻止百度蜘蛛查询admin php文件

在网站根目录添加robots.txt文件试试
格式为
User-agent: *
Disallow: /admin.php

❾ 谁告诉我robots.txt如何禁止搜索引擎抓取index.php#!u=

你好，下面是我的回答请采纳吧！

最简单的robots.txt文件使用以下两条规则：

User-agent：应用以下规则的漫游器

Disallow：您要拦截的网址

这两行被视为文件中的一个条目。您可根据需要添加任意多个条目。您可在一个条目中添加多个Disallow行和多个User-agent。

robots.txt 文件的各个部分都是独立的，而不是在先前部分的基础上构建的。例如：

User-agent:*
Disallow:/folder1/
User-Agent:Googlebot
Disallow:/folder2/

在本示例中，只有与 /folder2/ 匹配的网址才不会被 Googlebot 抓取。

对于你的问题，只要在robots.txt中条件相应的代码就可以禁止搜索引擎抓取动态链接，代码如下：

Disallow:/*?

具体详细的资料你可以参考我之前的一篇博客文章“robots协议”引用地址是：http://www.it-cheng.com/blog/seo/153.html

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：561

制作脚本网站发布：2025-10-20 08:17:34 浏览：849

python中的init方法发布：2025-10-20 08:17:33 浏览：550

图案密码什么意思发布：2025-10-20 08:16:56 浏览：729

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：651

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：969

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：223

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：82

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：771

python股票数据获取发布：2025-10-20 07:39:44 浏览：678

php禁止抓取

与php禁止抓取相关的资讯