php防止采集

发布时间: 2024-09-22 11:04:42

① 对于数据抓取和采集，是用python好还是php好

1. python不是脚本语言，虽然他是动态解释的。他可以完成系统级的开发。
2. python是跨平台的，你可以运用python在mac,在linux，在win下，甚至是s60手机中开发软件；PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些，语言结构简练，最简单的，PHP的$烦死你。
4. web开发上，PHP应用较广，有很多现成的代码和模版，python这方面欠缺，虽然他有很多很好的框架。比如django。
5. python因其应用范围，学习时间更长，当然如果你只玩网站建设，像上面有人说的webpy学习周期很短，基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术，建议python。如果像尽快出网站建议PHP。

② 我编写了一个php采集器。主要是采集某个网站的文本信息，可是浏览器时间一长就断了

这是因为，PHP脚本是一般情况下只能运行30秒左右，

具体数据与服务器的设置有关。

如果你的脚本超时，就要对任务对进分解。

做成任务接力的形式。

当PHP页面处理大事务时，页面往往会发生超时的错误，我解决此问题的方法如下：

1.优化程序代码：

这种方法可能有时立竿见影，但对一些已经很优化或者第三方开发的程序，可能用处不大，但我个人觉得这个办法还是应该优先考虑，这个一个优秀程序员必需有的工作美德。

2.对多个任务进行拆分：

对于一些程序，可能问题并不出现在代码效率上，如Paypal的SOAP调用，大量时间花费在网络的数据传递上了，（此问题在Web Services的远程调用时经常发生），我们当然不能等将来网速的提高来解决这个问题。其实我们可以查看一下在一个POST动作中是否包含了多个任务，如付费、发Email、发货等等。如是这样其实可以对这些任务进行拆分，把这个工作拆分成多个子工作来实现。如执行完付费任务时，使用PHP的 Header函数重定向到发送Email的页面，完成后再定向到其他页面，采用redirect页面的方式来接力地完成任务。

设计三个PHP文件，分别是s2.php s3.php s4.php

让这三个文件进行接力，

s2.php的内容如下

<?php
ob_start();

sleep(3);//代表做某些任务所用的时间
echo "在做第一件事。";
header("Location: http://127.0.0.1/s3.php?i=1");

ob_end_flush();
?>
s3.php的内容如下：

<?php
ob_start();
$i=$_GET['i']+1;
echo “在做第二件事”;
sleep(3);//用来代表做了某件事件
header("Location: http://127.0.0.1/s4.php?i=$i");

ob_end_flush();
?>
s4.php

<?php
ob_start();
$i=$_GET['i']+1;
sleep(3);
echo "在做第三件事";

ob_end_flush();
?>

变量i用来传送文件之间的参数。

③ 对于数据抓取和采集，是用python好还是php好

1. python不是脚本语言，虽然它是动态解释的。它可以完成系统级的开发。
2. python是跨平台的，你可以运用python在mac,在linux，在win下，甚至是s60手机中开发软件；PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些，语言结构简练，最简单的，PHP的就比较复杂繁琐。
4. web开发上，PHP应用较广，有很多现成的代码和模版，python这方面欠缺，虽然它有很多很好的框架。比如django。
5. python因其应用范围，学习时间更长，当然如果你只玩网站建设，像有人说的webpy学习周期很短，基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术，建议python。如果想尽快出网站建议PHP。

④ php如何防止网站内容被采集

1、限制IP地址单位时间的访问次数
分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。
弊端：一刀切，这同样会阻止搜索引擎对网站的收录
适用网站：不太依靠搜索引擎的网站
采集器会怎么做：减少单位时间的访问次数，减低采集效率
2、屏蔽ip
分析：通过后台计数器，记录来访者ip和访问频率，人为分析来访记录，屏蔽可疑Ip。
弊端：似乎没什么弊端，就是站长忙了点
适用网站：所有网站，且站长能够知道哪些是google或者网络的机器人
采集器会怎么做：打游击战呗!利用ip代理采集一次换一次，不过会降低采集器的效率和网速(用代理嘛)。
3、利用js加密网页内容
Note:这个方法我没接触过，只是从别处看来
分析：不用分析了，搜索引擎爬虫和采集器通杀
适用网站：极度讨厌搜索引擎和采集器的网站
采集器会这么做：你那么牛，都豁出去了，他就不来采你了
4、网页里隐藏网站版权或者一些随机垃圾文字，这些文字风格写在css文件中
分析：虽然不能防止采集，但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字，因为一般采集器不会同时采集你的css文件，那些文字没了风格，就显示出来了。
适用网站：所有网站
采集器会怎么做：对于版权文字，好办，替换掉。对于随机的垃圾文字，没办法，勤快点了。
5、用户登录才能访问网站内容
分析：搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站：极度讨厌搜索引擎，且想阻止大部分采集器的网站
采集器会怎么做：制作拟用户登录提交表单行为的模块

阅读全文

热点内容

古文访问发布：2025-08-01 07:11:01 浏览：509

免费cp源码发布：2025-08-01 07:10:59 浏览：758

realpathphp 发布：2025-08-01 07:06:05 浏览：376

优酷算法发布：2025-08-01 07:03:10 浏览：47

凌渡汽车有哪些配置发布：2025-08-01 06:50:30 浏览：352

pythonlist指定元素发布：2025-08-01 06:50:26 浏览：403

震旦266网络ftp扫描设置发布：2025-08-01 06:48:09 浏览：911

钱龙公式源码发布：2025-08-01 06:36:18 浏览：419

面怎么算法发布：2025-08-01 06:35:01 浏览：818

有数据库服务器地址怎么登录发布：2025-08-01 06:34:52 浏览：633

php防止采集

与php防止采集相关的资讯