当前位置:首页 » 编程语言 » php防止采集

php防止采集

发布时间: 2024-09-22 11:04:42

① 对于数据抓取和采集,是用python好还是php

1. python不是脚本语言,虽然他是动态解释的。他可以完成系统级的开发。
2. python是跨平台的,你可以运用python在mac,在linux,在win下,甚至是s60手机中开发软件;PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些,语言结构简练,最简单的,PHP的$烦死你。
4. web开发上,PHP应用较广,有很多现成的代码和模版,python这方面欠缺,虽然他有很多很好的框架。比如django。
5. python因其应用范围,学习时间更长,当然如果你只玩网站建设,像上面有人说的webpy学习周期很短,基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术,建议python。如果像尽快出网站建议PHP。

② 我编写了一个php采集器。主要是采集某个网站的文本信息,可是浏览器时间一长就断了

这是因为,PHP脚本是一般情况下只能运行30秒左右,

具体数据与服务器的设置有关。

如果你的脚本超时,就要对任务对进分解。

做成任务接力的形式。

当PHP页面处理大事务时,页面往往会发生超时的错误,我解决此问题的方法如下:

1.优化程序代码:

这种方法可能有时立竿见影,但对一些已经很优化或者第三方开发的程序,可能用处不大,但我个人觉得这个办法还是应该优先考虑,这个一个优秀程序员必需有的工作美德。

2.对多个任务进行拆分:

对于一些程序,可能问题并不出现在代码效率上,如Paypal的SOAP调用,大量时间花费在网络的数据传递上了,(此问题在Web Services的远程调用时经常发生),我们当然不能等将来网速的提高来解决这个问题。其实我们可以查看一下在一个POST动作中是否包含了多个任务,如付费、发Email、发货等等。如是这样其实可以对这些任务进行拆分,把这个工作拆分成多个子工作来实现。如执行完付费任务时,使用PHP的 Header函数重定向到发送Email的页面,完成后再定向到其他页面,采用redirect页面的方式来接力地完成任务。

设计三个PHP文件,分别是s2.php s3.php s4.php

让这三个文件进行接力,

s2.php的内容如下

<?php
ob_start();

sleep(3);//代表做某些任务所用的时间
echo "在做第一件事。";
header("Location: http://127.0.0.1/s3.php?i=1");

ob_end_flush();
?>
s3.php的内容如下:

<?php
ob_start();
$i=$_GET['i']+1;
echo “在做第二件事”;
sleep(3);//用来代表做了某件事件
header("Location: http://127.0.0.1/s4.php?i=$i");

ob_end_flush();
?>
s4.php

<?php
ob_start();
$i=$_GET['i']+1;
sleep(3);
echo "在做第三件事";

ob_end_flush();
?>

变量i用来传送文件之间的参数。

③ 对于数据抓取和采集,是用python好还是php好

1. python不是脚本语言,虽然它是动态解释的。它可以完成系统级的开发。
2. python是跨平台的,你可以运用python在mac,在linux,在win下,甚至是s60手机中开发软件;PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些,语言结构简练,最简单的,PHP的就比较复杂繁琐。
4. web开发上,PHP应用较广,有很多现成的代码和模版,python这方面欠缺,虽然它有很多很好的框架。比如django。
5. python因其应用范围,学习时间更长,当然如果你只玩网站建设,像有人说的webpy学习周期很短,基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术,建议python。如果想尽快出网站建议PHP。

④ php如何防止网站内容被采集

1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率
2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者网络的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。
3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了
4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。
5、用户登录才能访问网站内容
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块

热点内容
c语言中的unsignedchar 发布:2024-09-22 13:11:12 浏览:167
最好的加密移动硬盘 发布:2024-09-22 12:35:58 浏览:156
c语言编程贪吃蛇 发布:2024-09-22 12:34:21 浏览:745
青椒云电脑什么配置 发布:2024-09-22 12:24:50 浏览:279
pythongbkunicode 发布:2024-09-22 12:24:06 浏览:992
空调压缩机保险在哪里 发布:2024-09-22 12:18:01 浏览:364
笔记本配置看哪些 发布:2024-09-22 12:06:41 浏览:857
魔兽地图脚本制作 发布:2024-09-22 12:04:48 浏览:800
算法衰减 发布:2024-09-22 11:58:42 浏览:50
抖音安卓机客服中心在哪里 发布:2024-09-22 11:58:40 浏览:358