当前位置:首页 » 编程语言 » php采集系统

php采集系统

发布时间: 2024-11-28 12:32:04

1. 对于数据抓取和采集,是用python好还是php

1. python不是脚本语言,虽然它是动态解释的。它可以完成系统级的开发。
2. python是跨平台的,你可以运用python在mac,在linux,在win下,甚至是s60手机中开发软件;PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些,语言结构简练,最简单的,PHP的就比较复杂繁琐。
4. web开发上,PHP应用较广,有很多现成的代码和模版,python这方面欠缺,虽然它有很多很好的框架。比如django。
5. python因其应用范围,学习时间更长,当然如果你只玩网站建设,像有人说的webpy学习周期很短,基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术,建议python。如果想尽快出网站建议PHP。

2. php采集是运行一段时间就会卡住!如何解

卡住的原因很多,主要可能有以下几个原因 : 1、浏览器内存容量占用问题,当一个页面不停不停的增加内容时,浏览器有可能因渲染引擎的问题而卡住 。比如你打开一个大型的JS程序,里面不停的加截图片等资源 。 2、采集远程文件时候,对方进行了限制。有些服务器为了防止 非正常用户访问,会对访问者进行拦截,比如有些页面,用户停留时间才十几MS,或一个用户有几十个HTTP请求,那么服务器会暂停返回数据 。 3、所写的采集程序挂了。 具体 是哪一个原因 ,可以写log跟一下

3. 我编写了一个php采集器。主要是采集某个网站的文本信息,可是浏览器时间一长就断了

这是因为,PHP脚本是一般情况下只能运行30秒左右,

具体数据与服务器的设置有关。

如果你的脚本超时,就要对任务对进分解。

做成任务接力的形式。

当PHP页面处理大事务时,页面往往会发生超时的错误,我解决此问题的方法如下:

1.优化程序代码:

这种方法可能有时立竿见影,但对一些已经很优化或者第三方开发的程序,可能用处不大,但我个人觉得这个办法还是应该优先考虑,这个一个优秀程序员必需有的工作美德。

2.对多个任务进行拆分:

对于一些程序,可能问题并不出现在代码效率上,如Paypal的SOAP调用,大量时间花费在网络的数据传递上了,(此问题在Web Services的远程调用时经常发生),我们当然不能等将来网速的提高来解决这个问题。其实我们可以查看一下在一个POST动作中是否包含了多个任务,如付费、发Email、发货等等。如是这样其实可以对这些任务进行拆分,把这个工作拆分成多个子工作来实现。如执行完付费任务时,使用PHP的 Header函数重定向到发送Email的页面,完成后再定向到其他页面,采用redirect页面的方式来接力地完成任务。

设计三个PHP文件,分别是s2.php s3.php s4.php

让这三个文件进行接力,

s2.php的内容如下

<?php
ob_start();

sleep(3);//代表做某些任务所用的时间
echo "在做第一件事。";
header("Location: http://127.0.0.1/s3.php?i=1");

ob_end_flush();
?>
s3.php的内容如下:

<?php
ob_start();
$i=$_GET['i']+1;
echo “在做第二件事”;
sleep(3);//用来代表做了某件事件
header("Location: http://127.0.0.1/s4.php?i=$i");

ob_end_flush();
?>
s4.php

<?php
ob_start();
$i=$_GET['i']+1;
sleep(3);
echo "在做第三件事";

ob_end_flush();
?>

变量i用来传送文件之间的参数。

热点内容
python获取串口数据 发布:2024-11-28 14:22:39 浏览:666
台湾ip代理服务器云主机 发布:2024-11-28 14:18:24 浏览:465
php写后端 发布:2024-11-28 14:09:36 浏览:234
拍环卫工人的脚本 发布:2024-11-28 14:03:35 浏览:990
java课程实战培训 发布:2024-11-28 13:57:11 浏览:303
linux硬盘空间 发布:2024-11-28 13:55:55 浏览:531
写简单编译器 发布:2024-11-28 13:55:42 浏览:512
编译net时 发布:2024-11-28 13:52:38 浏览:405
sqlserver2008分区表 发布:2024-11-28 13:41:58 浏览:481
php输出array 发布:2024-11-28 13:30:15 浏览:745