php火车头采集
㈠ 火车采集器使用php插件配置循环标签的方法
*参数说明:
* LabelUrl - 当前采集的页面的Url地址
*$LabelCookie - 当前采集页面,服务器返回的Cookie信息。
根据以上参数可以推断,我们需要在$LabelArray['Html'] 中对原标签进行处理
例如(替换):
插件源档中:
if( LabelArray['PageType']=="迟悉Content")
{
LabelArray['Html']);
}
else if( JsonData[initDataObj][goods][skus] as specs = normalPrice = groupPrice = skuId = shuxing = "";
foreach ( spec) {
spec[spec_key].'</span><span>:'. shuxing = spe;
}
shuxing.'</span><span>单价:'. sku[groupPrice].'</span><span>skuId:'. LabelArray['Html']='<test>'. LabelArray['Html'];
}
遇到的坑:
测试时在else if( LabelArray['PageType']=="List")中处理
一个插件文件需要在对应的码裂乎配置中选择才会执行,例如插件有请求处理,结果处理,但是火车头配置中至选了结果处理插件,则请求的部分不会执行
㈡ Phpcms设置火车头采集器发布模块时的全局变量设置怎么填
Phpcms设置火车头采集器发布模块时的全局变量设置怎么填?在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。
在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。
0 1
MFLOVEYAN
2020-11-18 超过60用户采纳过TA的回答
关注
本人钻在火车头web发布配置一整天终于琢磨出怎么用了。看了点教程,没有说道点子上。其中遇到的问题现在记得很清楚相信正在钻研的朋友也是一样。趁热跟大家分享一下。
火车头采集第一、二步不会的自己去找教程,网上多的是。 直接进入 web的发布的配置(bdyxel原创)
进去之后先选择你要发布的web网站类型,我这里以phpcmsV9为例,内容不用编辑了,都是编辑好的,这点真是比以前方便不少
第三步先配置网站,我用的是(在内置浏览器登录)输入登录的网址,和其他浏览器一样。之后点微型浏览器里的确定即可。
注意地址栏里的红色标识。就这个地方让我绕了大半天(bdyxel原创)
我们看到我这里 pc_hash=4PwPGS
每次登录pc_hash这个全局变量值都会改变所以登录操作只能用“使用内置浏览器登录”并获得pc_hash这个变量的值手动填写到“全局变量设置”里。
然后将值 填在第二步 (bdyxel原创)
然后 编码设置
网站根目录一定要填,不知道根目录是什么的自己去网络
获取列表 选择要发布的列表
(bdyxel原创)
测试配置
注意:标题和内容需要自己手写。 直接点修改就OK了。
然后直接点修改,值里面不是空的就点发表文章测试。测试完,在内置浏览器中浏览。可以看到了
在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。
在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。
㈢ 火车头采集器循环采集,利用PHP插件如何判断是否是当天信息
那它的日期和今天对比不就行了吗
㈣ 火车头采集 php插件如何判断【标签1】采集结果是否存在某个特定字符
用正则判断是否有,有的话入库,没有的话就放弃~
㈤ 火车头采集器采集正常,发布失败提示无标题(实际上标题采集正常)
1
大家都知道php有个函数htmlspecialchars()是将预定义字符串做转换的,而htmlspecialchars()这个函数在php5.4默认为utf8编码的
2
一般建站新手站长搭建织梦环境都是用的dedeampz织梦集成环境一键搭建的织梦环境,原因就在这里了,dedeampz搭建完成的CMS网站默认的编码格式是gbk的
3
如果你安装的是织梦5.3或者5.6可能没事,因为dede5.6之前的版本其中php的版本默认配置的是5.3版本的php,但是织梦5.7开始集成其中的php是5.4版本的,而这时的php5.4默认编码格式跟环境的编码格式冲突(格式不一致)
4
格式不一致的时候如果你输入的标题是纯英文+数字,这没问题,能正常使用,因为编码格式utf-8跟gbk的区别在于中文字符
5
如果你输入的是中文字符,那么htmlspecialchars()函数在转换的时候因为编码格式不同导致的乱码是他不识别,所以就直接输出空,因为他什么也没有转过来,这也就是为什么你输入汉语标题提交,却提示“标题不能为空”的原因!
6
问题分析清楚了,解决方法也很明显了,下面提供两种解决方法
第一种:将php的版本切换回5.3版本或者比5.3更早的版本的,这个问题自然就解决了
7
第二种:给htmlspecialchars(函数)添加ENT_COMPAT ,'GB2312'
就是给php的这个函数强制设定编码格式,这样也能解决这个问题,具体对应的位置是
①:dede/article_add.php 这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
②:然后再找到dede/article_edit.php这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
③:include/ckeditor/ckeditor_php5.php 查找
htmlspecialchars($value)
改为htmlspecialchars($value, ENT_COMPAT ,'GB2312')
这样也能解决以上问题
本文采用http://jingyan..com/article/11c17a2c60027df446e39d0c.html站点信息
解决的请点赞
㈥ 有没有phpcms v9的火车头采集入口
1、首先下载安装好火车头采集器软件(收费免费的本文均适用),这个我相信大家都会,如有不会的找网络或官方论坛。二、下载phpcmsv9火车头接口文件jiekou.php与发布模块,官方下载地址http://bbs.locoy.com/spider-57236-1-1.html,本站下载地址(选本站更好些,不用转换发布模块,站在前辈肩膀上就是好,不用写接口文件也不用写模块)。
2、接口文件修改与上传:用软件或文本打开jiekou.php文件,找到$password='123456'; ”这句把123456修改成你想要的数字串,任意数字吧,我现在把它修改为$password='111111'; ,记下这个数字串,后面设置发布模块要用到。修改后保存,用FTP上传到你网站的根目录下,即www文件夹下。
3、设置发布模块:打开火车头软件,找到界面上的:发布:按钮
4、点击进入发布模块界面,我们用6步来完成模块设置,与界面上面的12345步骤顺序有所不同。1.点击新建,找到配置名处:起个配置名,在这里我把这个配置名命名为lunwen。2.选择编码设置,与自己网站的一样吧,在这里我选择GB2312.3.登录操作:首先填入网站根目录地址,如*********,记得这个一定要填根目录;然后点击“在内置浏览器中登录”按钮,用内置浏览器把网站打开,输全后台登录网址,和平时进后台方法一样,登录后台。登录成功后点下下面的“确定”按钮,点击回到模块设置界面:
5、这步很重要,“选择web在线发布模块”,里面没有模块,我们就点最右边的绿字“更多”,然后选择“导入”选中我们在第二步中下载好的phpcmsv9发布模块phpcms9.wpm(官方下载的叫phpcms9.cwr,需要转为wpm格式,欢迎页界面的扩展上可以转)。导入后,点绿色字“编辑”,进入编辑界面,点击获取栏目列表,看到界面中“刷新列表页面”中的地址:/jiekou.php?pw=123456,后面的123456数字串要改为与jiekou.php里的一样,即/jiekou.php?pw=111111,前面jiekou.php里我们是设置为了111111,所以这里改为与之一样。
phpcms v9火车头采集器接口设置图文教程
6、设置完后再点击“内容发布参数”按钮,设置方法和上面图中的一样,见下图吧
phpcms v9火车头采集器接口设置图文教程
7、上面设置好了,这步就点“获取列表”,如果上面设置都正确,就会自动获取到网站的所有栏目,如果不能获取就说明上面设置不对,重新检查一次看看。6.成功获取列表后就算成功了,点击“保存设置”,模块设置成功。6步走总图见下图
phpcms v9火车头采集器接口设置图文教程
8、下一步就等着写采集规则了,做过采集的写火车头采集器采集规则应该不难,都差不多,只要在有多页时注意一下就行了,不懂可以查下网络或论坛,例子很多也很全。
㈦ 火车头采集器利用PHP 插件如何判断是否是有图新
1、我们先新建两个标签,里面起始结束代码不用填任何东西,只用于插件后面对其进行赋值操作,保存数据。
这两个标签名分别是:首图,是否图片新闻
2、复制PHP-demo.php文件,修改为 PHP-zhangthree01.php
以下为获取第一张首图和判断是否图片新闻的主要代码,php文件见附件
function bodyfirstimg($body) {
$body = strtolower($body);
if ( preg_match("/<img.*src=[\"](.*?)[\"].*?>/", $body, $regs))
{ //使用正则获取第一幅图像地址
return $regs[1] ;
}
else
{
return '' ;
}
}
if($LabelArray['Html'])
{
$LabelArray['Html']='当前页面的网址为:'.$LabelUrl."\r\n页面类型为:".$LabelArray['PageType']."\r\nCookies数据为:$LabelCookie\r\n接收到的数据是:".$LabelArray['Html'];
}
else
{
$LabelArray['首图'] = bodyfirstimg($LabelArray['内容']);
$LabelArray['是否图片新闻'] = $LabelArray['首图']==''?false:true;
}
该附件下载后解压为PHP-zhangthree01.php放到程序下Plugins目录
3、在插件配置那 考虑到采内容后还可能下载图片,所以选择在保存时选择此插件使用即可
4、以新浪新闻规则作为测试。