php火車頭採集
㈠ 火車採集器使用php插件配置循環標簽的方法
*參數說明:
* LabelUrl - 當前採集的頁面的Url地址
*$LabelCookie - 當前採集頁面,伺服器返回的Cookie信息。
根據以上參數可以推斷,我們需要在$LabelArray['Html'] 中對原標簽進行處理
例如(替換):
插件源檔中:
if( LabelArray['PageType']=="遲悉Content")
{
LabelArray['Html']);
}
else if( JsonData[initDataObj][goods][skus] as specs = normalPrice = groupPrice = skuId = shuxing = "";
foreach ( spec) {
spec[spec_key].'</span><span>:'. shuxing = spe;
}
shuxing.'</span><span>單價:'. sku[groupPrice].'</span><span>skuId:'. LabelArray['Html']='<test>'. LabelArray['Html'];
}
遇到的坑:
測試時在else if( LabelArray['PageType']=="List")中處理
一個插件文件需要在對應的碼裂乎配置中選擇才會執行,例如插件有請求處理,結果處理,但是火車頭配置中至選了結果處理插件,則請求的部分不會執行
㈡ Phpcms設置火車頭採集器發布模塊時的全局變數設置怎麼填
Phpcms設置火車頭採集器發布模塊時的全局變數設置怎麼填?在火車頭向phpcms系統中發布已經採集的數據是配置里需要設定全局變數,所謂的全集變數其實就是連接地址中的pc_hash參數值。在火車頭中「使用內置瀏覽器登錄後台」後,進入後台後你會發現在網頁地址中有這個參數,把他的值復制填入即可。
在iphpcms里有使用火車頭向phpcms里採集內容的專題課程可供學習參考。
0 1
MFLOVEYAN
2020-11-18 超過60用戶採納過TA的回答
關注
本人鑽在火車頭web發布配置一整天終於琢磨出怎麼用了。看了點教程,沒有說道點子上。其中遇到的問題現在記得很清楚相信正在鑽研的朋友也是一樣。趁熱跟大家分享一下。
火車頭採集第一、二步不會的自己去找教程,網上多的是。 直接進入 web的發布的配置(bdyxel原創)
進去之後先選擇你要發布的web網站類型,我這里以phpcmsV9為例,內容不用編輯了,都是編輯好的,這點真是比以前方便不少
第三步先配置網站,我用的是(在內置瀏覽器登錄)輸入登錄的網址,和其他瀏覽器一樣。之後點微型瀏覽器里的確定即可。
注意地址欄里的紅色標識。就這個地方讓我繞了大半天(bdyxel原創)
我們看到我這里 pc_hash=4PwPGS
每次登錄pc_hash這個全局變數值都會改變所以登錄操作只能用「使用內置瀏覽器登錄」並獲得pc_hash這個變數的值手動填寫到「全局變數設置」里。
然後將值 填在第二步 (bdyxel原創)
然後 編碼設置
網站根目錄一定要填,不知道根目錄是什麼的自己去網路
獲取列表 選擇要發布的列表
(bdyxel原創)
測試配置
注意:標題和內容需要自己手寫。 直接點修改就OK了。
然後直接點修改,值裡面不是空的就點發表文章測試。測試完,在內置瀏覽器中瀏覽。可以看到了
在火車頭向phpcms系統中發布已經採集的數據是配置里需要設定全局變數,所謂的全集變數其實就是連接地址中的pc_hash參數值。在火車頭中「使用內置瀏覽器登錄後台」後,進入後台後你會發現在網頁地址中有這個參數,把他的值復制填入即可。
在iphpcms里有使用火車頭向phpcms里採集內容的專題課程可供學習參考。
㈢ 火車頭採集器循環採集,利用PHP插件如何判斷是否是當天信息
那它的日期和今天對比不就行了嗎
㈣ 火車頭採集 php插件如何判斷【標簽1】採集結果是否存在某個特定字元
用正則判斷是否有,有的話入庫,沒有的話就放棄~
㈤ 火車頭採集器採集正常,發布失敗提示無標題(實際上標題採集正常)
1
大家都知道php有個函數htmlspecialchars()是將預定義字元串做轉換的,而htmlspecialchars()這個函數在php5.4默認為utf8編碼的
2
一般建站新手站長搭建織夢環境都是用的dedeampz織夢集成環境一鍵搭建的織夢環境,原因就在這里了,dedeampz搭建完成的CMS網站默認的編碼格式是gbk的
3
如果你安裝的是織夢5.3或者5.6可能沒事,因為dede5.6之前的版本其中php的版本默認配置的是5.3版本的php,但是織夢5.7開始集成其中的php是5.4版本的,而這時的php5.4默認編碼格式跟環境的編碼格式沖突(格式不一致)
4
格式不一致的時候如果你輸入的標題是純英文+數字,這沒問題,能正常使用,因為編碼格式utf-8跟gbk的區別在於中文字元
5
如果你輸入的是中文字元,那麼htmlspecialchars()函數在轉換的時候因為編碼格式不同導致的亂碼是他不識別,所以就直接輸出空,因為他什麼也沒有轉過來,這也就是為什麼你輸入漢語標題提交,卻提示「標題不能為空」的原因!
6
問題分析清楚了,解決方法也很明顯了,下面提供兩種解決方法
第一種:將php的版本切換回5.3版本或者比5.3更早的版本的,這個問題自然就解決了
7
第二種:給htmlspecialchars(函數)添加ENT_COMPAT ,'GB2312'
就是給php的這個函數強制設定編碼格式,這樣也能解決這個問題,具體對應的位置是
①:dede/article_add.php 這個php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
②:然後再找到dede/article_edit.php這個php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
③:include/ckeditor/ckeditor_php5.php 查找
htmlspecialchars($value)
改為htmlspecialchars($value, ENT_COMPAT ,'GB2312')
這樣也能解決以上問題
本文採用http://jingyan..com/article/11c17a2c60027df446e39d0c.html站點信息
解決的請點贊
㈥ 有沒有phpcms v9的火車頭採集入口
1、首先下載安裝好火車頭採集器軟體(收費免費的本文均適用),這個我相信大家都會,如有不會的找網路或官方論壇。二、下載phpcmsv9火車頭介面文件jiekou.php與發布模塊,官方下載地址http://bbs.locoy.com/spider-57236-1-1.html,本站下載地址(選本站更好些,不用轉換發布模塊,站在前輩肩膀上就是好,不用寫介面文件也不用寫模塊)。
2、介面文件修改與上傳:用軟體或文本打開jiekou.php文件,找到$password='123456'; 」這句把123456修改成你想要的數字串,任意數字吧,我現在把它修改為$password='111111'; ,記下這個數字串,後面設置發布模塊要用到。修改後保存,用FTP上傳到你網站的根目錄下,即www文件夾下。
3、設置發布模塊:打開火車頭軟體,找到界面上的:發布:按鈕
4、點擊進入發布模塊界面,我們用6步來完成模塊設置,與界面上面的12345步驟順序有所不同。1.點擊新建,找到配置名處:起個配置名,在這里我把這個配置名命名為lunwen。2.選擇編碼設置,與自己網站的一樣吧,在這里我選擇GB2312.3.登錄操作:首先填入網站根目錄地址,如*********,記得這個一定要填根目錄;然後點擊「在內置瀏覽器中登錄」按鈕,用內置瀏覽器把網站打開,輸全後台登錄網址,和平時進後台方法一樣,登錄後台。登錄成功後點下下面的「確定」按鈕,點擊回到模塊設置界面:
5、這步很重要,「選擇web在線發布模塊」,裡面沒有模塊,我們就點最右邊的綠字「更多」,然後選擇「導入」選中我們在第二步中下載好的phpcmsv9發布模塊phpcms9.wpm(官方下載的叫phpcms9.cwr,需要轉為wpm格式,歡迎頁界面的擴展上可以轉)。導入後,點綠色字「編輯」,進入編輯界面,點擊獲取欄目列表,看到界面中「刷新列表頁面」中的地址:/jiekou.php?pw=123456,後面的123456數字串要改為與jiekou.php里的一樣,即/jiekou.php?pw=111111,前面jiekou.php里我們是設置為了111111,所以這里改為與之一樣。
phpcms v9火車頭採集器介面設置圖文教程
6、設置完後再點擊「內容發布參數」按鈕,設置方法和上面圖中的一樣,見下圖吧
phpcms v9火車頭採集器介面設置圖文教程
7、上面設置好了,這步就點「獲取列表」,如果上面設置都正確,就會自動獲取到網站的所有欄目,如果不能獲取就說明上面設置不對,重新檢查一次看看。6.成功獲取列表後就算成功了,點擊「保存設置」,模塊設置成功。6步走總圖見下圖
phpcms v9火車頭採集器介面設置圖文教程
8、下一步就等著寫採集規則了,做過採集的寫火車頭採集器採集規則應該不難,都差不多,只要在有多頁時注意一下就行了,不懂可以查下網路或論壇,例子很多也很全。
㈦ 火車頭採集器利用PHP 插件如何判斷是否是有圖新
1、我們先新建兩個標簽,裡面起始結束代碼不用填任何東西,只用於插件後面對其進行賦值操作,保存數據。
這兩個標簽名分別是:首圖,是否圖片新聞
2、復制PHP-demo.php文件,修改為 PHP-zhangthree01.php
以下為獲取第一張首圖和判斷是否圖片新聞的主要代碼,php文件見附件
function bodyfirstimg($body) {
$body = strtolower($body);
if ( preg_match("/<img.*src=[\"](.*?)[\"].*?>/", $body, $regs))
{ //使用正則獲取第一幅圖像地址
return $regs[1] ;
}
else
{
return '' ;
}
}
if($LabelArray['Html'])
{
$LabelArray['Html']='當前頁面的網址為:'.$LabelUrl."\r\n頁面類型為:".$LabelArray['PageType']."\r\nCookies數據為:$LabelCookie\r\n接收到的數據是:".$LabelArray['Html'];
}
else
{
$LabelArray['首圖'] = bodyfirstimg($LabelArray['內容']);
$LabelArray['是否圖片新聞'] = $LabelArray['首圖']==''?false:true;
}
該附件下載後解壓為PHP-zhangthree01.php放到程序下Plugins目錄
3、在插件配置那 考慮到采內容後還可能下載圖片,所以選擇在保存時選擇此插件使用即可
4、以新浪新聞規則作為測試。