當前位置:首頁 » 編程語言 » php採集淘寶

php採集淘寶

發布時間: 2023-04-20 11:39:27

『壹』 請幫忙用js或php寫一個可以採集淘寶和天貓商品優惠價格的代碼用函數方

//==UserScript==
//@nameJD
//@namespacehttp://tampermonkey.net/
//@version0.1
//@!
//@authorYou
//@matchhttps://item.jd.com/*
//@grantnone
//==/UserScript==
/*jshint-W097*/
'usestrict';

//Yourcodehere...
vardivObj=document.createElement("input");
divObj.type="button";
divObj.value='獲取抓取內容';
divObj.style.marginTop="20px";
divObj.style.marginBottom="20px";
divObj.style.marginLeft="50px";
varfirst=document.body.firstChild;
document.body.insertBefore(divObj,first);
varresult={};divObj.onclick=function(){
//獲取價格
if(document.getElementById("jd-price")){
varpriceDiv=document.getElementById("jd-price");
varprice=priceDiv.innerText;
price=price.substr(1);
}elseif(document.getElementById("price")){
varpricePri=document.getElementById("price");
varpriceDiv=pricePri.firstElementChild;
varprice=priceDiv.innerText;
}elseif(document.getElementsByClassName("price")[0]){
varpriceClass=document.getElementsByClassName("price");
varpriceDiv=priceClass[0];
varprice=priceDiv.innerText;
}

result.price=price;
}

『貳』 怎麼利用爬蟲技術抓取淘寶搜索頁面的產品信息

可以通過requests庫re庫進行淘寶商品爬蟲爬取
import requests
import re
def getHTMLText(url):
try:
r= requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print("F")

def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序號","價格","商品名稱"))
count = 0
for g in ilt:
count = count +1
print(tplt.format(count,g[0],g[1]))

def main():
goods = '書包'
depth = 2
start_url = "https://s.taobao.com/search?q="+ goods
infoList = []
for i in range(depth):
try:
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
except:
continue
printGoodsList(infoList)
main()
這段代碼在過去是可以爬取淘寶商品信息,但是因為淘寶的反扒技術升級,便不能讓你大搖大擺地進出自如了。
此外也可以藉助採集實現採集

『叄』 淘寶用的是怎麼的技術,防止被採集的如何用php採集淘寶的數據

我只採晌埋察集過天貓的數據,估計淘寶也不難吧宴茄,簡單的思路就是下載html,正則鏈接,打開鏈接,爬數據,不過php是單線程的,液舉速度慢。

『肆』 急!php怎樣跳過淘寶登陸,直接採集到淘寶指數的搜索結果

不告訴你...嘿嘿

『伍』 PHP小偷程序,或JS小偷程序,能採集淘寶搜索結果頁面嗎

只要建立一個
request
就會返回相應的結果。者缺怎麼兄渣搭配是你自己的創羨嫌悄意。小偷程序只是個名稱而已.

『陸』 php 如何抓取淘寶搜索頁面

需要用的zend擴展的,淘寶客成熟的作品源碼都這么乾的,自己找下。

『柒』 一鍵上傳淘寶php源碼

PHP實現採集抓取淘寶網單個商品信息,本文是一種實現思路,使用file_get_contents函數實現,並給出了採集正則,需要的朋友可以參考下
調用淘寶的數據可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開信息在自己網站上,使用php中的 file_get_contents 函數實現即可。
思路:
file_get_contents(url) 該函數根據 url 如 http://www..com 將該網頁內容(源碼)以字元串形式輸出(一個整字元串),然後配合preg_match,preg_replace等這些正則表達式操作就可以實現獲取該url特定div,img等信息了。當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id就是J_ImgBooth!
具體實現方法:(獲取500圖,名稱,價格,屬性及商品描述)
復制代碼 代碼如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保存進$text
A.獲取500圖:
復制代碼 代碼如下:
preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標簽中id為J_ImgBooth的img,$img[0]為該500圖img標簽,$img[1]為500圖的圖片地址;
B. 獲取名稱:
復制代碼 代碼如下:
preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因為正文中的商品名稱標簽沒有特殊class或id正則不好抓取,就抓<title>標簽中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標簽 $title[1]標簽中內容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼,那麼需要進行一下轉碼(淘寶是gbk編碼)
C.獲取價格:
復制代碼 代碼如下:
preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標簽內容$price[2], $price[0]是整個標簽, $price[1]為strong標簽名;
$price=floatval($price);//放入資料庫估計還有轉一下變數類型
D.獲取屬性:
這之前獲取的內容都是在單標簽中相對只需一個正則就可搞定,然而如果要獲取如
復制代碼 代碼如下:

<div id=」xxx」>

<ul>

</ul>
<div>…
<div>…
</div>
</div>
</div>

這樣特定div中有未知n個<>標簽,獲取該特定div將會非常的困難,搜了下網上,最接近的也只是」/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/」這樣使用遞歸抓取標簽對,但是他不能抓特定標簽,所以想要輕松抓取class=」attributes」的div我是沒法辦到了。但是淘寶網頁有其特殊性,就是它的各個標簽結構基本是固定的…<div>…</div>標簽後面不是</div><div id=」description」>就是</div><div>,所以我們可以採用變通法達到獲取屬性標簽內容的目的。
復制代碼 代碼如下:
preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最後一個</div>標簽,當然我們屬性標簽就在這個的前面部分。
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=」description」>至最後</div>然後用」」代替(就是把匹配的刪除了),所以如果attributes的div後面緊跟的是description那麼我們已經達到目的了。
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes後面緊跟box J_Tbox標簽,那麼我們還需要使用以上這步來剔除box J_Tbox標簽,當然如果attributes的div後面緊跟的是description,這一步將不會匹配到任何即什麼都不會做。
E.獲取描述:
通過上面方法你肯定覺得淘寶頁面上任何標簽都可以很簡單獲取了吧(我之前也是這么想的),但是使用這個方法獲取描述時得到的內容將會是「描述載入中」,是的,這個描述內容不是在源碼中的,它是打開頁面載入進一大堆js後,不知道從淘寶的哪個角落中載入進來的。
好吧,那麼我們也可以模仿它放一些js進去。不知道哪些對載入描述有用?沒事,全載入進來肯定沒錯。不知道需要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發現「<div id=」detail」> </div>
復制代碼 代碼如下:
<div id="description">
<div id="J_DivItemDesc">描述載入中</div>
</div>
這幾個div是載入描述所必須的,那麼下面就是寫代碼了:
復制代碼 代碼如下:
preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js腳本
$content=$content[0];
$description='<div id="detail"> </div>
<div id="description">
<div id="J_DivItemDesc">描述載入中</div>
</div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//將這個$description放進頁面,描述就會自動的載入進來了,當然多個商品描述在同一個頁面也會只有一個描述會被載入的。

『捌』 php 使用crul get 如何抓取淘寶商品頁面

首先我對你的php代碼沒看懂,不熟悉這門語言。我當時確實取到了數據,就是用JAVA第三方類庫直接解析url對應的html內容,不過訪問頻率是個問題,不能太快,否則會封ip,可以考慮用sleep休眠機制類似的。不過總的來說還是不太穩定,效果不好

『玖』 php curl 是不是不能採集淘寶天貓的鏈接

你好
這個是可以採集的
只是使用比較復雜
不僅要有跳轉,還需要傳遞 cookie
curl 僅能獲取目標頁面的 html 代碼,並不能執行其中的 js 程序
而該頁面的關鍵數據同時通過 js 產生的

熱點內容
php的點餐系統源碼 發布:2024-11-01 20:13:53 瀏覽:714
拜占庭演算法 發布:2024-11-01 20:10:31 瀏覽:357
xcode編譯參數 發布:2024-11-01 20:00:04 瀏覽:665
蘋果5怎麼設置密碼鎖屏 發布:2024-11-01 19:54:55 瀏覽:124
寶塔上傳文件夾 發布:2024-11-01 19:39:50 瀏覽:257
java雲編譯器 發布:2024-11-01 19:34:24 瀏覽:385
免費源碼分享網 發布:2024-11-01 19:29:19 瀏覽:855
硬碟8mb緩存 發布:2024-11-01 19:20:02 瀏覽:192
抖音默認的青少年密碼是多少 發布:2024-11-01 19:18:36 瀏覽:906
電腦伺服器名字在哪裡找 發布:2024-11-01 19:13:27 瀏覽:2