当前位置:首页 » 编程语言 » php采集淘宝

php采集淘宝

发布时间: 2023-04-20 11:39:27

‘壹’ 请帮忙用js或php写一个可以采集淘宝和天猫商品优惠价格的代码用函数方

//==UserScript==
//@nameJD
//@namespacehttp://tampermonkey.net/
//@version0.1
//@!
//@authorYou
//@matchhttps://item.jd.com/*
//@grantnone
//==/UserScript==
/*jshint-W097*/
'usestrict';

//Yourcodehere...
vardivObj=document.createElement("input");
divObj.type="button";
divObj.value='获取抓取内容';
divObj.style.marginTop="20px";
divObj.style.marginBottom="20px";
divObj.style.marginLeft="50px";
varfirst=document.body.firstChild;
document.body.insertBefore(divObj,first);
varresult={};divObj.onclick=function(){
//获取价格
if(document.getElementById("jd-price")){
varpriceDiv=document.getElementById("jd-price");
varprice=priceDiv.innerText;
price=price.substr(1);
}elseif(document.getElementById("price")){
varpricePri=document.getElementById("price");
varpriceDiv=pricePri.firstElementChild;
varprice=priceDiv.innerText;
}elseif(document.getElementsByClassName("price")[0]){
varpriceClass=document.getElementsByClassName("price");
varpriceDiv=priceClass[0];
varprice=priceDiv.innerText;
}

result.price=price;
}

‘贰’ 怎么利用爬虫技术抓取淘宝搜索页面的产品信息

可以通过requests库re库进行淘宝商品爬虫爬取
import requests
import re
def getHTMLText(url):
try:
r= requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print("F")

def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序号","价格","商品名称"))
count = 0
for g in ilt:
count = count +1
print(tplt.format(count,g[0],g[1]))

def main():
goods = '书包'
depth = 2
start_url = "https://s.taobao.com/search?q="+ goods
infoList = []
for i in range(depth):
try:
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
except:
continue
printGoodsList(infoList)
main()
这段代码在过去是可以爬取淘宝商品信息,但是因为淘宝的反扒技术升级,便不能让你大摇大摆地进出自如了。
此外也可以借助采集实现采集

‘叁’ 淘宝用的是怎么的技术,防止被采集的如何用php采集淘宝的数据

我只采晌埋察集过天猫的数据,估计淘宝也不难吧宴茄,简单的思路就是下载html,正则链接,打开链接,爬数据,不过php是单线程的,液举速度慢。

‘肆’ 急!php怎样跳过淘宝登陆,直接采集到淘宝指数的搜索结果

不告诉你...嘿嘿

‘伍’ PHP小偷程序,或JS小偷程序,能采集淘宝搜索结果页面吗

只要建立一个
request
就会返回相应的结果。者缺怎么兄渣搭配是你自己的创羡嫌悄意。小偷程序只是个名称而已.

‘陆’ php 如何抓取淘宝搜索页面

需要用的zend扩展的,淘宝客成熟的作品源码都这么干的,自己找下。

‘柒’ 一键上传淘宝php源码

PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下
调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。
思路:
file_get_contents(url) 该函数根据 url 如 http://www..com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!
具体实现方法:(获取500图,名称,价格,属性及商品描述)
复制代码 代码如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text
A.获取500图:
复制代码 代码如下:
preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;
B. 获取名称:
复制代码 代码如下:
preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)
C.获取价格:
复制代码 代码如下:
preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型
D.获取属性:
这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如
复制代码 代码如下:

<div id=”xxx”>

<ul>

</ul>
<div>…
<div>…
</div>
</div>
</div>

这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>,所以我们可以采用变通法达到获取属性标签内容的目的。
复制代码 代码如下:
preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//这个正则会抓取<div开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。
E.获取描述:
通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。
好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<div id=”detail”> </div>
复制代码 代码如下:
<div id="description">
<div id="J_DivItemDesc">描述加载中</div>
</div>
这几个div是加载描述所必须的,那么下面就是写代码了:
复制代码 代码如下:
preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本
$content=$content[0];
$description='<div id="detail"> </div>
<div id="description">
<div id="J_DivItemDesc">描述加载中</div>
</div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。

‘捌’ php 使用crul get 如何抓取淘宝商品页面

首先我对你的php代码没看懂,不熟悉这门语言。我当时确实取到了数据,就是用JAVA第三方类库直接解析url对应的html内容,不过访问频率是个问题,不能太快,否则会封ip,可以考虑用sleep休眠机制类似的。不过总的来说还是不太稳定,效果不好

‘玖’ php curl 是不是不能采集淘宝天猫的链接

你好
这个是可以采集的
只是使用比较复杂
不仅要有跳转,还需要传递 cookie
curl 仅能获取目标页面的 html 代码,并不能执行其中的 js 程序
而该页面的关键数据同时通过 js 产生的

热点内容
jrtplib编译 发布:2024-11-01 18:06:01 浏览:226
java代码中if 发布:2024-11-01 18:02:40 浏览:377
android定时刷新 发布:2024-11-01 17:59:43 浏览:999
炎黄解说我的世界服务器生存 发布:2024-11-01 17:59:42 浏览:542
如何清楚网页缓存 发布:2024-11-01 17:53:58 浏览:552
linux文件权限不够 发布:2024-11-01 17:53:19 浏览:917
c语言中10是什么意思 发布:2024-11-01 17:45:08 浏览:892
装棉衣压缩袋 发布:2024-11-01 17:37:18 浏览:297
android40ble蓝牙 发布:2024-11-01 17:36:58 浏览:712
数据库表对比 发布:2024-11-01 17:18:42 浏览:985