python爬取app
‘壹’ 如何进行手机APP的数据爬取
python爬虫手机的步骤:
1. 下载fiddler抓包工具
2. 设置fiddler
这里有两点需要说明一下。
设置允许抓取HTTPS信息包
操作很简单,打开下载好的fiddler,找到 Tools -> Options,然后再HTTPS的工具栏下勾选Decrpt HTTPS traffic,在新弹出的选项栏下勾选Ignore server certificate errors。
设置允许外部设备发送HTTP/HTTPS到fiddler
相同的,在Connections选项栏下勾选Allow remote computers to connect,并记住上面的端口号8888,后面会使用到。
好了,需要的fiddler设置就配置完成了。
3. 设置手机端
设置手机端之前,我们需要记住一点:电脑和手机需要在同一个网络下进行操作。
可以使用wifi或者手机热点等来完成。
假如你已经让电脑和手机处于同一个网络下了,这时候我们需要知道此网络的ip地址,可以在命令行输入ipconfig简单的获得,如图。
好了,下面我们开始手机端的设置。
手机APP的抓取操作对于Android和Apple系统都可用,博主使用的苹果系统,在此以苹果系统为例。
进入到手机wifi的设置界面,选择当前连接网络的更多信息,在苹果中是一个叹号。然后在最下面你会看到HTTP代理的选项,点击进入。
进入后,填写上面记住的ip地址和端口号,确定保存。
4. 下载fiddler安全证书
在手机上打开浏览器输入一个上面ip地址和端口号组成的url:http://192.168.43.38:8888,然后点击FiddlerRoot certificate下载fiddler证书。
以上就简单完成了所有的操作,最后我们测试一下是否好用。
5. 手机端测试
就以知乎APP为例,在手机上打开 知乎APP。下面是电脑上fiddler的抓包结果。
结果没有问题,抓到信息包。然后就可以使用我们分析网页的方法来进行后续的操作了。
‘贰’ 使用Appium爬取淘宝App数据
Appium选择了Client/Server的设计模式,Server可以在OSX、Windows以及Linux系统上运行,Client支持Ruby、Python、Java、PHP、C#、JavaScript等语言的实现。
本教程以MacBook Pro通过Python程序控制Android系统的淘宝App为例,因为Appium依赖Android SDK,Android SDK需要Java环境,所以所需环境如下:
pc端和移动端的连接有两种方式USB连接和无线连接
更多命令:官方教程
程序第一次运行的时候,会在手机安装3个app,一定要同意安装,只有Appium Settings在桌面有图标
Android SDK官方教程
Appium官方教程
Appium新手入门
‘叁’ python怎么抓取微信阅
抓取微信公众号的文章
一.思路分析
目前所知晓的能够抓取的方法有:
1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=&scene=0#rd)
2、通过微信合作方搜狗搜索引擎(http://weixin.sogou.com/),发送相应请求来间接抓取
第1种方法中,这种链接不太好获取,而且他的规律不是特别清晰。
因此本文采用的是方法2----通过给 weixin.sogou.com 发送即时请求来实时解析抓取数据并保存到本地。
二.爬取过程
1、首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰
在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作,只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python',并从页面中解析出搜索结果公众号对应的主页跳转链接。
2.获取主页入口内容
使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以
这里使用的是request.get()的方法获取入口网页内容
[python]view plain
#爬虫伪装头部设置
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT6.3;WOW64;rv:51.0)Gecko/20100101Firefox/51.0'}
#设置操作超时时长
self.timeout=5
#爬虫模拟在一个request.session中完成
self.s=requests.Session()
#搜索入口地址,以公众为关键字搜索该公众号
defget_search_result_by_keywords(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
#获得公众号主页地址
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
#使用webdriver加载公众号主页内容,主要是js渲染的部分
defget_selenium_js_html(self,url):
browser=webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
#执行js得到整个页面内容
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
#获取公众号文章内容
defparse_wx_articles_by_html(self,selenium_html):
doc=pq(selenium_html)
print'开始查找内容msg'
returndoc('div[class="weui_media_boxappmsg"]')
#有的公众号仅仅有10篇文章,有的可能多一点
#returndoc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的
#!/usr/bin/python
#coding:utf-8
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
fromurllibimportquote
frompyqueryimportPyQueryaspq
fromseleniumimportwebdriver
importrequests
importtime
importre
importjson
importos
classweixin_spider:
def__init__(self,kw):
'构造函数'
self.kw=kw
#搜狐微信搜索链接
#self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_='%quote(self.kw)
self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_='%quote(self.kw)
#爬虫伪装
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64;rv:47.0)Gecko/20100101FirePHP/0refox/47.0FirePHP/0.7.4.1'}
#操作超时时长
self.timeout=5
self.s=requests.Session()
defget_search_result_by_kw(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
'根据返回sougou_search_html,从中获取公众号主页链接'
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
defget_selenium_js_html(self,wx_url):
'执行js渲染内容,并返回渲染后的html内容'
browser=webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
#执行js得到整个dom
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
defparse_wx_articles_by_html(self,selenium_html):
'从selenium_html中解析出微信公众号文章'
doc=pq(selenium_html)
returndoc('div[class="weui_msg_card"]')
defswitch_arctiles_to_list(self,articles):
'把articles转换成数据字典'
articles_list=[]
i=1
ifarticles:
forarticleinarticles.items():
self.log(u'开始整合(%d/%d)'%(i,len(articles)))
articles_list.append(self.parse_one_article(article))
i+=1
#break
returnarticles_list
defparse_one_article(self,article):
'解析单篇文章'
article_dict={}
article=article('.weui_media_box[id]')
title=article('h4[class="weui_media_title"]').text()
self.log('标题是:%s'%title)
url='http://mp.weixin.qq.com'+article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址为:%s'%url)
summary=article('.weui_media_desc').text()
self.log('文章简述:%s'%summary)
date=article('.weui_media_extra_info').text()
self.log('发表时间为:%s'%date)
pic=self.parse_cover_pic(article)
content=self.parse_content_by_url(url).html()
contentfiletitle=self.kw+'/'+title+'_'+date+'.html'
self.save_content_file(contentfiletitle,content)
return{
'title':title,
'url':url,
'summary':summary,
'date':date,
'pic':pic,
'content':content
}
defparse_cover_pic(self,article):
'解析文章封面图片'
pic=article('.weui_media_hd').attr('style')
p=re.compile(r'background-image:url(.∗?)')
rs=p.findall(pic)
self.log('封面图片是:%s'%rs[0]iflen(rs)>0else'')
returnrs[0]iflen(rs)>0else''
defparse_content_by_url(self,url):
'获取文章详情内容'
page_html=self.get_selenium_js_html(url)
returnpq(page_html)('#js_content')
defsave_content_file(self,title,content):
'页面内容写入文件'
withopen(title,'w')asf:
f.write(content)
defsave_file(self,content):
'数据写入文件'
withopen(self.kw+'/'+self.kw+'.txt','w')asf:
f.write(content)
deflog(self,msg):
'自定义log函数'
printu'%s:%s'%(time.strftime('%Y-%m-%d%H:%M:%S'),msg)
defneed_verify(self,selenium_html):
'有时候对方会封锁ip,这里做一下判断,检测html中是否包含id=verify_change的标签,有的话,代表被重定向了,提醒过一阵子重试'
returnpq(selenium_html)('#verify_change').text()!=''
defcreate_dir(self):
'创建文件夹'
ifnotos.path.exists(self.kw):
os.makedirs(self.kw)
defrun(self):
'爬虫入口函数'
#Step0:创建公众号命名的文件夹
self.create_dir()
#Step1:GET请求到搜狗微信引擎,以微信公众号英文名称作为查询关键字
self.log(u'开始获取,微信公众号英文名为:%s'%self.kw)
self.log(u'开始调用sougou搜索引擎')
sougou_search_html=self.get_search_result_by_kw()
#Step2:从搜索结果页中解析出公众号主页链接
self.log(u'获取sougou_search_html成功,开始抓取公众号对应的主页wx_url')
wx_url=self.get_wx_url_by_sougou_search_html(sougou_search_html)
self.log(u'获取wx_url成功,%s'%wx_url)
#Step3:Selenium+PhantomJs获取js异步加载渲染后的html
self.log(u'开始调用selenium渲染html')
selenium_html=self.get_selenium_js_html(wx_url)
#Step4:检测目标网站是否进行了封锁
ifself.need_verify(selenium_html):
self.log(u'爬虫被目标网站封锁,请稍后再试')
else:
#Step5:使用PyQuery,从Step3获取的html中解析出公众号文章列表的数据
self.log(u'调用selenium渲染html完成,开始解析公众号文章')
articles=self.parse_wx_articles_by_html(selenium_html)
self.log(u'抓取到微信文章%d篇'%len(articles))
#Step6:把微信文章数据封装成字典的list
self.log(u'开始整合微信文章数据为字典')
articles_list=self.switch_arctiles_to_list(articles)
#Step7:把Step5的字典list转换为Json
self.log(u'整合完成,开始转换为json')
data_json=json.mps(articles_list)
#Step8:写文件
self.log(u'转换为json完成,开始保存json数据到文件')
self.save_file(data_json)
self.log(u'保存完成,程序结束')
#main
if__name__=='__main__':
gongzhonghao=raw_input(u'输入要爬取的公众号')
ifnotgongzhonghao:
gongzhonghao='python6359'
weixin_spider(gongzhonghao).run()
#!/usr/bin/python
#coding:utf-8
[python]view plain
3.获取公众号地址
从获取到的网页内容中,得到公众号主页地址, 这一步骤有很多方法, beautifulsoup、webdriver,直接使用正则,pyquery等都可以
这里使用的是pyquery的方法来查找公众号主页入口地址
[python]view plain
4.获取公众号主页的文章列表
首先需要加载公众号主页,这里用的是phantomjs+webdriver, 因为这个主页的内容需要JS 渲染加载,采用之前的方法只能获得静态的网页内容
[python]view plain
得到主页内容之后,获取文章列表,这个文章列表中有我们需要的内容
[python]view plain
5.解析每一个文章列表,获取我们需要的信息
6.处理对应的内容
包括文章名字,地址,简介,发表时间等
7.保存文章内容
以html的格式保存到本地
同时将上一步骤的内容保存成excel 的格式
8.保存json数据
这样,每一步拆分完,爬取公众号的文章就不是特别难了。
三、源码
第一版源码如下:
[python]view plain
第二版代码:
对代码进行了一些优化和整改,主要:
1.增加了excel存贮
2.对获取文章内容规则进行修改
3.丰富了注释
本程序已知缺陷: 如果公众号的文章内容包括视视频,可能会报错。
[python]view plain
‘肆’ 4种Python爬虫(3. 微信小程序,如,超级猩猩)
目录:
1. PC网页爬虫
2. H5网页爬虫
3. 微信小程序爬虫
4. 手机APP爬虫
爬取超级猩猩的课表,该平台仅提供了微信小程序这一个途径,前面两种针对html网页的爬取方式都不再适用。
采用抓包分析是我们制定方案的第一步。
我用的Mac电脑,fiddler只有一个简化版,所以另找了Charles这个类似的软件。启动Charles的代理,在手机WIFI中设置好对应的代理就可以开抓了。但是,抓到的https包的内容都是乱码,咋办?
Charles中提供了ssl证书,在手机端安装证书即可。推荐使用iPhone,直接安装描述文件即可。Android手机必须使用系统版本在7.0以下的才行,7.0以上还需要反编译什么的,太麻烦了。
很容易的定位到了超级猩猩微信小程序载入课表的后台接口。拿这个URL在浏览器里访问试试,直接返回了json结果!超级猩猩很友好!
提取对应的URL,放到浏览器中验证,也可以支持返回json包,剩下就是分析一下这个json的数据结构,按照需要的方式导出了。
直接通过接口的爬取效率非常高,几秒钟就拉取了全国各个门店的排课,相当舒心。(下图的录屏没有进行加速)
最后一个挑战就是对只有Android/iOS的APP端应用数据的爬取。请看下一章
请点击: <下一页>
‘伍’ 爬取某笔公考app公基题库的操作
最近在准备上岸,备考中需做大量的练习,手机APP让练习无处不在,但有个缺点,就是每次只能练习10-20道题目,不能用题海战术,海量做题。能不能把网站的题库及解析都弄下来,在本地电脑上做题呢?以下是我的思路:1、分析并爬取手机软件的题库;2、调整好格式存入xls文件中;3、导入PC版可自定义的考试系统中(如教之初考试系统免费版);4、自行设置考试模式,海量练习。
倒腾了两天,终于搞定,后续再更新文章!
涉及到几个点。
1、关于手机网络数据的分析,我是用Fiddler 4进行的分析。
2、关于excel表格的操控,之前想用xlwings模块,后因没装office,用的是wps2013政府阉割版,无法操控,后改用xlrd、xlutils、shutil、os模块自己写了一个excel操纵类对象,发现还是有问题,后卸载阉割版wps,换了wps2016最新版的,就可以操作了。后来也没换xlwings模块了,将就着用自写模块。 大坑:xlrd模块好像不支持中文路径,全部换用英文路径,最后再把文件夹及文件名转换成中文的。
3、题库分类保存。
1、Fiddler抓包手机APP的网络请求
Fiddler是一款非常流行并且实用的http抓包工具,它的原理是在本机开启了一个http的代理服务器,然后它会转发所有的http请求和响应,不仅如此,它还可以支持请求重放等一些高级功能。显然它是可以支持对手机应用进行http抓包的。
设置在同一局域网下电脑端Fiddler抓取手机APP应用网络请求的步骤:
(1)电脑端启动Fiddler,打开菜单栏中的 Tools > Fiddler Options,打开“Fiddler Options”对话框。
(2)在Fiddler Options”对话框切换到“Connections”选项卡,然后勾选“Allow romote computers to connect”后面的复选框,然后点击“OK”按钮。( 小技巧: HTTPS标签中可以设置下拉框为...from remote clients only , 貌似 就只接收远程端的网络请求了)
(3)在电脑端的命令行输入:ipconfig,找到本机的ip地址。(我的局域网IP:192.168.1.10)
(4)在手机端,打开android设备的“设置”->“WLAN”,找到你要连接的网络,在上面长按,然后选择“修改网络”,弹出网络设置对话框,然后勾选“显示高级选项”。 (其实苹果手机也是类似的)
(5)在“代理”后面的输入框选择“手动”,在“代理服务器主机名”后面的输入框输入电脑的ip地址,在“代理服务器端口”后面的输入框输入8888,然后点击“保存”按钮。
(6)然后启动android设备中的APP应用,在fiddler中可以看到完整的请求和响应数据。
2、手机APP应用网络数据分析
手机上打开某笔公考软件后,从Fiddler左侧栏中可以看到大量的请求链接。
点击上图黄色区域的链接,可看到右侧详细数据。
在右侧详细数据栏中,我们可以看到请求的网址:POST http:// xxx bi.com/android/sydw/exercises?&platform=android22&version=6.4.3&vendor=Tencent&app=gwy&deviceId=F4J/K8kXx6+C24yqFuzAiA==&av=8&kav=3 HTTP/1.1
post请求的参数keypointId=621638&type=3&limit=15
返回的数据为Json格式,从返回数据中我们可以找出questionIds对应的题目编号,如2084744.
点击上上图(Fiddler网络请求响应)中红色框中的链接地址,我们可以看到右侧详细数据栏的数据
从上图中我们可以找到ID号为2084744的题目的题干、选项、题型、答案等有用数据。
分析基本结束,此手机APP应用的模式基本是这样:先请求15道题的ids,再根据meiti的ids请求题目相关数据。后续测试发现,请求questionIds时,修改参数,能一次最多请求到100道题的ids。
另外,从左侧请求链接可以找出对应的章节分类请求链接,根据分类号再查找对应的questionids,就可以把所有的题目抓取出来。
3、xls操控
将就着基于xlrd模块编写自用模块。
源码在此,可能格式错乱。需整理。
'''python
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on 2018-05-14 12:48:07
@author: wangzheng
Sys_Env : Windows_AMD64 Python3.5.2
Wechat : hrcl2015(微信)
Filename: MyXls.py
Description : xls文件操控类MyXls
注意:文件路径中不能有中文名,否则出错
"""
from xlrd import open_workbook
from xlutils. import
import os,shutil
class MyXls:
def __init__(self,fpath=None,modelfpath=None,sheetindex=None,protectrow=None,overwrite=True):
self.openxlspath=''#已打开的xls文件
self.sheetindex=None#当前工作表索引
self.rb=None#
self.wb=None#workbook工作簿
self.ws=None#worksheet工作表
self.headrow=0#开头保护行数
if (fpath is not None) and (modelfpath is not None):
self.open__xls(modelfpath,fpath,True)
elif fpath is not None:self.open_xls(fpath)
if sheetindex is not None:self.get_sheet(sheetindex)
if protectrow is not None:self.headrow=protectrow
def open_xls(self,fpath):
path=fpath
try:
rb = open_workbook(path)
except Exception as err:
print("File not exists: "+str(err))
return False
#通过sheet_by_index()获取的sheet没有write()方法
#rs = rb.sheet_by_index(0)
#rs = rb.sheet_by_name('sheet 1')
self.wb = (rb)
self.openxlspath=path
return True
def get_sheet(self,sheet_index=0):
sheets=sheet_index
#通过get_sheet()获取的sheet有write()方法
self.ws = self.wb.get_sheet(sheets)
self.sheetindex=sheets
def write_xls(self,row_index,column_index,data_str):
row,col,data=row_index,column_index,data_str
#写入数据
self.ws.write(row,col,data)#write(行,列,内容),索引从0开始
def write_xls_bycolname(self,row_index,column_name,data_str):
column_index=self.colname_to_num(column_name)
row,col,data=row_index,column_index,data_str
#写入数据
self.ws.write(row,col,data)#write(行,列,内容),索引从0开始
def write_xls_bysheet(self,sheetindex,row_index,column_name,data_str):
'''在指定工作表的指定行列表格中写入数据'''
if self.sheetindex != sheetindex :self.get_sheet(sheetindex)
self.write_xls_bycolname(row_index,column_name,data_str)
def save_xls(self,fpath=None):
if fpath is None:
self.wb.save(self.openxlspath)
print('saved '+self.openxlspath)
else:
path=fpath
self.wb.save(path)#保存xls文件
print('saved '+path)
return True
def open__xls(self,model_fpath,new_fpath,overwrite=True):
'''参照模板文件,复制并打开xls文件'''
if os.path.exists(model_fpath) :
new_fpath=self.auto_mkdir(new_fpath)
if (not os.path.exists(new_fpath)) or overwrite:
#print('[%s]to[%s]'%(model_fpath,new_fpath))
shutil.(model_fpath,new_fpath)
return self.open_xls(new_fpath)
else:print('新文件已存在,请修改新文件名!');return False
else:print('模板文件不存在,不能复制到新文件!');return False
def num_to_colname(self,col_index,start=0):
#列索引转列名,基数start从0开始,0-->A
if type(col_index) != int:
return col_index
if start==0:
x=col_index+1
elif start==1:
x=col_index
s=''
flag=False#借位标志
while x>26:
y=x%26#取余0-25
if y==0:y=26;flag=True;
d=chr(y+64)#低位
s=d+s
x=x//26#整除取商
if flag:x=x-1;flag=False;#如果借位,商要先-1
g=chr(x+64)#高位
s=g+s
return s
def colname_to_num(self,colname,start=0):
#列名转列索引 A-->0,B->1,开始基数start为0
if type(colname) is not str:
return colname
colname=colname.upper()#转成大写
col = 0
power = 1
#print(len(colname))#位数
for i in range(len(colname) - 1, -1, -1):#range(start=0,stop,step=1)
ch = colname[i] #倒序取字母
#print(ch)#所在位上的字母
col += (ord(ch) - ord('A') + 1 ) * power
power *= 26
#print(col-1)
if start==0:return col-1
if start==1:return col
def auto_mkdir(self,fpath):
'''自动补全目录,目录不存在就创建目录'''
#fpath='D:\\MyPython\\粉笔公考题库提取\\678\\980\\test.txt'
fpath=fpath.replace('\\','/')
if not os.path.exists(fpath):
plst=fpath.split(sep='/')
path=''
if not fpath.endswith('/'):plst=plst[:-1]
for p in plst:
path=path+p+'/'
if not os.path.exists(path):os.mkdir(path)
return fpath
if __name__=='__main__':
model_fpath='D:\\MyPython\\model.xls'
new_fpath='D:\\MyPython\\abc\\123/out.xls'
# myxls=MyXls()
# myxls.open__xls(model_fpath,new_fpath)
# myxls.get_sheet(0)
myxls=MyXls(new_fpath,model_fpath,2,3)
myxls.write_xls_bycolname(6,'K','K列6行数据')
# myxls.save_xls(new_fpath)
myxls.save_xls()
pass
'''
4、文件保存
保存成xls文件,和txt文件,txt文件再转换成word文档打印出来。大概有7个大类,100+小类,12737道题。
5、导入题库软件
xls文件导入题库中。
6、大功告成
PS:某笔app更新后,加入了防抓取数据的功能,貌似安卓5.1以上的都不能抓取了。
据资深网友反应,使用安卓模拟器(系统版本4.4)还可以抓到明文数据,有兴趣的读者可以试一试。
‘陆’ 如何爬取滴滴顺风车订单 python
对手机端APP进行抓包,首先找到他们的API对API进行模拟登陆,在实时刷新订单,并返回去程序就OK了,不过值得注意的是这一类APP API 大部分使用的是长连接来链接,抓包的时候注意一下