当前位置:首页 » 编程语言 » 微信网页版python

微信网页版python

发布时间: 2023-07-28 17:24:01

㈠ 用python可以做微信小程序吗

其实微信小程序作为一个前端的机制,Python并不能插上边。只不过可以作为后端接口为微信小程序提供数据服务而已。python可以做后端服务和小程序通讯,python可以写后端平台,提供api,微信小程序就用wx.request()调用这个api。

微信小程序主要的三大块wxml控制页面结构、wxss控制页面样式、js控制页面逻辑。

如果创建的是一个不需要后端服务器支持的微信小程序,那么与Python就没什么关系了。

如果需要后端传送接收处理数据,那么后端就还有Python的用武之地,可以用Python的Web框架写一个后端接口供小程序进行调用。

更多Python知识请关注Python自学网。

㈡ python怎么抓取微信阅

抓取微信公众号的文章

一.思路分析

目前所知晓的能够抓取的方法有:

1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=&scene=0#rd)


2、通过微信合作方搜狗搜索引擎(http://weixin.sogou.com/),发送相应请求来间接抓取

第1种方法中,这种链接不太好获取,而且他的规律不是特别清晰。

因此本文采用的是方法2----通过给 weixin.sogou.com 发送即时请求来实时解析抓取数据并保存到本地。

二.爬取过程

1、首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰


在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作,只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python',并从页面中解析出搜索结果公众号对应的主页跳转链接。

2.获取主页入口内容

使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以

这里使用的是request.get()的方法获取入口网页内容

[python]view plain

  • #爬虫伪装头部设置

  • self.headers={'User-Agent':'Mozilla/5.0(WindowsNT6.3;WOW64;rv:51.0)Gecko/20100101Firefox/51.0'}

  • #设置操作超时时长

  • self.timeout=5

  • #爬虫模拟在一个request.session中完成

  • self.s=requests.Session()


  • [python]view plain

  • #搜索入口地址,以公众为关键字搜索该公众号

  • defget_search_result_by_keywords(self):

  • self.log('搜索地址为:%s'%self.sogou_search_url)

  • returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content

  • 3.获取公众号地址

    从获取到的网页内容中,得到公众号主页地址, 这一步骤有很多方法, beautifulsoup、webdriver,直接使用正则,pyquery等都可以

    这里使用的是pyquery的方法来查找公众号主页入口地址

    [python]view plain

  • #获得公众号主页地址

  • defget_wx_url_by_sougou_search_html(self,sougou_search_html):

  • doc=pq(sougou_search_html)

  • #printdoc('p[class="tit"]')('a').attr('href')

  • #printdoc('div[class=img-box]')('a').attr('href')

  • #通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址

  • returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')

  • 4.获取公众号主页的文章列表

    首先需要加载公众号主页,这里用的是phantomjs+webdriver, 因为这个主页的内容需要JS 渲染加载,采用之前的方法只能获得静态的网页内容

    [python]view plain

  • #使用webdriver加载公众号主页内容,主要是js渲染的部分

  • defget_selenium_js_html(self,url):

  • browser=webdriver.PhantomJS()

  • browser.get(url)

  • time.sleep(3)

  • #执行js得到整个页面内容

  • html=browser.execute_script("returndocument.documentElement.outerHTML")

  • returnhtml

  • 得到主页内容之后,获取文章列表,这个文章列表中有我们需要的内容

    [python]view plain

  • #获取公众号文章内容

  • defparse_wx_articles_by_html(self,selenium_html):

  • doc=pq(selenium_html)

  • print'开始查找内容msg'

  • returndoc('div[class="weui_media_boxappmsg"]')

  • #有的公众号仅仅有10篇文章,有的可能多一点

  • #returndoc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的

  • 5.解析每一个文章列表,获取我们需要的信息

    6.处理对应的内容

    包括文章名字,地址,简介,发表时间等

    7.保存文章内容

    以html的格式保存到本地

    同时将上一步骤的内容保存成excel 的格式

    8.保存json数据

    这样,每一步拆分完,爬取公众号的文章就不是特别难了。

    三、源码

    第一版源码如下:

    [python]view plain

  • #!/usr/bin/python

  • #coding:utf-8

  • importsys

  • reload(sys)

  • sys.setdefaultencoding('utf-8')

  • fromurllibimportquote

  • frompyqueryimportPyQueryaspq

  • fromseleniumimportwebdriver

  • importrequests

  • importtime

  • importre

  • importjson

  • importos

  • classweixin_spider:

  • def__init__(self,kw):

  • '构造函数'

  • self.kw=kw

  • #搜狐微信搜索链接

  • #self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_='%quote(self.kw)

  • self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_='%quote(self.kw)

  • #爬虫伪装

  • self.headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64;rv:47.0)Gecko/20100101FirePHP/0refox/47.0FirePHP/0.7.4.1'}

  • #操作超时时长

  • self.timeout=5

  • self.s=requests.Session()

  • defget_search_result_by_kw(self):

  • self.log('搜索地址为:%s'%self.sogou_search_url)

  • returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content

  • defget_wx_url_by_sougou_search_html(self,sougou_search_html):

  • '根据返回sougou_search_html,从中获取公众号主页链接'

  • doc=pq(sougou_search_html)

  • #printdoc('p[class="tit"]')('a').attr('href')

  • #printdoc('div[class=img-box]')('a').attr('href')

  • #通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址

  • returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')

  • defget_selenium_js_html(self,wx_url):

  • '执行js渲染内容,并返回渲染后的html内容'

  • browser=webdriver.PhantomJS()

  • browser.get(wx_url)

  • time.sleep(3)

  • #执行js得到整个dom

  • html=browser.execute_script("returndocument.documentElement.outerHTML")

  • returnhtml

  • defparse_wx_articles_by_html(self,selenium_html):

  • '从selenium_html中解析出微信公众号文章'

  • doc=pq(selenium_html)

  • returndoc('div[class="weui_msg_card"]')

  • defswitch_arctiles_to_list(self,articles):

  • '把articles转换成数据字典'

  • articles_list=[]

  • i=1

  • ifarticles:

  • forarticleinarticles.items():

  • self.log(u'开始整合(%d/%d)'%(i,len(articles)))

  • articles_list.append(self.parse_one_article(article))

  • i+=1

  • #break

  • returnarticles_list

  • defparse_one_article(self,article):

  • '解析单篇文章'

  • article_dict={}

  • article=article('.weui_media_box[id]')

  • title=article('h4[class="weui_media_title"]').text()

  • self.log('标题是:%s'%title)

  • url='http://mp.weixin.qq.com'+article('h4[class="weui_media_title"]').attr('hrefs')

  • self.log('地址为:%s'%url)

  • summary=article('.weui_media_desc').text()

  • self.log('文章简述:%s'%summary)

  • date=article('.weui_media_extra_info').text()

  • self.log('发表时间为:%s'%date)

  • pic=self.parse_cover_pic(article)

  • content=self.parse_content_by_url(url).html()

  • contentfiletitle=self.kw+'/'+title+'_'+date+'.html'

  • self.save_content_file(contentfiletitle,content)

  • return{

  • 'title':title,

  • 'url':url,

  • 'summary':summary,

  • 'date':date,

  • 'pic':pic,

  • 'content':content

  • }

  • defparse_cover_pic(self,article):

  • '解析文章封面图片'

  • pic=article('.weui_media_hd').attr('style')

  • p=re.compile(r'background-image:url(.∗?)')

  • rs=p.findall(pic)

  • self.log('封面图片是:%s'%rs[0]iflen(rs)>0else'')

  • returnrs[0]iflen(rs)>0else''

  • defparse_content_by_url(self,url):

  • '获取文章详情内容'

  • page_html=self.get_selenium_js_html(url)

  • returnpq(page_html)('#js_content')

  • defsave_content_file(self,title,content):

  • '页面内容写入文件'

  • withopen(title,'w')asf:

  • f.write(content)

  • defsave_file(self,content):

  • '数据写入文件'

  • withopen(self.kw+'/'+self.kw+'.txt','w')asf:

  • f.write(content)

  • deflog(self,msg):

  • '自定义log函数'

  • printu'%s:%s'%(time.strftime('%Y-%m-%d%H:%M:%S'),msg)

  • defneed_verify(self,selenium_html):

  • '有时候对方会封锁ip,这里做一下判断,检测html中是否包含id=verify_change的标签,有的话,代表被重定向了,提醒过一阵子重试'

  • returnpq(selenium_html)('#verify_change').text()!=''

  • defcreate_dir(self):

  • '创建文件夹'

  • ifnotos.path.exists(self.kw):

  • os.makedirs(self.kw)

  • defrun(self):

  • '爬虫入口函数'

  • #Step0:创建公众号命名的文件夹

  • self.create_dir()

  • #Step1:GET请求到搜狗微信引擎,以微信公众号英文名称作为查询关键字

  • self.log(u'开始获取,微信公众号英文名为:%s'%self.kw)

  • self.log(u'开始调用sougou搜索引擎')

  • sougou_search_html=self.get_search_result_by_kw()

  • #Step2:从搜索结果页中解析出公众号主页链接

  • self.log(u'获取sougou_search_html成功,开始抓取公众号对应的主页wx_url')

  • wx_url=self.get_wx_url_by_sougou_search_html(sougou_search_html)

  • self.log(u'获取wx_url成功,%s'%wx_url)

  • #Step3:Selenium+PhantomJs获取js异步加载渲染后的html

  • self.log(u'开始调用selenium渲染html')

  • selenium_html=self.get_selenium_js_html(wx_url)

  • #Step4:检测目标网站是否进行了封锁

  • ifself.need_verify(selenium_html):

  • self.log(u'爬虫被目标网站封锁,请稍后再试')

  • else:

  • #Step5:使用PyQuery,从Step3获取的html中解析出公众号文章列表的数据

  • self.log(u'调用selenium渲染html完成,开始解析公众号文章')

  • articles=self.parse_wx_articles_by_html(selenium_html)

  • self.log(u'抓取到微信文章%d篇'%len(articles))

  • #Step6:把微信文章数据封装成字典的list

  • self.log(u'开始整合微信文章数据为字典')

  • articles_list=self.switch_arctiles_to_list(articles)

  • #Step7:把Step5的字典list转换为Json

  • self.log(u'整合完成,开始转换为json')

  • data_json=json.mps(articles_list)

  • #Step8:写文件

  • self.log(u'转换为json完成,开始保存json数据到文件')

  • self.save_file(data_json)

  • self.log(u'保存完成,程序结束')

  • #main

  • if__name__=='__main__':

  • gongzhonghao=raw_input(u'输入要爬取的公众号')

  • ifnotgongzhonghao:

  • gongzhonghao='python6359'

  • weixin_spider(gongzhonghao).run()

  • 第二版代码:

    对代码进行了一些优化和整改,主要:

    1.增加了excel存贮

    2.对获取文章内容规则进行修改

    3.丰富了注释

    本程序已知缺陷: 如果公众号的文章内容包括视视频,可能会报错。

    [python]view plain

  • #!/usr/bin/python

  • #coding:utf-8

㈢ 如何用Python进行微信二次开发

创建步骤:

1.申请免费且支持python的服务器,新浪云sae,新建SAE应用之后,有两种代码提交方式,建议使用SVN(因为git支持代码提交,但不支持环境配置);

2.将对应版本的信息复制到微信开发-基本配置-URL,提交显示错误,因为还没有写代码,可以先用web框webpy架写个网页;

查看webpy使用说明:http://www.webpy.org/install.zh-cn

查看ase进行python开发入门说明:http://www.sinacloud.com/doc/sae/python/index.html

3.配置信息,告诉新浪云需要什么运行环境。点击代码管理-编辑代码,将用到的第三方库信息写入config.yaml,注意破折号,冒号后面空格!!

libraries:
-name:webpy
version:"0.36"

-name:lxml
version:"2.3.4"

在index.wsgi文件中写入python启动程序
新建文件,写入接受微信get请求验证的Python文件

4.在index.wgsi中写入以下信息:

#coding=utf-8

importos
importsae
importweb#配置web的路由
urls=(
'/weixin','WeixinInterface'
)
#拼接路径
app_root=os.path.dirname(__file__)
templates_root=os.path.join(app_root,'templates')
#渲染模版
render=web.template.render(templates_root)

#启动app
app=web.application(urls,globals()).wsgifunc()
application=sae.create_wsgi_app(app)

5.在自己编写的Python文件中写入微信验证和接受信息的程序

#coding=utf-8

importhashlib
importweb
importtime
importos
fromlxmlimportetree

#hashlib用于加密,md5,hash等
#lxml用来解析xml文件

classWeixinInterface(object):
#初始化
def__init__(self):
#拼接路径
self.app_root=os.path.dirname(__file__)
self.templates_root=os.path.join(self.app_root,'templates')
#渲染模版
self.render=web.template.render(self.templates_root)

#使用get方法,接收微信的get请求,看开发者文档的说明
#http://mp.weixin.qq.com/wiki/8/.html
defGET(self):
data=web.input()
signature=data.signature#微信加密签名
timestamp=data.timestamp#时间戳
nonce=data.nonce#随机数
echostr=data.echostr#随即字符串
token='zq90857'#自己设置的token

#将token、timestamp、nonce三个参数进行字典序排序
list=[token,timestamp,nonce]
list.sort()
#将三个参数字符串拼接成一个字符串进行sha1加密
sha1=hashlib.sha1()
map(sha1.update,list)
temStr=sha1.hexdigest()#加密
#判断
iftemStr==signature:
returnechostr

6.假设接收文字信息,按照开发者文档的要求,配置template文件夹下reply_text.xml文件

$defwith(toUser,fromUser,createtime,content)
<xml>
<ToUserName><![CDATA[$toUser]]></ToUserName>
<FromUserName><![CDATA[$fromUser]]></FromUserName>
<CreateTime>$createtime</CreateTime>
<MsgType><![CDATA[text]]></MsgType>
<Content><![CDATA[$content]]></Content>
</xml>

㈣ python调用微信内置浏览器

1、首先F12或者右键审查元素进入开发者模式,点击Emulation。
2、其次点击Network,把Spoofuseragent改成Other,并把下面的带复制进去,有三句。
3、然后回车然后刷新页面即可。Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程

㈤ 如何在微信公众号编辑Python代码

步骤如下:
1.关注微信公众号“Python程序员”
2.关注成功后,点击右下角的“潘多拉”->"Python终端“->"阅读原文”。
3.Python开发页面被打开,在下面的输入框内,输入python代码,点击确认即可。

热点内容
游戏库源码 发布:2025-02-07 09:49:15 浏览:53
享宇钱包上传不了照片 发布:2025-02-07 09:48:32 浏览:632
模拟器怎么开安卓版本 发布:2025-02-07 09:42:35 浏览:771
c程序设计语言源码 发布:2025-02-07 09:22:41 浏览:623
数据库域的概念 发布:2025-02-07 09:22:40 浏览:640
电信路由器账号密码多少 发布:2025-02-07 09:22:01 浏览:671
我的世界怎么在别人服务器开光影 发布:2025-02-07 09:21:20 浏览:12
qq上传视频很慢怎么办 发布:2025-02-07 09:16:04 浏览:697
pythonredis缓存 发布:2025-02-07 09:10:24 浏览:928
封边机主要看哪些配置 发布:2025-02-07 09:10:17 浏览:906