python爬取知乎

发布时间: 2022-08-08 11:43:04

‘壹’ python爬取知乎首页问题

唔可能是你没有登录成功啊

因为发现-知乎这个链接是不用登录就能抓的

但是这个知乎没有登录不行

看了下知乎登录不是这么简单的你没有登录成功

‘贰’ python爬虫能干什么

python爬虫就是模拟浏览器打开网页，获取网页中想要的那部分数据。利用爬虫我们可以抓取商品信息、评论及销量数据；可以抓取房产买卖及租售信息；可以抓取各类职位信息等。

爬虫：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

（推荐教程：Python入门教程）

通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

python爬虫能做什么？

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地，进而提取自己需要的数据存放起来使用。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

爬取知乎优质答案，为你筛选出各话题下最优质的内容。

抓取淘宝、京东商品、评论及销量数据，对各种商品及用户的消费场景进行分析。

抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。

爬取各类职位信息，分析各行业人才需求情况及薪资水平。

爬虫的本质：

爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

‘叁’ 如何利用python爬取知乎首页

找本有爬虫项目的参考书，照着做一遍；或者网上爬虫项目的视频，学懂了就好，不就是爬个首页而已嘛。

‘肆’ 如何使用python爬取知乎数据并做简单分析

一、使用的技术栈：
爬虫：python27 +requests+json+bs4+time
分析工具： ELK套件
开发工具：pycharm
数据成果简单的可视化分析
1.性别分布
0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定
可见知乎的用户男性颇多。
二、粉丝最多的top30
粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。
三、写文章最多的top30
四、爬虫架构
爬虫架构图如下：
说明：
选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearchkibana和elasticsearch配合，将数据转换成用户友好的可视化图形。
五、编码
爬取一个url:
解析内容：
存本地文件：
代码说明：
* 需要修改获取requests请求头的authorization。
* 需要修改你的文件存储路径。
源码下载：点击这里，记得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization
打开chorme，打开https : // www. hu .com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)七、可改进的地方
可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
八、关于ELK套件
关于elk的套件安装就不讨论了，具体见官网就行了。网站：https : // www . elastic . co/另外logstash的配置文件如下：
从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

‘伍’ request库用python3怎么伪装header爬取知乎

可以尝试安装一个简单实用的库：fake-useragent

网址链接：https://pypi.python.org/pypi/fake-useragent

下载后，在命令行里面输入：pip install fake-useragent就可以了

尝试输入下面代码：

from fake_useragent import UserAgent
ua = UserAgent()
#ie浏览器的user agent
print(ua.ie)

‘陆’ 知乎python 爬虫如何入门学习

链接：https://pan..com/s/1wMgTx-M-Ea9y1IYn-UTZaA

提取码：2b6c

课程简介

毕业不知如何就业？工作效率低经常挨骂？很多次想学编程都没有学会？

Python 实战：四周实现爬虫系统，无需编程基础，二十八天掌握一项谋生技能。

带你学到如何从网上批量获得几十万数据，如何处理海量大数据，数据可视化及网站制作。

课程目录

开始之前，魔力手册 for 实战学员预习

第一周：学会爬取网页信息

第二周：学会爬取大规模数据

第三周：数据统计与分析

第四周：搭建 Django 数据可视化网站

......

‘柒’ Python如何爬取知乎一个话题下的全部源码(为什么我只能获取很少一部分)

手动打开知乎也只能看到很少一部分，必须下拉才会加载。所以要模拟这种动作吧。

‘捌’ python爬虫登录知乎后怎样爬取数据

模拟登录
很多网站，比如知乎、微博、豆瓣，都需要登录之后，才能浏览某些内容。所以想要爬取这类网站，必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站会记住你的信息，把它放到cookie里，方便下次自动登录。所以，要爬取这类网站的策略是：先进行一次手动登录，获取cookie，然后再次登录时，调用上一次登录得到的cookie，实现自动登录。
动态爬取
在爬取知乎某个问题的时候，需要将滑动鼠标滚轮到底部，以显示新的回答。静态的爬取方法无法做到这一点，可以引入selenium库来解决这一问题。selenium库模拟人浏览网站、进行操作，简单易懂。

‘玖’ 如何入门 Python 爬虫

个人觉得：
新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）

1. 打开网页，下载文件：urllib
2. 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求，支持重定向，cookies等。
4. 使用Selenium，模拟浏览器提交类似用户的操作，处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始
，目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本操作。

实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。

学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

这是我在知乎的回答，直接转过来有些链接没有生效，可以到这里看原版，http://www.hu.com/question/20899988/answer/59131676

‘拾’ 如何利用python 爬取知乎上面的数据

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: Administrator
# @Date: 2015-10-31 15:45:27
# @Last Modified by: Administrator
# @Last Modified time: 2015-11-23 16:57:31
import requests
import sys
import json
import re
reload(sys)
sys.setdefaultencoding('utf-8')

#获取到匹配字符的字符串
def find(pattern,test):
finder = re.search(pattern, test)
start = finder.start()
end = finder.end()
return test[start:end-1]

cookies = {
'_ga':'GA1.2.10sdfsdfsdf', '_za':'8d570b05-b0b1-4c96-a441-faddff34',
'q_c1':'23ddd234234',
'_xsrf':'234id':'"ZTE3NWY2ZTsdfsdfsdfWM2YzYxZmE=|1446435757|"',
'z_c0':'"=|14464e234767|"',
'__utmt':'1', '__utma':'51854390.109883802f8.1417518721.1447917637.144c7922009.4',
'__utmb':'518542340.4.10.1447922009', '__utmc':'51123390', '__utmz':'5185435454sdf06.1.1.utmcsr=hu.com|utmcgcn=(referral)|utmcmd=referral|utmcct=/',
'__utmv':'51854340.1d200-1|2=registration_date=2028=1^3=entry_date=201330318=1'}

headers = {'user-agent':
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36',
'referer':'http://www.hu.com/question/following',
'host':'www.hu.com','Origin':'http://www.hu.com',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'Connection':'keep-alive','X-Requested-With':'XMLHttpRequest','Content-Length':'81',
'Accept-Encoding':'gzip,deflate','Accept-Language':'zh-CN,zh;q=0.8','Connection':'keep-alive'
}

#多次访问之后，其实一加载时加载20个问题，具体参数传输就是offset，以20递增

dicc = {"offset":60}
n=20
b=0

# 与爬取图片相同的是，往下拉的时候也会发送http请求返回json数据，但是不同的是，像模拟登录首页不同的是除了
# 发送form表单的那些东西后，知乎是拒绝了我的请求了，刚开始以为是headers上的拦截，往headers添加浏览器
# 访问是的headers那些信息添加上，发现还是拒绝访问。

#想了一下，应该是cookie原因。这个加载的请求和模拟登录首页不同
#所以补上其他的cookies信息，再次请求，请求成功。
for x in xrange(20,460,20):
n = n+20
b = b+20
dicc['offset'] = x
formdata = {'method':'next','params':'{"offset":20}','_xsrf':''}

#传输需要json串，和python的字典是有区别的，需要转换
formdata['params'] = json.mps(dicc)
# print json.mps(dicc)
# print dicc

circle = requests.post("http://www.hu.com/node/ProfileFollowedQuestionsV2",
cookies=cookies,data=formdata,headers=headers)

#response内容其实爬过一次之后就大同小异了。都是
#问题返回的json串格式
# {"r":0,
# "msg": ["<div class=\"zm-profile-section-item zg-clear\">\n
# <span class=\"zm-profile-vote-count\">\n<div class=\"zm-profile-vote-num\">205K<\/div>\n
# <div class=\"zm-profile-vote-type\">\u6d4f\u89c8<\/div>\n
# <\/span>\n<div class=\"zm-profile-section-main\">\n
# <h2 class=\"zm-profile-question\">\n
# <a class=\"question_link\" target=\"_blank\" href=\"\/question\/21719532\">
# \u4ec0\u4e48\u4fc3\u4f7f\u4f60\u8d70\u4e0a\u72ec\u7acb\u5f00\u53d1\u8005\u4e4b\u8def\uff1f<\/a>\n
# <\/h2>\n<div class=\"meta zg-gray\">\n<a data-follow=\"q:link\" class=\"follow-link zg-unfollow meta-item\"
# href=\"javascript:;\" id=\"sfb-868760\">
# <i class=\"z-icon-follow\"><\/i>\u53d6\u6d88\u5173\u6ce8<\/a>\n<span class=\"zg-bull\">•<\/span>\n63 \u4e2a\u56de\u7b54\n<span class=\"zg-bull\">•<\/span>\n3589 \u4eba\u5173\u6ce8\n<\/div>\n<\/div>\n<\/div>",
# "<div class=\"zm-profile-section-item zg-clear\">\n
# <span class=\"zm-profile-vote-count\">\n
# <div class=\"zm-profile-vote-num\">157K<\/div>\n
# <div class=\"zm-profile-vote-type\">\u6d4f\u89c8<\/div>\n
# <\/span>\n<div class=\"zm-profile-section-main\">\n
# <h2 class=\"zm-profile-question\">\n
# <a class=\"question_link\" target=\"_blank\" href=\"\/question\/31764065\">
# \u672c\u79d1\u6e23\u6821\u7684\u5b66\u751f\u5982\u4f55\u8fdb\u5165\u7f8e\u5e1d\u725b\u6821\u8bfbPhD\uff1f<\/a>\n
# <\/h2>\n<div class=\"meta zg-gray\">\n
# <a data-follow=\"q:link\" class=\"follow-link zg-unfollow meta-item\" href=\"javascript:;\" id=\"sfb-4904877\">
# <i class=\"z-icon-follow\"><\/i>\u53d6\u6d88\u5173\u6ce8<\/a>\n<span class=\"zg-bull\">•
# <\/span>\n112 \u4e2a\u56de\u7b54\n<span class=\"zg-bull\">•<\/span>\n1582 \u4eba\u5173\u6ce8\n
# <\/div>\n<\/div>\n<\/div>"]}
# print circle.content

#同样json串需要自己转换成字典后使用
jsondict = json.loads(circle.text)
msgstr = jsondict['msg']
# print len(msgstr)

#根据自己所需要的提取信息规则写出正则表达式
pattern = 'question\/.*?/a>'
try:
for y in xrange(0,20):
wholequestion = find(pattern, msgstr[y])
pattern2 = '>.*?<'
finalquestion = find(pattern2, wholequestion).replace('>','')
print str(b+y)+" "+finalquestion

#当问题已经访问完后再传参数抛出异常此时退出循环
except Exception, e:
print "全部%s个问题" %(b+y)
break

阅读全文

热点内容

python查看编码发布：2025-01-21 19:58:12 浏览：836

人记忆存储位置发布：2025-01-21 19:55:05 浏览：690

计算机存储容量的基本单位是发布：2025-01-21 19:35:44 浏览：980

c语言怎么给字符赋值发布：2025-01-21 19:30:45 浏览：122

拍卖php源码发布：2025-01-21 19:27:52 浏览：115

数控编程南京发布：2025-01-21 19:20:16 浏览：163

ftp服务器功能为发布：2025-01-21 19:05:53 浏览：121

7z解压有密码发布：2025-01-21 19:05:08 浏览：608

轩逸经典豪华有哪些配置发布：2025-01-21 18:56:16 浏览：71

hibernate查询sql语句发布：2025-01-21 18:48:46 浏览：304

python爬取知乎

与python爬取知乎相关的资讯