python爬虫爬取网站

发布时间: 2022-11-15 19:34:59

A. python爬虫可以爬哪些网站

理论上可以爬任何网站。

但是爬取内容时一定要慎重，有些底线不能触碰，否则很有可能真的爬进去！

B. Python爬取知乎与我所理解的爬虫与反爬虫

关于知乎验证码登陆的问题，用到了Python上一个重要的图片处理库PIL,如果不行，就把图片存到本地，手动输入。

通过对知乎登陆是的抓包，可以发现登陆知乎，需要post三个参数，一个是账号，一个是密码，一个是xrsf。
这个xrsf隐藏在表单里面，每次登陆的时候，应该是服务器随机产生一个字符串。所有，要模拟登陆的时候，必须要拿到xrsf。

用chrome （或者火狐 httpfox 抓包分析）的结果：

所以，必须要拿到xsrf的数值，注意这是一个动态变化的参数，每次都不一样。

拿到xsrf，下面就可以模拟登陆了。
使用requests库的session对象，建立一个会话的好处是，可以把同一个用户的不同请求联系起来，直到会话结束都会自动处理cookies。

注意：cookies 是当前目录的一个文件，这个文件保存了知乎的cookie，如果是第一个登陆，那么当然是没有这个文件的，不能通过cookie文件来登陆。必须要输入密码。

这是登陆的函数，通过login函数来登陆，post 自己的账号，密码和xrsf 到知乎登陆认证的页面上去，然后得到cookie，将cookie保存到当前目录下的文件里面。下次登陆的时候，直接读取这个cookie文件。

这是cookie文件的内容

以下是源码：

运行结果：

https://github.com/zhaozhengcoder/Spider/tree/master/spider_hu

反爬虫最基本的策略：

爬虫策略：
这两个都是在http协议的报文段的检查，同样爬虫端可以很方便的设置这些字段的值，来欺骗服务器。

反爬虫进阶策略：
1.像知乎一样，在登录的表单里面放入一个隐藏字段，里面会有一个随机数，每次都不一样，这样除非你的爬虫脚本能够解析这个随机数，否则下次爬的时候就不行了。
2.记录访问的ip，统计访问次数，如果次数太高，可以认为这个ip有问题。

爬虫进阶策略：
1.像这篇文章提到的，爬虫也可以先解析一下隐藏字段的值，然后再进行模拟登录。
2.爬虫可以使用ip代理池的方式，来避免被发现。同时，也可以爬一会休息一会的方式来降低频率。另外，服务器根据ip访问次数来进行反爬，再ipv6没有全面普及的时代，这个策略会很容易造成误伤。（这个是我个人的理解）。

通过Cookie限制进行反爬虫：
和Headers校验的反爬虫机制类似，当用户向目标网站发送请求时，会再请求数据中携带Cookie，网站通过校验请求信息是否存在Cookie，以及校验Cookie的值来判定发起访问请求的到底是真实的用户还是爬虫，第一次打开网页会生成一个随机cookie，如果再次打开网页这个Cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。

反爬虫进进阶策略：
1.数据投毒，服务器在自己的页面上放置很多隐藏的url，这些url存在于html文件文件里面，但是通过css或者js使他们不会被显示在用户看到的页面上面。（确保用户点击不到）。那么，爬虫在爬取网页的时候，很用可能取访问这个url，服务器可以100%的认为这是爬虫干的，然后可以返回给他一些错误的数据，或者是拒绝响应。

爬虫进进阶策略：
1.各个网站虽然需要反爬虫，但是不能够把网络，谷歌这样的搜索引擎的爬虫给干了（干了的话，你的网站在网络都说搜不到！）。这样爬虫应该就可以冒充是网络的爬虫去爬。（但是ip也许可能被识破，因为你的ip并不是网络的ip）

反爬虫进进进阶策略：
给个验证码，让你输入以后才能登录，登录之后，才能访问。

爬虫进进进阶策略：
图像识别，机器学习，识别验证码。不过这个应该比较难，或者说成本比较高。

参考资料：
廖雪峰的python教程
静觅的python教程
requests库官方文档
segmentfault上面有一个人的关于知乎爬虫的博客，找不到链接了

C. Python编程基础之（五）Scrapy爬虫框架

经过前面四章的学习，我们已经可以使用Requests库、Beautiful Soup库和Re库，编写基本的Python爬虫程序了。那么这一章就来学习一个专业的网络爬虫框架--Scrapy。没错，是框架，而不是像前面介绍的函数功能库。

Scrapy是一个快速、功能强大的网络爬虫框架。

可能大家还不太了解什么是框架，爬虫框架其实是实现爬虫功能的一个软件结构和功能组件的集合。

简而言之， Scrapy就是一个爬虫程序的半成品，可以帮助用户实现专业的网络爬虫。

使用Scrapy框架，不需要你编写大量的代码，Scrapy已经把大部分工作都做好了，允许你调用几句代码便自动生成爬虫程序，可以节省大量的时间。

当然，框架所生成的代码基本是一致的，如果遇到一些特定的爬虫任务时，就不如自己使用Requests库搭建来的方便了。

PyCharm安装

测试安装：

出现框架版本说明安装成功。

掌握Scrapy爬虫框架的结构是使用好Scrapy的重中之重！

先上图：

整个结构可以简单地概括为： “5+2”结构和3条数据流

5个主要模块（及功能）：

（1）控制所有模块之间的数据流。

（2）可以根据条件触发事件。

（1）根据请求下载网页。

（1）对所有爬取请求进行调度管理。

（1）解析DOWNLOADER返回的响应--response。

（2）产生爬取项--scraped item。

（3）产生额外的爬取请求--request。

（1）以流水线方式处理SPIDER产生的爬取项。

（2）由一组操作顺序组成，类似流水线，每个操作是一个ITEM PIPELINES类型。

（3）清理、检查和查重爬取项中的HTML数据并将数据存储到数据库中。

2个中间键：

（1）对Engine、Scheler、Downloader之间进行用户可配置的控制。

（2）修改、丢弃、新增请求或响应。

（1）对请求和爬取项进行再处理。

（2）修改、丢弃、新增请求或爬取项。

3条数据流：

（1）：图中数字 1-2

1：Engine从Spider处获得爬取请求--request。

2：Engine将爬取请求转发给Scheler，用于调度。

（2）：图中数字 3-4-5-6

3：Engine从Scheler处获得下一个要爬取的请求。

4：Engine将爬取请求通过中间件发送给Downloader。

5：爬取网页后，Downloader形成响应--response，通过中间件发送给Engine。

6：Engine将收到的响应通过中间件发送给Spider处理。

（3）：图中数字 7-8-9

7：Spider处理响应后产生爬取项--scraped item。

8：Engine将爬取项发送给Item Pipelines。

9：Engine将爬取请求发送给Scheler。

任务处理流程：从Spider的初始爬取请求开始爬取，Engine控制各模块数据流，不间断从Scheler处获得爬取请求，直至请求为空，最后到Item Pipelines存储数据结束。

作为用户，只需配置好Scrapy框架的Spider和Item Pipelines，也就是数据流的入口与出口，便可完成一个爬虫程序的搭建。Scrapy提供了简单的爬虫命令语句，帮助用户一键配置剩余文件，那我们便来看看有哪些好用的命令吧。

Scrapy采用命令行创建和运行爬虫

PyCharm打开Terminal，启动Scrapy：

Scrapy基本命令行格式：

具体常用命令如下：

下面用一个例子来学习一下命令的使用：

1.建立一个Scrapy爬虫工程，在已启动的Scrapy中继续输入：

执行该命令，系统会在PyCharm的工程文件中自动创建一个工程，命名为pythonDemo。

2.产生一个Scrapy爬虫，以教育部网站为例http://www.moe.gov.cn：

命令生成了一个名为demo的spider，并在Spiders目录下生成文件demo.py。

命令仅用于生成demo.py文件，该文件也可以手动生成。

观察一下demo.py文件：

3.配置产生的spider爬虫，也就是demo.py文件：

4.运行爬虫，爬取网页：

如果爬取成功，会发现在pythonDemo下多了一个t20210816_551472.html的文件，我们所爬取的网页内容都已经写入该文件了。

以上就是Scrapy框架的简单使用了。

Request对象表示一个HTTP请求，由Spider生成，由Downloader执行。

Response对象表示一个HTTP响应，由Downloader生成，有Spider处理。

Item对象表示一个从HTML页面中提取的信息内容，由Spider生成，由Item Pipelines处理。Item类似于字典类型，可以按照字典类型来操作。

D. python 爬虫怎么获取网址

初始地址是要你自己给的。
后续的地址可以通过解析网页内容（比如 pyquery），通过属性名提取，比如 pq（item）.attr("src")

E. 如何利用python爬取网页内容

利用python爬取网页内容需要用scrapy（爬虫框架），但是很简单，就三步

定义item类
开发spider类
开发pipeline

想学习更深的爬虫，可以用《疯狂python讲义》

F. Python爬虫如何避免爬取网站访问过于频繁

一. 关于爬虫
爬虫，是一种按照一定的规则自动地抓取互联网信息的程序。本质是利用程序获取对我们有利的数据。

反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于频繁。

二. 提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。

多进程。使用CPU的多个核，使用几个核就能提高几倍。

多线程。将任务分成多个，并发（交替）的执行。

分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。

打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。

其他。比如，使用网速好的网络等等。

三. 反爬虫的措施
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用time.sleep()来对爬虫的速度进行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

G. 怎样用python爬取网页

#coding=utf-8
importurllib
importre

#网络贴吧网址:https://tieba..com/index.html
#根据URL获取网页HTML内容
defgetHtmlContent(url):
page=urllib.urlopen(url)
returnpage.read()

#从HTML中解析出所有jpg的图片的URL
#从HTML中jpg格式为<img...src="xxx.jpg"width='''>
defgetJPGs(html):
#解析jpg图片URL的正则表达式
jpgReg=re.compile(r'<img.+?src="(.+?.jpg)"')
#解析出jpg的URL列表
jpgs=re.findall(jpgReg,html)
returnjpgs

#用图片url下载图片并保存成制定文件名
defdownloadJPG(imgUrl,fileName):
urllib.urlretrieve(imgUrl,fileName)

#批量下载图片,默认保存到当前目录下
defbatchDownloadJPGs(imgUrls,path='../'):#path='./'
#给图片重命名
count=1
forurlinimgUrls:
downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))
print"下载图片第:",count,"张"
count+=1

#封装:从网络贴吧网页下载图片
defdownload(url):
html=getHtmlContent(url)
jpgs=getJPGs(html)
batchDownloadJPGs(jpgs)

defmain():
url="http://www.meituba.com/dongman/"
download(url)

if__name__=='__main__':
main()

H. 如何用Python爬虫抓取网页内容

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

importrequests
frombs4importBeautifulSoup

iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res=requests.get(iurl)

res.encoding='utf-8'

#print(len(res.text))

soup=BeautifulSoup(res.text,'html.parser')

#标题
H1=soup.select('#artibodyTitle')[0].text

#来源
time_source=soup.select('.time-source')[0].text


#来源
origin=soup.select('#artibodyp')[0].text.strip()

#原标题
oriTitle=soup.select('#artibodyp')[1].text.strip()

#内容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#责任编辑
ae=soup.select('.article-editor')[0].text

这样就可以了

I. python爬虫如何分析一个将要爬取的网站

首先，你去爬取一个网站，

你会清楚这个网站是属于什么类型的网站（新闻，论坛，贴吧等等）。

你会清楚你需要哪部分的数据。

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施，无非就是各种网络各种解决。当爬取成本高于数据成本，你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题，利用各种语言的client组件去请求你想要爬取的URL，获取到HTML，利用正则，XPATH去解析你想要的数据，然后利用sql存储各类数据库。

J. 如何用最简单的Python爬虫采集整个网站

采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接，形成列表，再去采集到的这些链接页面，继续采集每个页面的链接形成新的列表，重复执行。

阅读全文

热点内容

php判断手机访问发布：2025-01-13 10:46:06 浏览：762

数据库十张表发布：2025-01-13 10:41:50 浏览：395

仿php 发布：2025-01-13 10:41:40 浏览：811

后缀解压什么意思发布：2025-01-13 10:35:17 浏览：185

索尼安卓11如何退回安卓10 发布：2025-01-13 10:24:09 浏览：127

程序编译结构发布：2025-01-13 10:24:08 浏览：90

创建邮箱地址服务器连接错误发布：2025-01-13 09:49:24 浏览：723

linux编辑文档发布：2025-01-13 09:47:51 浏览：435

二手制冷压缩机发布：2025-01-13 09:43:59 浏览：585

网鱼电脑密码多少发布：2025-01-13 09:33:46 浏览：464

python爬虫爬取网站

与python爬虫爬取网站相关的资讯