python爬虫多进程

发布时间: 2023-12-02 17:57:06

① python爬虫如何避免爬取网站访问过于频繁

一. 关于爬虫
爬虫，是一种按照一定的规则自动地抓取互联网信息的程序。本质是利用程序获取对我们有利的数据。

反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于频繁。

二. 提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。

多进程。使用CPU的多个核，使用几个核就能提高几倍。

多线程。将任务分成多个，并发（交替）的执行。

分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。

打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。

其他。比如，使用网速好的网络等等。

三. 反爬虫的措施
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用time.sleep()来对爬虫的速度进行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

② python爬取大量数据(百万级)

当用python爬取大量网页获取想要的数据时，最重要的问题是爬虫中断问题，python这种脚本语言，一中断

进程就会退出，怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。

第一个问题: 简单点的用动态代理池就能解决，在爬取大量数据的时候，为了速度不受影响，建议使用一些缓

存的中间件将有效的代理 ip 缓存起来，并定时更新。这里推荐 github 这个仓库

https://github.com/jhao104/proxy_pool ，它会做ip有效性验证并将 ip 放入 redis ，不过实现过于复杂

了，还用到了 db ，个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否

是爬虫，当我们过于聚焦我们的爬虫请求而忽略了其他的请求时，可能就会被服务器判定为爬虫，进而这个ip

会被列入黑名单，而且你换了ip一样也会卡死在这里。这种方式呢，简单点就用 selenium + chrome 一个一个

去爬，不过速度太慢了。还是自己去分析吧，也不会过复杂的。

第二个问题： 网络连接超时是大概率会遇到的问题，有可能是在爬取的时候本地网络波动，也有可能是爬

取的服务端对ip做了限制，在爬取到了一定量级的时候做一些延迟的操作，使得一些通用的 http 库超时

（ urllib ）。不过如果是服务端动的手脚一般延迟不会太高，我们只需要人为的设置一个高一点的

timeout 即可（30 秒），最好在爬取开始的时候就对我们要用的爬取库进行一层封装，通用起来才好改

动。

第三个问题: 在解析大量静态页面的时候，有些静态页面的解析规则不一样，所以我们就必须得做好断点

续爬的准备了（ PS : 如果简单的忽略错误可能会导致大量数据的丢失，这就不明智了）。那么在调试的过

程中断点续爬有个解决方案，就是生产者和消费者分离，生产者就是产生待爬 url 的爬虫，消费者就是爬取

最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接，生产者往消息中间件发送待

爬取的目标信息，消费者从里面取就行了，还间接的实现了个分布式爬取功能。由于现在的消费中间件都有

ack 机制，一个消费者爬取链接失败会导致消息消费失败，进而分配给其他消费者消费。所以消息丢失的

概率极低。不过这里还有个 tips ，消费者的消费超时时间不能太长，会导致消息释放不及时。还有要开启

消息中间价的数据持久化功能，不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。

第四个问题： 这种情况只能 try except catch 住了，不好解决，如果单独分析的话会耗费点时间。但在

大部分数据 （99%） 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这

种偶尔中断的问就方便多了。

希望能帮到各位。

③ 为什么在python里推荐使用多进程而不是多线程

监控一个信号就起一个线程与进程处理。这样的逻辑是不太合适的。所有的资源都是有限的，如果这样浪费很快会资源管理失控。

常规的做法是起一个线程池，或者是进程池。使用线程还是进程取决于你处理的信号的类型。如果计算量大，则需要进程池，如果只是设备等待，比如网络数据收发，则线程也勉强够用。

信号过来后处理方法有两种，一种是实时处理，这个没有好办法，可以用“微线程”的办法做，尽量减少处理周期。另外一种是允许少量的延迟。那么通常的做法是用队列。将信号放到线程或者是进程池的消息队列里。然后再由后者分配。

还有一种高效的处理方法，根据信号的值做hash，然后自动分发到不同的CPU或者是服务器。这个就算是大规模并发处理机制。

通常情况下，比如一个WEB服务器，它需要获取一个请求，然后处理响应，可以使用线程模型，或者是进程模型。也是使用典型的池的方法。一个Pool的大于，取决于你的计算机的计算能力，内存大小，以及你的并发访问数量。

所要要启用多少个呢？假设你的一个信号的处理周期是1秒，你同时有100个信号进来，那么就需要100个线程或者是进程。

阅读全文

热点内容

联想服务器控制口登录地址发布：2025-03-06 02:20:58 浏览：67

为什么安卓淘汰这么快发布：2025-03-06 02:16:04 浏览：46

编译笔记发布：2025-03-06 02:11:17 浏览：916

linux源码学习发布：2025-03-06 02:06:05 浏览：558

极坐标图编程发布：2025-03-06 01:52:23 浏览：307

centos访问网页发布：2025-03-06 01:51:18 浏览：973

海康威视华为云服务器发布：2025-03-06 01:36:20 浏览：702

安卓手机怎么把三张图片拼在一起发布：2025-03-06 01:31:50 浏览：321

文件夹删除不了权限发布：2025-03-06 01:28:06 浏览：303

如何上传swf 发布：2025-03-06 01:18:22 浏览：367

python爬虫多进程

与python爬虫多进程相关的资讯