当前位置:首页 » 编程语言 » scrapypython35

scrapypython35

发布时间: 2022-10-02 07:29:46

⑴ scrapy和python有什么关系

有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫:scrapy第一类:分布式爬虫爬虫使用分布式,主要是解决两个问题:1)海量URL管理2)网速现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这几类爬虫里,最不好的选择,理由如下:1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。2)Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。4)用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase),只能使用0.90版本左右的hbase,相应的就要将hadoop版本降到hadoop0.2左右。而且nutch2的官方教程比较有误导作用,Nutch2的教程有两个,分别是Nutch1.x和Nutch2.x,这个Nutch2.x官网上写的是可以支持到hbase0.94。但是实际上,这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是DougCutting),当然最后的结果往往是项目延期完成。如果你是要做搜索引擎,Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合,就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话,建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

⑵ Python安装Scrapy出现以下错误怎么办

scapy安装的错误有几种类型。
因为网络限制,你无法自动下载依赖的库
因为版本冲突问题,导致你安装scapy时无法完成安装,或者是安装无法正确使用
因为编译的位数不同64位和32位不同,导致的问题
解决办法:
简单的解决办法。如果scrapy对你很重要。重新安装一套python2.7然后从头安装scrapy,可以从pypi网站上下载。也可以从unofficial来源,一口气安装好的包。
耐心的解决办法。把scrapy的源码拿过来,执行python
setup.py
install,遇到哪个包不好用,就替换掉。办法是将那个包的源代码拿过来,先删除site-packages里的相应包,再手工执行python
setup.py
install。要有心理准备,很可能需要vc++
2010的编译器。
最简单的办法,使用pip
install
scrapy。
如果你是在ubuntu下面apt-get
install
python-scrapy就搞定了。

⑶ python 怎么安装scrapy

我们将需要 Scrapy以及 BeautifulSoup用于屏幕抓取,SQLAlchemy用于存储数据。
创建虚拟环境(按需)
virtualenv --no-site-packages --python=2.7 ScrapyEnv
[python虚拟环境配置]
安装scrapy
unix
直接通过 pip 命令安装
pip install Scrapy
Windows
1. 下载包的编译版本完成简易安装
需要手工安装 scrapy 的一些依赖:pywin32、pyOpenSSL、Twisted、lxml 和 zope.interface。
2. 使用pip安装
首先也要安装pywin32的py2.7版本http://sourceforge.net/projects/pywin32/files/,再安装scrapy就ok了pip install Scrapy,它会自动安装依赖的包pyOpenSSL、Twisted、lxml 、six等等。
如果使用的是virtualenv要这样安装pywin32:
c:\> D:\python27\Lib\site-packages\pywin32.pth E:\mine\python_workspace\ScrapyEnv\Lib\site-packages\pywin32.pth
将其内容改为:
D:\python27\Lib\site-packages\win32
D:\python27\Lib\site-packages\win32\lib
D:\python27\Lib\site-packages\Pythonwin
[linux和windows下安装python拓展包
验证安装是否成功
通过在python命令行下输入import scrapy验证你的安装,如果没有返回内容,那么你的安装已就绪。

⑷ 如何在scrapy框架下,用python实现爬虫自动跳转页面来抓去网页内容

Scrapy是一个用Python写的Crawler Framework,简单轻巧,并且非常方便。Scrapy使用Twisted这个异步网络库来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活地完成各种需求。Scrapy整体架构如下图所示:

根据架构图介绍一下Scrapy中的各大组件及其功能:

Scrapy引擎(Engine):负责控制数据流在系统的所有组建中流动,并在相应动作发生触发事件。
调度器(Scheler):从引擎接收Request并将它们入队,以便之后引擎请求request时提供给引擎。
下载器(Downloader):负责获取页面数据并提供给引擎,而后提供给Spider。
Spider:Scrapy用户编写用于分析Response并提取Item(即获取到的Item)或额外跟进的URL的类。每个Spider负责处理一个特定(或一些网站)。
Item Pipeline:负责处理被Spider提取出来的Item。典型的处理有清理验证及持久化(例如存储到数据库中,这部分后面会介绍存储到MySQL中,其他的数据库类似)。
下载器中间件(Downloader middlewares):是在引擎即下载器之间的特定钩子(special hook),处理Downloader传递给引擎的Response。其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能(后面会介绍配置一些中间并激活,用以应对反爬虫)。
Spider中间件(Spider middlewares):是在引擎及Spider之间的特定钩子(special hook),处理Spider的输入(response)和输出(Items即Requests)。其提供了一个简便的机制,通过插入自定义的代码来扩展Scrapy功能。

⑸ 现在twisted不支持python35吗

如果是在Windows下,需要额外安装pyOpenSSL对应的版本。比如pyOpenSSL-0.13.winxp32-py2.7.msi;如果它提示没有编译文件,可能还需要安装mingwg。如果是在Linux下,就很简单,直接pipinstallscrapy就可以了,它会自动安装好依赖包twisted。windows下用同样这条命令就会出上面这种问题,所以要额外安装对应的软件。

⑹ 同时装有python2.7 python3.5 scrapy命令怎么在python2.7上面运行

终端scrapy命令实际上是调用了python安装文件夹的子文件夹Scripts里的scrapy.exe(windows系统)或者scrapy.sh(linux系统)

所以如果你在终端键入scrapy执行的是python3.5的, 说明你的默认python是3.5

这个时候要想执行python2.7的,有几个方法:

  1. 改变path环境变量, 设置python2.7为默认python(这个太麻烦, 不推荐)

  2. 执行scrapy命令(假设要执行scrapy startproject projectname)的时候不直接键入scrapy, 而是加上scrapy的绝对路径,

    windows上: C:InstallAnaconda2Scriptsscrapy startproject projectname

    linux 同理

  3. 把python2.7的scrapy.exe所在的文件夹(我这里是C:InstallAnaconda2Scripts)添加到环境变量Path里, 将scrapy.exe重命名为scrapy2.exe(linux同理)

    然后终端运行的时候就输入 scrapy2 startproject projectname 即可

4. 用virtualenv创建两个隔离的虚拟python环境, 分别执行

⑺ python3.6安装scrapy时 需不需要安装visual c++ 14.0

  1. 安装python3.5,添加python和python/scripts到环境变量(里面包含 pip和easy_install 工具)

  2. 命令行输入pip install scrapy 安装scrapy,如果存在哪些模块不存在的,通过pip install进行安装

  3. 安装lxml时,出现"Unable to find vcvarsall.bat"错误时,参考 http://blog.csdn.net/u012302488/article/details/51178541 ,在http://www.lfd.uci.e/~gohlke/pythonlibs/#lxml 下载lxml对应版本的.whl文件(或者安装VS2008、VS2010)

  4. 命令行进入.whl文件目录,pip install xxxxx.whl安装lxml

  5. 再次输入pip install scrapy 安装scrapy,现在可以安装成功(如果出现pip需要升级,先按照错误提示升级pip)

  6. 命令行进入一个目录输入scrapy startproject tutorial,新建一个scrapy项目

  7. 按照Scrapy Tutorial修改代码运行Scrapy项目如果出现“ImportError : cannot import name '_win32stdio'”错误,参考

  8. https://zhuanlan.hu.com/p/21335106

  9. 需要下载twisted3.6.0.zip包,将python中xxxxPython35Libsite-packages wisted目录中的文件清空,将twisted3.6.0.zip压缩后的文件复制到里面

  10. 再安装pywin32(如果通过pip安装找不到合适的版本,可以到sourcefrog下载与操作系统和python版本对应的pywin32)

  11. 再次运行scrapy项目,最后成功!

⑻ 在python3.5.2中怎么安装scrapy

安装方法
首先安装wheel
pip install wheel11
安装完成后验证是否成功
wheel11
安装成功是这样
然后去上边的网站下载Scrapy库,
进到网站=>搜索’Scrapy’=>下载
把下载的.whl文件放在一个容易寻找的地址(我放在了D:\)
然后在控制台进入该地址

⑼ python中的scrapy是什么意思a

Scrapy英文意思是刮擦
被用来命名爬虫界知名的框架。
使用这个框架可以轻易实现常规网页采集。也支持大型架构。升级后redis更是支持分布式。利用scrapyd更是可以发布服务。
从事爬虫方向必学!

⑽ scrapy和python有什么关系

Scrapy是Python开发的一个快速、高层次的web数据抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘和监测。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。

Scrapy算得上是Python世界中最常用的爬虫框架了,同时它也是我掌握的几种流行语言中最好的爬虫框架,没有之一!我认为它也是最难学习的框架,同样没有之一。很多初学Scarpy的经常向我抱怨完全不清楚Scrapy该怎样入手,即使看的是中文的文档,也感到很难理解。我当初接触Scrapy时也有这样的感觉。之所以感到Scrapy难学,究其原因,是其官方文档实在太过凌乱,又缺少实用的代码例子,让人看得云里雾里,不知其所已然。虽然其文档不良,但却没有遮挡住它的光辉,它依然是Python世界中目前最好用的爬虫框架。其架构的思路、蜘蛛执行的效能,还有可扩展的能力都非常出众,再配以Python语言的简洁轻巧,使得爬虫的开发事半功倍。

相关推荐:《Python基础教程》

Scrapy的优点:

(1)提供了内置的HTTP缓存,以加速本地开发。

(2)提供了自动节演调节机制,而且具有遵守robots.txt的设置的能力。

(3)可以定义爬行深度的限制,以避免爬虫进入死循环链接。

(4)会自动保留会话。

(5)执行自动HTTP基本认证。不需要明确保存状态。

(6)可以自动填写登录表单。

(7)Scrapy有一个内置的中间件,可以自动设置请求中的引用(referrer)头。

(8)支持通过3xx响应重定向,也可以通过HTML元刷新。

(9)避免被网站使用的meta重定向困住,以检测没有JS支持的页面。

(10)默认使用CSS选择器或XPath编写解析器。

(11)可以通过Splash或任何其他技术(如Selenium)呈现JavaScript页面。

(12)拥有强大的社区支持和丰富的插件和扩展来扩展其功能。

(13)提供了通用的蜘蛛来抓取常见的格式:站点地图、CSV和XML。

(14)内置支持以多种格式(JSON、CSV、XML、JSON-lines)导出收集的数据并将其存在多个后端(FTP、S3、本地文件系统)中。

Scrapy框架原理

Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheler中间的通讯,信号、数据传递等。

Scheler(调度器):负责接收引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheler(调度器),

Item Pipeline(管道):负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

Scrapy各个组件介绍

·Scrapy Engine:

引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。它也是程序的入口,可以通过scrapy指令方式在命令行启动,或普通编程方式实例化后调用start方法启动。

·调度器(Scheler)

调度器从引擎接收爬取请求(Request)并将它们入队,以便之后引擎请求它们时提供给引擎。一般来说,我们并不需要直接对调度器进行编程,它是由Scrapy主进程进行自动控制的。

·下载器(Down-loader)

下载器负责获取页面数据并提供给引擎,而后将网站的响应结果对象提供给蜘蛛(Spider)。具体点说,下载器负责处理产生最终发出的请求对象 Request 并将返回的响应生成 Response对象传递给蜘蛛。

·蜘蛛——Spiders

Spider是用户编写用于分析响应(Response)结果并从中提取Item(即获取的Item)或额外跟进的URL的类。每个Spider负责处理一个特定(或一些)网站。

·数据管道——Item Pipeline

Item Pipeline 负责处理被 Spider 提取出来的 Item。 典型的处理有清理、验证及持久化(例如,存取到数据库中)。

·下载器中间件(Downloader middle-wares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的Response。其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy的功能。

·Spider中间件(Spider middle-wares)

Spider 中间件是在引擎及 Spider 之间的特定钩子(specific hook),处理 Spider 的输入(Response)和输出(Items及Requests)。其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy的功能。

从Scrapy的系统架构可见,它将整个爬网过程进行了非常具体的细分,并接管了绝大多数复杂的工作,例如,产生请求和响应对象、控制爬虫的并发等。

热点内容
什么人用独立服务器 发布:2024-12-24 10:22:09 浏览:683
mysql存储过程异常回滚 发布:2024-12-24 10:22:07 浏览:842
ftp下载乱码 发布:2024-12-24 10:14:44 浏览:265
安卓手机桌面如何加dock栏 发布:2024-12-24 10:14:01 浏览:254
工控类编程 发布:2024-12-24 09:47:20 浏览:74
21款奕跑有哪些配置 发布:2024-12-24 09:47:19 浏览:783
教室系统管理员如何帮助更改密码 发布:2024-12-24 09:44:19 浏览:597
ip广播服务器安装 发布:2024-12-24 09:33:56 浏览:942
路由器如何配置ss 发布:2024-12-24 09:06:14 浏览:425
安卓lol怎么登录 发布:2024-12-24 08:54:11 浏览:701