当前位置:首页 » 编程语言 » 开源爬虫java

开源爬虫java

发布时间: 2022-08-06 19:14:02

A. 爬虫,有什么框架比httpclient更快

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的看这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch
2.java单机爬虫:Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫:scrapy
第一类:分布式爬虫
爬虫使用分布式,主要是解决两个问题:
1)海量URL管理
2)网速
现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这几类爬虫里,最不好的选择,理由如下:
1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。
2)Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。
3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在逗页面解析地(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。
4)用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。
5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。
6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase),只能使用0.90版本左右的hbase,相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用,Nutch2的教程有两个,分别是Nutch1.x和Nutch2.x,这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上,这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。
所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是Doug Cutting),当然最后的结果往往是项目延期完成。
如果你是要做搜索引擎,Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合,就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话,建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。
第二类:JAVA单机爬虫
这里把JAVA爬虫单独分为一类,是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议,我只是随便扯淡。
其实开源网络爬虫(框架)的开发非常简单,难问题和复杂的问题都被以前的人解决了(比如DOM树解析和定位、字符集检测、海量URL去重),可以说是毫无技术含量。包括Nutch,其实Nutch的技术难点是开发hadoop,本身代码非常简单。网络爬虫从某种意义来说,类似遍历本机的文件,查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架,就是为了省事。比如爬虫的URL管理、线程池之类的模块,谁都能做,但是要做稳定也是需要一段时间的调试和修改的。
对于爬虫的功能来说。用户比较关心的问题往往是:
1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么看
不支持多线程、不支持代理、不能过滤重复URL的,那都不叫开源爬虫,那叫循环执行http请求。
能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关,往往需要通过模拟浏览器(htmlunit,selenium)来完成。这些模拟浏览器,往往需要耗费很多的时间来处理一个页面。所以一种策略就是,使用这些爬虫来遍历网站,遇到需要解析的页面,就将网页的相关信息提交给模拟浏览器,来完成JS生成信息的抽取。
2)爬虫可以爬取ajax信息么看
网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。如果是自己生成ajax请求,使用开源爬虫的意义在哪里看其实是要用开源爬虫的线程池和URL管理功能(比如断点爬取)。
如果我已经可以生成我所需要的ajax请求(列表),如何用这些爬虫来对这些请求进行爬取看
爬虫往往都是设计成广度遍历或者深度遍历的模式,去遍历静态或者动态页面。爬取ajax信息属于deep web(深网)的范畴,虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说,就是将生成的ajax请求作为种子,放入爬虫。用爬虫对这些种子,进行深度为1的广度遍历(默认就是广度遍历)。
3)爬虫怎么爬取要登陆的网站看
这些开源爬虫都支持在爬取时指定cookies,模拟登陆主要是靠cookies。至于cookies怎么获取,不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。
4)爬虫怎么抽取网页的信息看
开源爬虫一般都会集成网页抽取工具。主要支持两种规范:CSS SELECTOR和XPATH。至于哪个好,这里不评价。
5)爬虫怎么保存网页的信息看
有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。
6)爬虫被网站封了怎么办看
爬虫被网站封了,一般用多代理(随机代理)就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理,放到一个全局数组中,自己写一个代理随机获取(从数组中)的代码。
7)网页可以调用爬虫么看
爬虫的调用是在Web的服务端调用的,平时怎么用就怎么用,这些爬虫都可以使用。
8)爬虫速度怎么样看
单机开源爬虫的速度,基本都可以讲本机的网速用到极限。爬虫的速度慢,往往是因为用户把线程数开少了、网速慢,或者在数据持久化时,和数据库的交互速度慢。而这些东西,往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度,都很可以。
9)明明代码写对了,爬不到数据,是不是爬虫有问题,换个爬虫能解决么看
如果代码写对了,又爬不到数据,换其他爬虫也是一样爬不到。遇到这种情况,要么是网站把你封了,要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。
10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取看
爬虫无法判断网站是否爬完,只能尽可能覆盖。
至于根据主题爬取,爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来,然后再去筛选内容。如果嫌爬的太泛,可以通过限制URL正则等方式,来缩小一下范围。
11)哪个爬虫的设计模式和构架比较好看
设计模式纯属扯淡。说软件设计模式好的,都是软件开发完,然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。
至于构架,开源爬虫目前主要是细节的数据结构的设计,比如爬取线程池、任务队列,这些大家都能控制好。爬虫的业务太简单,谈不上什么构架。
所以对于JAVA开源爬虫,我觉得,随便找一个用的顺手的就可以。如果业务复杂,拿哪个爬虫来,都是要经过复杂的二次开发,才可以满足需求。
第三类:非JAVA单机爬虫
在非JAVA语言编写的爬虫中,有很多优秀的爬虫。这里单独提取出来作为一类,并不是针对爬虫本身的质量进行讨论,而是针对larbin、scrapy这类爬虫,对开发成本的影响。
先说python爬虫,python可以用30行代码,完成JAVA 50行代码干的任务。python写代码的确快,但是在调试代码的阶段,python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发,要保证程序的正确性和稳定性,就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂,使用scrapy这种爬虫也是蛮不错的,可以轻松完成爬取任务。
对于C++爬虫来说,学习成本会比较大。而且不能只计算一个人的学习成本,如果软件需要团队开发或者交接,那就是很多人的学习成本了。软件的调试也不是那么容易。
还有一些ruby、php的爬虫,这里不多评价。的确有一些非常小型的数据采集任务,用ruby或者php很方便。但是选择这些语言的开源爬虫,一方面要调研一下相关的生态圈,还有就是,这些开源爬虫可能会出一些你搜不到的BUG(用的人少、资料也少)
End.

B. java开源web爬虫哪个好用

Lucene+nutch+heritrix网上可以找得到源代码,开源的搜索引擎,包含爬虫、检索等功能。

Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 最新版本:heritrix-1.15.4 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。 Heritrix的主页是http://crawler.archive.org Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI
[编辑本段]部件
主要部件
Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照规则决定将哪个URI入队。 边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI。 处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件
其余部件
WEB管理控制台:大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。 操作者可以通过选择Crawler命令来操作控制台。 Crawler命令处理部件:包含足够的信息创建要爬的URI。 Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时查到,包括IP地址,历史记录,机器人策略。 处理器链: 预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 提取链:主要是获得资源,进行DNS转换,填写请求和响应表单 抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估 写链:存储爬行结果,返回内容和抽取特性,过滤完存储。 提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件
[编辑本段]关键特性
Heritrix 1.0.0包含以下关键特性: 1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。 2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。 3。主要是用广度优先算法进行处理。 4。主要部件都是高效的可扩展的 5。良好的配置,包括: a。可设置输出日志,归档文件和临时文件的位置 b。可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。 c。可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。 Heritrix的局限: 1。单实例的爬虫,之间不能进行合作。 2。在有限的机器资源的情况下,却要复杂的操作。 3。只有官方支持,仅仅在Linux上进行了测试。 4。每个爬虫是单独进行工作的,没有对更新进行修订。 5。在硬件和系统失败时,恢复能力很差。

C. GitHub上面有哪些经典的java框架源码

  • Bazel:来自Google的构建工具,可以快速、可靠地构建代码。官网

  • Gradle:使用Groovy(非XML)进行增量构建,可以很好地与Maven依赖管理配合工作。官网

  • Buck:Facebook构建工具。官网

  • 字节码操作

    编程方式操作字节码的开发库。

  • ASM:通用底层字节码操作和分析开发库。官网

  • Byte Buddy:使用流式API进一步简化字节码生成。官网

  • Byteman:在运行时通过DSL(规则)操作字节码进行测试和故障排除。官网

  • Javassist:一个简化字节码编辑尝试。官网

  • 集群管理

    在集群内动态管理应用程序的框架。

  • Apache Aurora:Apache Aurora是一个Mesos框架,用于长时间运行服务和定时任务(cron job)。官网

  • Singularity:Singularity是一个Mesos框架,方便部署和操作。它支持Web Service、后台运行、调度作业和一次性任务。官网

  • 代码分析

    测量代码指标和质量工具。

  • Checkstyle:代码编写规范和标准静态分析工具。官网

  • Error Prone:将常见编程错误作为运行时错误报告。官网

  • FindBugs:通过字节码静态分析查找隐藏bug。官网

  • jQAssistant:使用基于Neo4J查询语言进行代码静态分析。官网

  • PMD:对源代码分析查找不良的编程习惯。官网

  • SonarQube:通过插件集成其它分析组件,对过去一段时间内的数据进行统计。官网

  • 编译器生成工具

    用来创建解析器、解释器或编译器的框架。

  • ANTLR:复杂的全功能自顶向下解析框架。官网

  • JavaCC:JavaCC是更加专门的轻量级工具,易于上手且支持语法超前预测。官网

  • 外部配置工具

    支持外部配置的开发库。

  • config:针对JVM语言的配置库。官网

  • owner:减少冗余配置属性。官网

  • 约束满足问题求解程序

    帮助解决约束满足问题的开发库。

  • Choco:可直接使用的约束满足问题求解程序,使用了约束规划技术。官网

  • JaCoP:为FlatZinc语言提供了一个接口,可以执行MiniZinc模型。官网

  • OptaPlanner:企业规划与资源调度优化求解程序。官网

  • Sat4J:逻辑代数与优化问题最先进的求解程序。官网

  • 持续集成

  • Bamboo:Atlassian解决方案,可以很好地集成Atlassian的其他产品。可以选择开源许可,也可以购买商业版。官网

  • CircleCI:提供托管服务,可以免费试用。官网

  • Codeship:提供托管服务,提供有限的免费模式。官网

  • fabric8:容器集成平台。官网

  • Go:ThoughtWork开源解决方案。官网

  • Jenkins:支持基于服务器的部署服务。官网

  • TeamCity:JetBrain的持续集成解决方案,有免费版。官网

  • Travis:通常用作开源项目的托管服务。官网

  • Buildkite: 持续集成工具,用简单的脚本就能设置pipeline,而且能快速构建,可以免费试用。官网

  • CSV解析

    简化CSV数据读写的框架与开发库

  • uniVocity-parsers:速度最快功能最全的CSV开发库之一,同时支持TSV与固定宽度记录的读写。官网

  • 数据库

    简化数据库交互的相关工具。

  • Apache Phoenix:HBase针对低延时应用程序的高性能关系数据库层。官网

  • Crate:实现了数据同步、分片、缩放、复制的分布式数据存储。除此之外还可以使用基于SQL的语法跨集群查询。官网

  • Flyway:简单的数据库迁移工具。官网

  • H2:小型SQL数据库,以可以作为内存数据库使用着称。官网

  • HikariCP:高性能JDBC连接工具。官网

  • JDBI:便捷的JDBC抽象。官网

  • Protobuf:Google数据交换格式。官网

  • SBE:简单二进制编码,是最快速的消息格式之一。官网

  • Wire:整洁轻量级协议缓存。官网

  • 帮实现依赖翻转范式的开发库。官网

  • Apache DeltaSpike:CDI扩展框架。官网

  • Dagger2:编译时注入框架,不需要使用反射。官网

  • Guice:可以匹敌Dagger的轻量级注入框架。官网

  • HK2:轻量级动态依赖注入框架。官网

  • 开发流程增强工具

    从最基本的层面增强开发流程。

  • ADT4J:针对代数数据类型的JSR-269代码生成器。官网

  • AspectJ:面向切面编程(AOP)的无缝扩展。官网

  • Auto:源代码生成器集合。官网

  • DCEVM:通过修改JVM在运行时支持对已加载的类进行无限次重定义。官网

  • HotswapAgent:支持无限次重定义运行时类与资源。官网

  • Immutables:类似Scala的条件类。官网

  • JHipster:基于Spring Boot与AngularJS应用程序的Yeoman源代码生成器。官网

  • JRebel:无需重新部署,可以即时重新加载代码与配置的商业软件。官网

  • Lombok:减少冗余的代码生成器。官网

  • Spring Loaded:类重载代理。官网

  • vert.x:多语言事件驱动应用框架。官网

  • 分布式应用

    用来编写分布式容错应用的开发库和框架。

  • Akka:用来编写分布式容错并发事件驱动应用程序的工具和运行时。官网

  • Apache Storm:实时计算系统。官网

  • Apache ZooKeeper:针对大型分布式系统的协调服务,支持分布式配置、同步和名称注册。官网

  • Hazelcast:高可扩展内存数据网格。官网

  • Hystrix:提供延迟和容错。官网

  • JGroups:提供可靠的消息传递和集群创建的工具。官网

  • Orbit:支持虚拟角色(Actor),在传统角色的基础上增加了另外一层抽象。官网

  • Quasar:为JVM提供轻量级线程和角色。官网

  • 分布式数据库

    对应用程序而言,在分布式系统中的数据库看起来就像是只有一个数据源。

  • Apache Cassandra:列式数据库,可用性高且没有单点故障。官网

  • Apache HBase:针对大数据的Hadoop数据库。官网

  • Druid:实时和历史OLAP数据存储,在聚集查询和近似查询方面表现不俗。官网

  • Infinispan:针对缓存的高并发键值对数据存储。官网

  • 发布

    以本机格式发布应用程序的工具。

  • Bintray:发布二进制文件版本控制工具。可以于Maven或Gradle一起配合使用。提供开源免费版本和几种商业收费版本。官网

  • Central Repository:最大的二进制组件仓库,面向开源社区提供免费服务。Apache Maven默认使用Central官网Repository,也可以在所有其他构建工具中使用。

  • IzPack:为跨平台部署建立创作工具(Authoring Tool)。官网

  • JitPack:打包GitHub仓库的便捷工具。可根据需要构建Maven、Gradle项目,发布可立即使用的组件。官网

  • Launch4j:将JAR包装为轻量级本机Windows可执行程序。官网

  • Nexus:支持代理和缓存功能的二进制管理工具。官网

  • packr:将JAR、资源和JVM打包成Windows、Linux和Mac OS X本地发布文件。官网

  • 文档处理工具

    处理Office文档的开发库。

  • Apache POI:支持OOXML规范(XLSX、DOCX、PPTX)以及OLE2规范(XLS、DOC、PPT)。官网

  • documents4j:使用第三方转换器进行文档格式转换,转成类似MS Word这样的格式。官网

  • jOpenDocument:处理OpenDocument格式(由Sun公司提出基于XML的文档格式)。官网

  • 函数式编程

    函数式编程支持库。

  • Cyclops:支持一元(Monad)操作和流操作工具类、comprehension(List语法)、模式匹配、trampoline等特性。官网

  • Fugue:Guava的函数式编程扩展。官网

  • Functional Java:实现了多种基础和高级编程抽象,用来辅助面向组合开发(composition-oriented development)。官网

  • Javaslang:一个函数式组件库,提供持久化数据类型和函数式控制结构。官网

  • jOOλ:旨在填补Java 8 lambda差距的扩展,提供了众多缺失的类型和一组丰富的顺序流API。官网

  • 游戏开发

    游戏开发框架。

  • jMonkeyEngine:现代3D游戏开发引擎。官网

  • libGDX:全面的跨平台高级框架。官网

  • LWJGL:对OpenGL/CL/AL等技术进行抽象的健壮框架。官网

  • GUI

    现代图形化用户界面开发库。

  • JavaFX:Swing的后继者。官网

  • Scene Builder:开发JavaFX应用的可视化布局工具。官网

  • 高性能计算

    涵盖了从集合到特定开发库的高性能计算相关工具。

  • Agrona:高性能应用中常见的数据结构和工具方法。官网

  • Disruptor:线程间消息传递开发库。官网

  • fastutil:快速紧凑的特定类型集合(Collection)。官网

  • GS Collections:受Smalltalk启发的集合框架。官网

  • HPPC:基础类型集合。官网

  • Javolution:实时和嵌入式系统的开发库。官网

  • JCTools:JDK中缺失的并发工具。官网

  • Koloboke:Hash set和hash map。官网

  • Trove:基础类型集合。官网

  • High-scale-bli:Cliff Click 个人开发的高性能并发库官网

  • IDE

    简化开发的集成开发环境。

  • Eclipse:老牌开源项目,支持多种插件和编程语言。官网

  • IntelliJ IDEA:支持众多JVM语言,是安卓开发者好的选择。商业版主要针对企业客户。官网

  • NetBeans:为多种技术提供集成化支持,包括Java SE、Java EE、数据库访问、HTML5

  • Imgscalr:纯Java 2D实现,简单、高效、支持硬件加速的图像缩放开发库。官网

  • Picasso:安卓图片下载和图片缓存开发库。官网

  • Thumbnailator:Thumbnailator是一个高质量Java缩略图开发库。官网

  • ZXing:支持多种格式的一维、二维条形码图片处理开发库。官网

  • im4java: 基于ImageMagick或GraphicsMagick命令行的图片处理开发库,基本上ImageMagick能够支持的图片格式和处理方式都能够处理。官网

  • Apache Batik:在Java应用中程序以SVG格式显示、生成及处理图像的工具集,包括SVG解析器、SVG生成器、SVG DOM等模块,可以集成使用也可以单独使用,还可以扩展自定义的SVG标签。官网

  • JSON

    简化JSON处理的开发库。

  • Genson:强大且易于使用的Java到JSON转换开发库。官网

  • Gson:谷歌官方推出的JSON处理库,支持在对象与JSON之间双向序列化,性能良好且可以实时调用。官网

  • Jackson:与GSON类似,在频繁使用时性能更佳。官网

  • LoganSquare:基于Jackson流式API,提供对JSON解析和序列化。比GSON与Jackson组合方式效果更好。官网

  • Fastjson:一个Java语言编写的高性能功能完善的JSON库。官网

  • Kyro:快速、高效、自动化的Java对象序列化和克隆库。官网

  • JVM与JDK

    目前的JVM和JDK实现。

  • JDK 9:JDK 9的早期访问版本。官网

  • OpenJDK:JDK开源实现。官网

  • 基于JVM的语言

    除Java外,可以用来编写JVM应用程序的编程语言。

  • Scala:融合了面向对象和函数式编程思想的静态类型编程语言。官网

  • Groovy:类型可选(Optionally typed)的动态语言,支持静态类型和静态编译。目前是一个Apache孵化器项目。官网

  • Clojure:可看做现代版Lisp的动态类型语言。官网

  • Ceylon:RedHat开发的面向对象静态类型编程语言。官网

  • Kotlin:JetBrain针对JVM、安卓和浏览器提供的静态类型编程语言。官网

  • Xtend:一种静态编程语言,能够将其代码转换为简洁高效的Java代码,并基于JVM运行。官网

  • 日志

    记录应用程序行为日志的开发库。

  • Apache Log4j 2:使用强大的插件和配置架构进行完全重写。官网

  • kibana:分析及可视化日志文件。官网

  • Logback:强健的日期开发库,通过Groovy提供很多有趣的选项。官网

  • logstash:日志文件管理工具。官网

  • Metrics:通过JMX或HTTP发布参数,并且支持存储到数据库。官网

  • SLF4J:日志抽象层,需要与具体的实现配合使用。官网

  • 机器学习

    提供具体统计算法的工具。其算法可从数据中学习。

  • Apache Flink:快速、可靠的大规模数据处理引擎。官网

  • Apache Hadoop:在商用硬件集群上用来进行大规模数据存储的开源软件框架。官网

  • Apache Mahout:专注协同过滤、聚类和分类的可扩展算法。官网

  • Apache Spark:开源数据分析集群计算框架。官网

  • DeepDive:从非结构化数据建立结构化信息并集成到已有数据库的工具。官网

  • Deeplearning4j:分布式多线程深度学习开发库。官网

  • H2O:用作大数据统计的分析引擎。官网

  • Weka:用作数据挖掘的算法集合,包括从预处理到可视化的各个层次。官网

  • QuickML:高效机器学习库。官网、GitHub

  • 消息传递

    在客户端之间进行消息传递,确保协议独立性的工具。

  • Aeron:高效可扩展的单播、多播消息传递工具。官网

  • Apache ActiveMQ:实现JMS的开源消息代理(broker),可将同步通讯转为异步通讯。官网

  • Apache Camel:通过企业级整合模式(Enterprise Integration Pattern EIP)将不同的消息传输API整合在一起。官网

  • Apache Kafka:高吞吐量分布式消息系统。官网

  • Hermes:快速、可靠的消息代理(Broker),基于Kafka构建。官网

  • JBoss HornetQ:清晰、准确、模块化,可以方便嵌入的消息工具。官网

  • JeroMQ:ZeroMQ的纯Java实现。官网

  • Smack:跨平台XMPP客户端函数库。官网

  • Openfire:是开源的、基于XMPP、采用Java编程语言开发的实时协作服务器。 Openfire安装和使用都非常简单,并可利用Web界面进行管理。官网GitHub

  • Spark:是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。官网GitHub

  • Tigase: 是一个轻量级的可伸缩的 Jabber/XMPP 服务器。无需其他第三方库支持,可以处理非常高的复杂和大量的用户数,可以根据需要进行水平扩展。官网

  • 杂项

    未分类其它资源。

  • Design Patterns:实现并解释了最常见的设计模式。官网

  • Jimfs:内存文件系统。官网

  • Lanterna:类似curses的简单console文本GUI函数库。官网

  • LightAdmin:可插入式CRUD UI函数库,可用来快速应用开发。官网

  • OpenRefine:用来处理混乱数据的工具,包括清理、转换、使用Web Service进行扩展并将其关联到数据库。官网

  • RoboVM:Java编写原生iOS应用。官网

  • Quartz:强大的任务调度库.官网

  • 应用监控工具

    监控生产环境中应用程序的工具。

  • AppDynamics:性能监测商业工具。官网

  • JavaMelody:性能监测和分析工具。官网

  • Kamon:Kamon用来监测在JVM上运行的应用程序。官网

  • New Relic:性能监测商业工具。官网

  • SPM:支持对JVM应用程序进行分布式事务追踪的性能监测商业工具。官网

  • Takipi:产品运行时错误监测及调试商业工具。官网

  • 原生开发库

    用来进行特定平台开发的原生开发库。

  • JNA:不使用JNI就可以使用原生开发库。此外,还为常见系统函数提供了接口。官网

  • 自然语言处理

    用来专门处理文本的函数库。

  • Apache OpenNLP:处理类似分词等常见任务的工具。官网

  • CoreNLP:斯坦佛CoreNLP提供了一组基础工具,可以处理类似标签、实体名识别和情感分析这样的任务。官网

  • LingPipe:一组可以处理各种任务的工具集,支持POS标签、情感分析等。官网

  • Mallet:统计学自然语言处理、文档分类、聚类、主题建模等。官网

  • 网络

    网络编程函数库。

  • Async Http Client:异步HTTP和WebSocket客户端函数库。官网

  • Grizzly:NIO框架,在Glassfish中作为网络层使用。官网

  • Netty:构建高性能网络应用程序开发框架。官网

  • OkHttp:一个Android和Java应用的HTTP+SPDY客户端。官网

  • Undertow:基于NIO实现了阻塞和非阻塞API的Web服务器,在WildFly中作为网络层使用。官网

  • ORM

    处理对象持久化的API。

  • Ebean:支持快速数据访问和编码的ORM框架。官网

  • EclipseLink:支持许多持久化标准,JPA、JAXB、JCA和SDO。官网

  • Hibernate:广泛使用、强健的持久化框架。Hibernate的技术社区非常活跃。官网

  • MyBatis:带有存储过程或者SQL语句的耦合对象(Couples object)。官网

  • OrmLite:轻量级开发包,免除了其它ORM产品中的复杂性和开销。官网

  • Nutz:另一个SSH。官网,Github

  • JFinal:JAVA WEB + ORM框架。官网,Github

  • PDF

    用来帮助创建PDF文件的资源。

  • Apache FOP:从XSL-FO创建PDF。官网

  • Apache PDFBox:用来创建和操作PDF的工具集。官网

  • DynamicReports:JasperReports的精简版。官网

  • flyingsaucer:XML/XHTML和CSS 2.1渲染器。官网

  • iText:一个易于使用的PDF函数库,用来编程创建PDF文件。注意,用于商业用途时需要许可证。官网

  • JasperReports:一个复杂的报表引擎。官网

  • 性能分析

    性能分析、性能剖析及基准测试工具。

  • jHiccup:提供平台中JVM暂停的日志和记录。官网

  • JMH:JVM基准测试工具。官网

  • JProfiler:商业分析器。官网

  • LatencyUtils:测量和报告延迟的工具。官网

  • VisualVM:对运行中的应用程序信息提供了可视化界面。官网

  • YourKit Java Profiler:商业分析器。官网

  • 响应式开发库

    用来开发响应式应用程序的开发库。

  • Reactive Streams:异步流处理标准,支持非阻塞式反向压力(backpressure)。官网

  • Reactor:构建响应式快速数据(fast-data)应用程序的开发库。官网

  • RxJava:通过JVM可观察序列(observable sequence)构建异步和基于事件的程序。官网

  • REST框架

    用来创建RESTful 服务的框架。

  • Dropwizard:偏向于自己使用的Web框架。用来构建Web应用程序,使用了Jetty、Jackson、Jersey和Metrics。官网

  • Feign:受Retrofit、JAXRS-2.0和WebSocket启发的HTTP客户端连接器(binder)。官网

  • Jersey:JAX-RS参考实现。官网

  • RESTEasy:经过JAX-RS规范完全认证的可移植实现。官网

  • RestExpress:一个Java类型安全的REST客户端。官网

  • RestX:基于注解处理和编译时源码生成的框架。官网

  • Retrofit:类型安全的REST客户端。官网

  • Spark:受到Sinatra启发的Java REST框架。官网

  • Swagger:Swagger是一个规范且完整的框架,提供描述、生产、消费和可视化RESTful Web Service。官网

  • Blade:国人开发的一个轻量级的MVC框架. 它拥有简洁的代码,优雅的设计。官网

  • 科学计算与分析

    用于科学计算和分析的函数库。

  • DataMelt:用于科学计算、数据分析及数据可视化的开发环境。官网

  • JGraphT:支持数学图论对象和算法的图形库。官网

  • JScience:用来进行科学测量和单位的一组类。官网

  • 搜索引擎

    文档索引引擎,用于搜索和分析。

  • Apache Solr:一个完全的企业搜索引擎。为高吞吐量通信进行了优化。官网

  • Elasticsearch:一个分布式、支持多租户(multitenant)全文本搜索引擎。提供了RESTful Web接口和无schema的JSON文档。官网

  • Apache Lucene:是一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。官网

  • 安全

    用于处理安全、认证、授权或会话管理的函数库。

  • Apache Shiro:执行认证、授权、加密和会话管理。官网

  • Bouncy Castle,涵盖了从基础的帮助函数到PGP/SMIME操作。官网:多途加密开发库。支持JCA提供者(JCA provider)

  • Cryptomator:在云上进行客户端跨平台透明加密。官网

  • Keycloak:为浏览器应用和RESTful Web Service集成SSO和IDM。目前还处于beta版本,但是看起来非常有前途。官网

  • PicketLink:PicketLink是一个针对Java应用进行安全和身份认证管理的大型项目(Umbrella Project)。官网

  • 序列化

    用来高效处理序列化的函数库。

  • FlatBuffers:高效利用内存的序列化函数库,无需解包和解析即可高效访问序列化数据。官网

  • Kryo:快速、高效的对象图形序列化框架。官网

  • FST:提供兼容JDK的高性能对象图形序列化。官网

  • MessagePack:一种高效的二进制序列化格式。官网

  • 应用服务器

    用来部署应用程序的服务器。

  • Apache Tomcat:针对Servlet和JSP的应用服务器,健壮性好且适用性强。官网

  • Apache TomEE:Tomcat加Java EE。官网

  • Jetty:轻量级、小巧的应用服务器,通常会嵌入到项目中。官网

  • WebSphere Liberty:轻量级、模块化应用服务器,由IBM开发。官网

  • WildFly:之前被称作JBoss,由Red Hat开发。支持很多Java EE功能。官网

  • 模板引擎

    在模板中替换表达式的工具。

  • Apache Velocity:提供HTML页面模板、email模板和通用开源代码生成器模板。官网

  • FreeMarker:通用模板引擎,不需要任何重量级或自己使用的依赖关系。官网

  • Handlebars.java:使用Java编写的模板引擎,逻辑简单,支持语义扩展(semantic Mustache)。官网

  • Thymeleaf:旨在替换JSP,支持XML文件的工具。官网

  • 测试

    测试内容从对象到接口,涵盖性能测试和基准测试工具。

  • Apache JMeter:功能性测试和性能评测。官网

  • Arquillian:集成测试和功能行测试平台,集成Java EE容器。官网

  • AssertJ:支持流式断言提高测试的可读性。官网

  • Awaitility:用来同步异步操作的DSL。官网

  • Cucumber:BDD测试框架。官网

  • Gatling:设计为易于使用、可维护的和高性能负载测试工具。官网

  • Hamcrest:可用来灵活创建意图(intent)表达式的匹配器。官网

  • JMockit:用来模拟静态、final方法等。官网

  • JUnit:通用测试框架。官网

  • Mockito:在自动化单元测试中创建测试对象,为TDD或BDD提供支持。官网

  • PowerMock: 支持模拟静态方法、构造函数、final类和方法、私有方法以及移除静态初始化器的模拟工具。官网

  • REST Assured:为REST/HTTP服务提供方便测试的Java DSL。官网

  • Selenide:为Selenium提供精准的周边API,用来编写稳定且可读的UI测试。官网

  • Selenium:为Web应用程序提供可移植软件测试框架。官网

  • Spock:JUnit-compatible framework featuring an expressive Groovy-derived specification language.官网兼容JUnit框架,支持衍生的Groovy范的语言。

  • TestNG:测试框架。官网

  • Truth:Google的断言和命题(proposition)框架。官网

  • Unitils:模块化测试函数库,支持单元测试和集成测试。官网

  • WireMock:Web Service测试桩(Stub)和模拟函数。官网

  • 通用工具库

    通用工具类函数库。

  • Apache Commons:提供各种用途的函数,比如配置、验证、集合、文件上传或XML处理等。官网

  • args4j:命令行参数解析器。官网

  • CRaSH:为运行进行提供CLI。官网

  • Gephi:可视化跨平台网络图形化操作程序。官网

  • Guava:集合、缓存、支持基本类型、并发函数库、通用注解、字符串处理、I/O等。官网

  • JADE:构建、调试多租户系统的框架和环境。官网

  • javatuples:正如名字表示的那样,提供tuple支持。尽管目前tuple的概念还有留有争议。官网

  • JCommander:命令行参数解析器。官网

  • Protégé:提供存在论(ontology)编辑器以及构建知识系统的框架。官网

  • 网络爬虫

    用于分析网站内容的函数库。

  • Apache Nutch:可用于生产环境的高度可扩展、可伸缩的网络爬虫。官网

  • Crawler4j:简单的轻量级网络爬虫。官网

  • JSoup:刮取、解析、操作和清理HTML。官网

  • Web框架

    用于处理Web应用程序不同层次间通讯的框架。

  • Apache Tapestry:基于组件的框架,使用Java创建动态、强健的、高度可扩展的Web应用程序。官网

  • Apache Wicket:基于组件的Web应用框架,与Tapestry类似带有状态显示GUI。官网

  • Google Web Toolkit:一组Web开发工具集,包含在客户端将Java代码转为JavaScript的编译器、XML解析器、RCP官网API、JUnit集成、国际化支持和GUI控件。

  • Grails:Groovy框架,旨在提供一个高效开发环境,使用约定而非配置、没有XML并支持混入(mixin)。官网

  • Ninja:Java全栈Web开发框架。非常稳固、快速和高效。官网

  • Pippo:小型、高度模块化的类Sinatra框架。官网

  • Play:使用约定而非配置,支持代码热加载并在浏览器中显示错误。官网

  • PrimeFaces:JSF框架,提供免费和带支持的商业版本。包括若干前端组件。官网

  • Ratpack:一组Java开发函数库,用于构建快速、高效、可扩展且测试完备的HTTP应用程序。官网

  • Spring Boot:微框架,简化了Spring新程序的开发过程。官网

  • Spring:旨在简化Java EE的开发过程,提供依赖注入相关组件并支持面向切面编程。官网

  • Vaadin:基于GWT构建的事件驱动框架。使用服务端架构,客户端使用Ajax。官网

  • Blade:国人开发的一个轻量级的MVC框架. 它拥有简洁的代码,优雅的设计。官网

  • 业务流程管理套件

    流程驱动的软件系统构建。

  • jBPM:非常灵活的业务流程管理框架,致力于构建开发与业务分析人员之间的桥梁。官网

  • Activity:轻量级工作流和业务流程管理框架。官网github

  • 资源

    社区

D. 开源爬虫框架各有什么优缺点

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch
2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫:scrapy
第一类:分布式爬虫
爬虫使用分布式,主要是解决两个问题:
1)海量URL管理
2)网速
现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这几类爬虫里,最不好的选择,理由如下:
1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。
2)Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。
3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。
4)用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。
5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。
6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase),只能使用0.90版本左右的hbase,相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用,Nutch2的教程有两个,分别是Nutch1.x和Nutch2.x,这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上,这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。
所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是Doug Cutting),当然最后的结果往往是项目延期完成。
如果你是要做搜索引擎,Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合,就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话,建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。
第二类:JAVA单机爬虫
这里把JAVA爬虫单独分为一类,是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议,我只是随便扯淡。
其实开源网络爬虫(框架)的开发非常简单,难问题和复杂的问题都被以前的人解决了(比如DOM树解析和定位、字符集检测、海量URL去重),可以说是毫无技术含量。包括Nutch,其实Nutch的技术难点是开发hadoop,本身代码非常简单。网络爬虫从某种意义来说,类似遍历本机的文件,查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架,就是为了省事。比如爬虫的URL管理、线程池之类的模块,谁都能做,但是要做稳定也是需要一段时间的调试和修改的。
对于爬虫的功能来说。用户比较关心的问题往往是:
1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?
不支持多线程、不支持代理、不能过滤重复URL的,那都不叫开源爬虫,那叫循环执行http请求。
能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关,往往需要通过模拟浏览器(htmlunit,selenium)来完成。这些模拟浏览器,往往需要耗费很多的时间来处理一个页面。所以一种策略就是,使用这些爬虫来遍历网站,遇到需要解析的页面,就将网页的相关信息提交给模拟浏览器,来完成JS生成信息的抽取。
2)爬虫可以爬取ajax信息么?
网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。如果是自己生成ajax请求,使用开源爬虫的意义在哪里?其实是要用开源爬虫的线程池和URL管理功能(比如断点爬取)。
如果我已经可以生成我所需要的ajax请求(列表),如何用这些爬虫来对这些请求进行爬取?
爬虫往往都是设计成广度遍历或者深度遍历的模式,去遍历静态或者动态页面。爬取ajax信息属于deep web(深网)的范畴,虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说,就是将生成的ajax请求作为种子,放入爬虫。用爬虫对这些种子,进行深度为1的广度遍历(默认就是广度遍历)。
3)爬虫怎么爬取要登陆的网站?
这些开源爬虫都支持在爬取时指定cookies,模拟登陆主要是靠cookies。至于cookies怎么获取,不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。
4)爬虫怎么抽取网页的信息?
开源爬虫一般都会集成网页抽取工具。主要支持两种规范:CSS SELECTOR和XPATH。至于哪个好,这里不评价。
5)爬虫怎么保存网页的信息?
有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。
6)爬虫被网站封了怎么办?
爬虫被网站封了,一般用多代理(随机代理)就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理,放到一个全局数组中,自己写一个代理随机获取(从数组中)的代码。
7)网页可以调用爬虫么?
爬虫的调用是在Web的服务端调用的,平时怎么用就怎么用,这些爬虫都可以使用。
8)爬虫速度怎么样?
单机开源爬虫的速度,基本都可以讲本机的网速用到极限。爬虫的速度慢,往往是因为用户把线程数开少了、网速慢,或者在数据持久化时,和数据库的交互速度慢。而这些东西,往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度,都很可以。
9)明明代码写对了,爬不到数据,是不是爬虫有问题,换个爬虫能解决么?
如果代码写对了,又爬不到数据,换其他爬虫也是一样爬不到。遇到这种情况,要么是网站把你封了,要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。
10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?
爬虫无法判断网站是否爬完,只能尽可能覆盖。
至于根据主题爬取,爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来,然后再去筛选内容。如果嫌爬的太泛,可以通过限制URL正则等方式,来缩小一下范围。
11)哪个爬虫的设计模式和构架比较好?
设计模式纯属扯淡。说软件设计模式好的,都是软件开发完,然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。
至于构架,开源爬虫目前主要是细节的数据结构的设计,比如爬取线程池、任务队列,这些大家都能控制好。爬虫的业务太简单,谈不上什么构架。
所以对于JAVA开源爬虫,我觉得,随便找一个用的顺手的就可以。如果业务复杂,拿哪个爬虫来,都是要经过复杂的二次开发,才可以满足需求。
第三类:非JAVA单机爬虫
在非JAVA语言编写的爬虫中,有很多优秀的爬虫。这里单独提取出来作为一类,并不是针对爬虫本身的质量进行讨论,而是针对larbin、scrapy这类爬虫,对开发成本的影响。
先说python爬虫,python可以用30行代码,完成JAVA 50行代码干的任务。python写代码的确快,但是在调试代码的阶段,python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发,要保证程序的正确性和稳定性,就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂,使用scrapy这种爬虫也是蛮不错的,可以轻松完成爬取任务。
对于C++爬虫来说,学习成本会比较大。而且不能只计算一个人的学习成本,如果软件需要团队开发或者交接,那就是很多人的学习成本了。软件的调试也不是那么容易。
还有一些ruby、php的爬虫,这里不多评价。的确有一些非常小型的数据采集任务,用ruby或者php很方便。但是选择这些语言的开源爬虫,一方面要调研一下相关的生态圈,还有就是,这些开源爬虫可能会出一些你搜不到的BUG(用的人少、资料也少)
End.

E. 自己动手写网络爬虫的作品目录

电子书|自己动手写网络爬虫,免费下载

链接: https://pan..com/s/1VuP30TzuJLThBUaghwFXdA

提取码: muwz

《自己动手写网络爬虫》是2010年10月1日由清华大学出版社出版的图书,作者是罗刚。本书在介绍基本原理的同时,注重辅以具体代码实现来帮助读者加深理解。

F. 开源爬虫框架各有什么优缺点

首先爬虫框架有三种

  1. 分布式爬虫:Nutch

  2. JAVA单机爬虫:Crawler4j,WebMagic,WebCollector

  3. 非JAVA单机爬虫:scrapy

第一类:分布式爬虫

优点:

  1. 海量URL管理

  2. 网速快

缺点:

  1. Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。

  2. 用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非。

  3. Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫。

  4. Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。

  5. Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text)

  6. 用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

  7. Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。

第二类:JAVA单机爬虫

优点:

  1. 支持多线程。

  2. 支持代理。

  3. 能过滤重复URL的。

  4. 负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关,往往需要通过模拟浏览器(htmlunit,selenium)来完成。

缺点:

设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。

第三类:非JAVA单机爬虫

优点:

  1. 先说python爬虫,python可以用30行代码,完成JAVA

  2. 50行代码干的任务。python写代码的确快,但是在调试代码的阶段,python代码的调试往往会耗费远远多于编码阶段省下的时间。

  3. 使用python开发,要保证程序的正确性和稳定性,就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂,使用scrapy这种爬虫也是蛮不错的,可以轻松完成爬取任务。

缺点:

  1. bug较多,不稳定。

G. java可以写爬虫吗

可以的,java还有比较多开源的爬虫框架。具体你可以找一下,或者学习一下网上爬虫相关的教学视频。

H. 如何用Java写一个爬虫

我主要使用Jsoup解析,获取源码有时候使用Jsoup,比较复杂的时候比如需要换ip,改编码或者模拟登陆的时候使用HttpClient,以下是抓取开源中国新闻的一段代码,可以运行。
package demo;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*
* 使用JSoup 解析网页,语法使用 JS,css,Jquery 选择器语法,方便易懂
*
* Jsoup教程网:jsoup开发指南,jsoup中文使用手册,jsoup中文文档
*
* @author geekfly
*
*/
public class JsoupDemo {
public static void main(String[] args) throws IOException {
String url = "新闻资讯 - 开源中国社区";
Document document = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();
Elements elements = document.select("#RecentNewsList .List > li");
for (Element element : elements) {
Elements titleElement = element.select("h2 a");
String title = titleElement.text();
String link = titleElement.attr("href").trim();
Elements dataElement = element.select(".date");
Elements autherElement = dataElement.select("a");
String auther = autherElement.text();
autherElement.remove();
String date = dataElement.text();
String detail = element.select(".detail").text();
System.out.println("链接: " + link);
System.out.println("标题: " + title);
System.out.println("作者: " + auther);
System.out.println("发布时间: " + date);
System.out.println("详细信息: " + detail);
System.out.println();
System.out.println();
}
System.out.println(elements.size());
}
}

I. java开源web爬虫哪个好用

1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。

2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

当然,上面说的nutch有的功能比如数据存储不代表Heritrix没有,反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~
还有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等,这些没用过,不知道。。。

热点内容
sql打开bak文件 发布:2025-01-22 15:47:32 浏览:106
opengl服务器源码 发布:2025-01-22 15:40:02 浏览:908
python部署服务 发布:2025-01-22 15:38:46 浏览:282
压缩机卡装 发布:2025-01-22 15:37:04 浏览:446
每天跑步40分钟可以缓解压力吗 发布:2025-01-22 15:33:24 浏览:448
线性表的链式存储结构与顺序存储 发布:2025-01-22 15:32:45 浏览:295
解压缩大师 发布:2025-01-22 15:26:51 浏览:386
xp访问win7共享打印机无权限 发布:2025-01-22 15:23:22 浏览:830
python中pandas 发布:2025-01-22 15:21:42 浏览:639
编程系列书 发布:2025-01-22 15:10:16 浏览:402