当前位置:首页 » 编程语言 » java解析器

java解析器

发布时间: 2024-04-18 13:08:27

1. 使用java怎么读取html文件内容

java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
示例代码:
Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}

2. 目前在Java中几种常用的XML解析器的比较

目前常用的XML的解析器主要有:SAX,DOM,Xerces

1、SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。另一方面,由于应用程序没有以任何方式存储数据,使用SAX来更改数据或在数据流中往后移是不可能的。

2、DOM以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。另一方面,在内存中构造这样的树涉及大量的开销。大型文件完全占用系统内存容量的情况并不鲜见。此外,创建一棵DOM树可能是一个缓慢的过程。

3、选择DOM还是选择SAX,这取决于下面几个因素:
应用程序的目的:如果打算对数据作出更改并将它输出为XML,那么在大多数情况下,DOM是适当的选择。并不是说使用SAX就不能更改数据,但是该过程要复杂得多,因为您必须对数据的一份拷贝而不是对数据本身作出更改。
数据容量:对于大型文件,SAX是更好的选择。数据将如何使用:如果只有数据中的少量部分会被使用,那么使用SAX来将该部分数据提取到应用程序中可能更好。另一方面,如果您知道自己以后会回头引用已处理过的大量信息,那么SAX也许不是恰当的选择。
对速度的需要:SAX实现通常要比DOM实现更快。
SAX和DOM不是相互排斥的,记住这点很重要。您可以使用DOM来创建SAX事件流,也可以使用SAX来创建DOM树。事实上,用于创建DOM树的大多数解析器实际上都使用SAX来完成这个任务!

4、SAX,DOM是两种对XML文档进行分析的方法(没有具体的实现,只有接口),所以不是解释器,如果光有他们,你是完成不了对xml文档的处理的。SAX的包是org.xml.sax,DOM的包是org.w3c.dom,包的名称很重要,它有助于你理解他们之间的关系。

5、jaxp是api,他封装了sax/dom两种接口。并在sax/dom的基础之上,作了一套比较简单的api以供开发人员使用。jaxp的包是javax.xml.parsers,可以看看jaxp的源文件,它的文件中包含了对sax或者dom的引用(import)jaxp也不是具体的实现,他只是一套api。如果你仅仅有jaxp那是无法工作的,(其实jaxp只是完成对sax、dom的包装,生成了DocumentBuilderFactory/DocumentBuilder和SAXParserFactorySAXParser。也就是设计模式中的工厂模式,他的好处就是具体的对象(解释器)建立由子类完成)

6、xerces解释器(号称地球上最快的xml解释器)在xerces中对jaxp中定义的进行了继承(extends)对应ryImpl这就是为什么你的classpath中只要有xerces.jar(其中包含了saxdomjaxp)和xercesImpl.jar就可以的原因了.

3. 姣旇缉娴佽 java xml瑙f瀽鍣ㄦ湁鍑犵 钖嶅瓙鏄浠涔堬纻

DOM:澶勭悊澶у瀷鏂囦欢镞跺叾镐ц兘涓嬮檷镄勯潪甯稿帀瀹炽傝繖涓闂棰樻槸鐢盌OM镄勬爲缁撴瀯镓阃犳垚镄勶纴杩欑岖粨鏋勫崰鐢ㄧ殑鍐呭瓨杈冨氾纴钥屼笖DOM蹇呴’鍦ㄨВ鏋愭枃浠朵箣鍓嶆妸鏁翠釜鏂囨。瑁呭叆鍐呭瓨,阃傚悎瀵筙ML镄勯殢链鸿块梾
SAX:涓岖幇浜嶥OM,SAX鏄浜嬩欢椹卞姩鍨嬬殑XML瑙f瀽鏂瑰纺銆傚畠椤哄簭璇诲彇XML鏂囦欢锛屼笉闇瑕佷竴娆″叏閮ㄨ呰浇鏁翠釜鏂囦欢銆傚綋阆囧埌镀忔枃浠跺紑澶达纴鏂囨。缁撴潫锛屾垨钥呮爣绛惧紑澶翠笌镙囩剧粨𨱒熸椂锛屽畠浼氲Е鍙戜竴涓浜嬩欢锛岀敤鎴烽氲繃鍦ㄥ叾锲炶皟浜嬩欢涓鍐椤叆澶勭悊浠g爜𨱒ュ勭悊XML鏂囦欢锛岄傚悎瀵筙ML镄勯‘搴忚块梾
STAX:Streaming
API
for
XML
(StAX)

热点内容
数据库映射是什么 发布:2025-01-20 05:41:52 浏览:981
中国植物数据库 发布:2025-01-20 05:38:50 浏览:334
C语言能吗 发布:2025-01-20 05:37:25 浏览:558
onedrive存储位置 发布:2025-01-20 05:35:16 浏览:826
导航广播怎么存储电台 发布:2025-01-20 05:35:14 浏览:310
歌的压缩包 发布:2025-01-20 05:23:53 浏览:391
如何通过服务器ip查到电话 发布:2025-01-20 05:02:34 浏览:8
我的世界服务器被房主打 发布:2025-01-20 05:02:27 浏览:284
如何找到相同的配置 发布:2025-01-20 04:53:59 浏览:218
看linux版本 发布:2025-01-20 04:40:37 浏览:20