当前位置:首页 » 编程语言 » pythonetree解析xml

pythonetree解析xml

发布时间: 2022-08-27 06:09:11

‘壹’ python编写一个程序以尝试解析XML/HTML标签.

要给这段文字添加一个 root 标签,然后对里面的 node 进行遍历。root 标签的名字可以任意定(但是必须添加一个),我这里使用的 root 命名,对于其它的名字也一样。如果你是直接读取的 XML 文件,而不是字符串,可以将文件打开,然后把文件句柄传入 ElementTree.parse() 函数,最后对其返回值进行遍历。


fromxml.etreeimportElementTree
parsed=ElementTree.XML('''<root>
<composer>WolfgangAmadeusMozart</composer><author>SamuelBeckett</author><city>London</city>
</root>''')
outstr=[]
fornodeinparsed:
outstr+=['%s:%s'%(node.tag,node.text)]
print(''.join(outstr))

‘贰’ 如何用python读取xml文件

一、简介

XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。
python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合,注意xml.dom包里面有许多模块,须区分它们间的不同;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。
二、详解

解析的xml文件(country.xml):
在CODE上查看代码片派生到我的代码片

<?xml version="1.0"?>
<data>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
<neighbor name="Malaysia" direction="N"/>
</country>
<country name="Panama">
<rank>68</rank>
<year>2011</year>
<gdppc>13600</gdppc>
<neighbor name="Costa Rica" direction="W"/>
<neighbor name="Colombia" direction="E"/>
</country>
</data>


1、xml.etree.ElementTree

ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。
在CODE上查看代码片派生到我的代码片

try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET


这是一个让Python不同的库使用相同API的一个比较常用的办法,而从Python 3.3开始ElementTree模块会自动寻找可用的C库来加快速度,所以只需要import xml.etree.ElementTree就可以了。
在CODE上查看代码片派生到我的代码片

#!/usr/bin/evn python
#coding:utf-8

try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
import sys

try:
tree = ET.parse("country.xml") #打开xml文档
#root = ET.fromstring(country_string) #从字符串传递xml
root = tree.getroot() #获得root节点
except Exception, e:
print "Error:cannot parse file:country.xml."
sys.exit(1)
print root.tag, "---", root.attrib
for child in root:
print child.tag, "---", child.attrib

print "*"*10
print root[0][1].text #通过下标访问
print root[0].tag, root[0].text
print "*"*10

for country in root.findall('country'): #找到root节点下的所有country节点
rank = country.find('rank').text #子节点下节点rank的值
name = country.get('name') #子节点下属性name的值
print name, rank

#修改xml文件
for country in root.findall('country'):
rank = int(country.find('rank').text)
if rank > 50:
root.remove(country)

tree.write('output.xml')


运行结果:

三、总结
(1)Python中XML解析可用的类库或模块有xml、libxml2 、lxml 、xpath等,需要深入了解的还需参考相应的文档。
(2)每一种解析方式都有自己的优点和缺点,选择前可以综合各个方面的性能考虑。
(3)若有不足,请留言,在此先感谢!

‘叁’ Python 怎么解析 xml字符串

1. 我上面这段xml代码,一开始没有注意看,在每一个元素的结尾元素中都含有转义符,这就是为什么我用xml解析插件时一直保报错的原因,因为他不是正规的xml格式。我的方法是用正则替换掉:re.sub(r'(<)\\(/.+?>)',r'\g<1>\g<2>',f_xml) 对于Python中的正则re的sub用法
2. 处理成正规的xml格式后,我这里还是用ElementTree来解析的,但在加载时又报错:
cElementTree.ParseError: XML or text declaration not at start of entity: line 2, column 0
这个错误我在网上没有找到合适的答案,不过根据字面意思来解决,就是在开头的地方有错误。这里我尝试这吧xml的文档声明给去掉了,居然没有报错。这里有些不理解为什么不能加? 我的方法:f_xml=test_xml.replace('<?xml version="1.0" encoding="gbk"?>','')
3. 然后再加载,就能获取到相应的节点了。

‘肆’ Python get返回xml解析问题

你这贴的代码格式都不调一下,看的好痛苦。。。。。

另:贴一份我早期写的一个解析xml转换为字典的代码,支持中文

细微部分,你自己调

importxml.etree.ElementTreeasET
importos
'''
将指定目录下的xml文件转换为字典dict
strXmlFileName:xml文件name
strElementPath:xml节点
dictSubElement:dict用于返回
eg.my_dict=xml2dict('xxx.xml','node',my_dict)
'''
defxml2dict(strXmlFileName,strElementPath,dictSubElement):
elementList=[]
dictSubElement.clear()
try:
eTree=ET.parse(os.getcwd()+strXmlFileName)
exceptException,errorinfo:
print"xml2dict:ET.parse(%s)generateexception,errorinfo:%s"%((os.getcwd()+strXmlFileName),errorinfo)
raiseerrorinfo

try:
elementList=eTree.findall(strElementPath)
exceptException,errorinfo:
print"xml2dict:eTree.findall(%s)generateexception,errorinfo:%s"%(strElementPath,errorinfo)
raiseerrorinfo

pathList=[]
forelementinelementList:
forsubelementinelement.getchildren():
#print"tag:%s,text:%s"%(subelement.tag,subelement.text.encode("utf-8"))
ifsubelement.textisnotNone:
ifsubelement.taginpathList:
dictSubElement[subelement.tag]=(os.getcwd()+subelement.text).encode('utf-8')
else:
dictSubElement[subelement.tag]=subelement.text.encode('utf-8')
else:
dictSubElement[subelement.tag]=""#将None赋值一串空字符串

‘伍’ python如何解析xml格式的字符串,最好解析成键值对的那种,

有现成的库可以用,xml.etree.ElementTree,或者xml.dom.minidom,ET相对来说简单一些,而minidom配上node缓存也是一种不错的实现,原理都一样,就是把xml先转化为dom树。这两个库可以参考官方文档,xml以及dom树可以参考w3school

‘陆’ python怎么向已经存在的xml文件中追加填入数据

直接操作文件肯定不现实,只能先使用python自带模块xml.etree 解析xml,然后找到对应的节点把数据添加进去,重新写入文件。

‘柒’ python读取xml文件有哪些方法

1、以下几种方法建议初学者使用:

  • xml.etree.ElementTree

  • xml.dom

  • xml.dom.minidom

  • xml.dom.pulldom

  • xml.parsers.expat

    其中,第一个模块更加轻便简介,对于简单的xml文档,推荐使用

下面的方法涉及知识比较多,熟练掌握上面方法后可以了解使用:

2、Dom读取

3、Dom4j读取
使用dom4j需要导入相关的jar包

import java.io.File;
import java.util.Iterator;
import java.util.List;


4、JDom读取
使用jdom需要导入相关的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax读取

6、properties的读取

‘捌’ 如何使用Python和xml.etree.ElementTree解析xml文件获取其节点

<?xmlversion="1.0"encoding="utf-8"?>
<root>
<bodyname="lyc">
<age>110</age>
</body>
<bodyname="l"age="10">
</body>
</root>

######################


#coding=UTF8

fromxml.etreeimportElementTree

#xmlText=open("xml.txt").read()
#root=ElementTree.fromstring(xmlText)

root=ElementTree.parse("xml.txt")
bodys=root.getiterator("body")

#getiterator方法获取
print"getiterator"
printbodys
printdir(bodys[0])
print"attrib:",bodys[0].attrib
print"tag:",bodys[0].tag
print"text",bodys[0].text
#getchildren方法获取
print"getchildren"
children=bodys[0].getchildren()
printchildren
print"attrib:",children[0].attrib
print"tag:",children[0].tag
print"text:",children[0].text
#find
print"find"
children=root.find("body")
printchildren
print"attrib:",children.attrib
print"tag:",children.tag
print"text:",children.text
#findall
print"findall"
children=root.findall("body")
printchildren
print"attrib:",children[0].attrib
print"tag:",children[0].tag
print"text:",children[0].text

‘玖’ python 解析xml需要什么模块

Python的标准库中,提供了6种可以用于处理XML的包。

(1)xml.dom

xml.dom实现的是W3C制定的DOM API。如果你习惯于使用DOM API或者有人要求这这样做,可以使用这个包。不过要注意,在这个包中,还提供了几个不同的模块,各自的性能有所区别。

DOM解析器在任何处理开始之前,必须把基于XML文件生成的树状数据放在内存,所以DOM解析器的内存使用量完全根据输入资料的大小。

(2)xml.dom.minidom

xml.dom.minidom是DOM API的极简化实现,比完整版的DOM要简单的多,而且这个包也小的多。那些不熟悉DOM的朋友,应该考虑使用xml.etree.ElementTree模块。据lxml的作者评价,这个模块使用起来并不方便,效率也不高,而且还容易出现问题。

相关推荐:《Python教程》

(3)xml.dom.pulldom

与其他模块不同,xml.dom.pulldom模块提供的是一个“pull解析器”,其背后的基本概念指的是从XML流中pull事件,然后进行处理。虽然与SAX一样采用事件驱动模型(event-driven processing model),但是不同的是,使用pull解析器时,使用者需要明确地从XML流中pull事件,并对这些事件遍历处理,直到处理完成或者出现错误。

pull解析(pull parsing)是近来兴起的一种XML处理趋势。此前诸如SAX和DOM这些流行的XML解析框架,都是push-based,也就是说对解析工作的控制权,掌握在解析器的手中。

(4)xml.sax

xml.sax模块实现的是SAX API,这个模块牺牲了便捷性来换取速度和内存占用。SAX是Simple API for XML的缩写,它并不是由W3C官方所提出的标准。它是事件驱动的,并不需要一次性读入整个文档,而文档的读入过程也就是SAX的解析过程。所谓事件驱动,是指一种基于回调(callback)机制的程序运行方法。

(5)xml.parser.expat

xml.parser.expat提供了对C语言编写的expat解析器的一个直接的、底层API接口。expat接口与SAX类似,也是基于事件回调机制,但是这个接口并不是标准化的,只适用于expat库。

expat是一个面向流的解析器。您注册的解析器回调(或handler)功能,然后开始搜索它的文档。当解析器识别该文件的指定的位置,它会调用该部分相应的处理程序(如果您已经注册的一个)。该文件被输送到解析器,会被分割成多个片断,并分段装到内存中。因此expat可以解析那些巨大的文件。

(6)xml.etree.ElementTree(以下简称ET)

xml.etree.ElementTree模块提供了一个轻量级、Pythonic的API,同时还有一个高效的C语言实现,即xml.etree.cElementTree。与DOM相比,ET的速度更快,API使用更直接、方便。与SAX相比,ET.iterparse函数同样提供了按需解析的功能,不会一次性在内存中读入整个文档。ET的性能与SAX模块大致相仿,但是它的API更加高层次,用户使用起来更加便捷。

建议:在使用Python进行XML解析时,首选使用ET模块,除非你有其他特别的需求,可能需要另外的模块来满足。

热点内容
安卓手机怎么装驱动 发布:2025-01-17 06:02:17 浏览:622
安卓微信拍了拍怎么改 发布:2025-01-17 05:57:31 浏览:46
BMF服务器的系统服务怎么关 发布:2025-01-17 05:50:29 浏览:876
免刷安卓系统怎么进入usb调试 发布:2025-01-17 05:48:21 浏览:837
数据库的三层架构 发布:2025-01-17 05:17:36 浏览:149
云顶之弈有人开脚本怎么举报 发布:2025-01-17 05:16:59 浏览:682
sql包含数字 发布:2025-01-17 05:11:56 浏览:292
密码忘记了怎么查看 发布:2025-01-17 05:02:30 浏览:682
脚本执行sql语句 发布:2025-01-17 04:47:51 浏览:702
结构体访问成员变量 发布:2025-01-17 04:32:09 浏览:31