pythonetree解析xml

发布时间: 2022-08-27 06:09:11

‘壹’ python编写一个程序以尝试解析XML/HTML标签.

要给这段文字添加一个 root 标签，然后对里面的 node 进行遍历。root 标签的名字可以任意定（但是必须添加一个），我这里使用的 root 命名，对于其它的名字也一样。如果你是直接读取的 XML 文件，而不是字符串，可以将文件打开，然后把文件句柄传入 ElementTree.parse() 函数，最后对其返回值进行遍历。

fromxml.etreeimportElementTree
parsed=ElementTree.XML('''<root>
<composer>WolfgangAmadeusMozart</composer><author>SamuelBeckett</author><city>London</city>
</root>''')
outstr=[]
fornodeinparsed:
outstr+=['%s:%s'%(node.tag,node.text)]
print(''.join(outstr))

‘贰’ 如何用python读取xml文件

一、简介

XML（eXtensible Markup Language）指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML的简单特性，还具有明确和结构良好等许多新的特性。
python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3C DOM API的实现，若需要处理DOM API则该模块很适合，注意xml.dom包里面有许多模块，须区分它们间的不同；二是xml.sax.*模块，它是SAX API的实现，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量的的文档，不用完全加载进内存；三是xml.etree.ElementTree模块（简称 ET），它提供了轻量级的Python式的API，相对于DOM来说ET 快了很多，而且有很多令人愉悦的API可以使用，相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式，没有必要加载整个文档到内存，ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。
二、详解

解析的xml文件（country.xml）：
在CODE上查看代码片派生到我的代码片

<?xml version="1.0"?>
<data>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
<neighbor name="Malaysia" direction="N"/>
</country>
<country name="Panama">
<rank>68</rank>
<year>2011</year>
<gdppc>13600</gdppc>
<neighbor name="Costa Rica" direction="W"/>
<neighbor name="Colombia" direction="E"/>
</country>
</data>

1、xml.etree.ElementTree

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。
在CODE上查看代码片派生到我的代码片

try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET

这是一个让Python不同的库使用相同API的一个比较常用的办法，而从Python 3.3开始ElementTree模块会自动寻找可用的C库来加快速度，所以只需要import xml.etree.ElementTree就可以了。
在CODE上查看代码片派生到我的代码片

#!/usr/bin/evn python
#coding:utf-8

try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
import sys

try:
tree = ET.parse("country.xml") #打开xml文档
#root = ET.fromstring(country_string) #从字符串传递xml
root = tree.getroot() #获得root节点
except Exception, e:
print "Error:cannot parse file:country.xml."
sys.exit(1)
print root.tag, "---", root.attrib
for child in root:
print child.tag, "---", child.attrib

print "*"*10
print root[0][1].text #通过下标访问
print root[0].tag, root[0].text
print "*"*10

for country in root.findall('country'): #找到root节点下的所有country节点
rank = country.find('rank').text #子节点下节点rank的值
name = country.get('name') #子节点下属性name的值
print name, rank

#修改xml文件
for country in root.findall('country'):
rank = int(country.find('rank').text)
if rank > 50:
root.remove(country)

tree.write('output.xml')

运行结果：

三、总结
（1）Python中XML解析可用的类库或模块有xml、libxml2 、lxml 、xpath等，需要深入了解的还需参考相应的文档。
（2）每一种解析方式都有自己的优点和缺点，选择前可以综合各个方面的性能考虑。
（3）若有不足，请留言，在此先感谢！

‘叁’ Python 怎么解析 xml字符串

1. 我上面这段xml代码，一开始没有注意看，在每一个元素的结尾元素中都含有转义符，这就是为什么我用xml解析插件时一直保报错的原因，因为他不是正规的xml格式。我的方法是用正则替换掉：re.sub(r'(<)\\(/.+?>)',r'\g<1>\g<2>',f_xml) 对于Python中的正则re的sub用法
2. 处理成正规的xml格式后，我这里还是用ElementTree来解析的，但在加载时又报错：
cElementTree.ParseError: XML or text declaration not at start of entity: line 2, column 0
这个错误我在网上没有找到合适的答案，不过根据字面意思来解决，就是在开头的地方有错误。这里我尝试这吧xml的文档声明给去掉了，居然没有报错。这里有些不理解为什么不能加？我的方法：f_xml=test_xml.replace('<?xml version="1.0" encoding="gbk"?>','')
3. 然后再加载，就能获取到相应的节点了。

‘肆’ Python get返回xml解析问题

你这贴的代码格式都不调一下，看的好痛苦。。。。。

另：贴一份我早期写的一个解析xml转换为字典的代码，支持中文

细微部分，你自己调

importxml.etree.ElementTreeasET
importos
'''
将指定目录下的xml文件转换为字典dict
strXmlFileName：xml文件name
strElementPath：xml节点
dictSubElement：dict用于返回
eg.my_dict=xml2dict('xxx.xml','node',my_dict)
'''
defxml2dict(strXmlFileName,strElementPath,dictSubElement):
elementList=[]
dictSubElement.clear()
try:
eTree=ET.parse(os.getcwd()+strXmlFileName)
exceptException,errorinfo:
print"xml2dict:ET.parse(%s)generateexception,errorinfo:%s"%((os.getcwd()+strXmlFileName),errorinfo)
raiseerrorinfo

try:
elementList=eTree.findall(strElementPath)
exceptException,errorinfo:
print"xml2dict:eTree.findall(%s)generateexception,errorinfo:%s"%(strElementPath,errorinfo)
raiseerrorinfo

pathList=[]
forelementinelementList:
forsubelementinelement.getchildren():
#print"tag:%s,text:%s"%(subelement.tag,subelement.text.encode("utf-8"))
ifsubelement.textisnotNone:
ifsubelement.taginpathList:
dictSubElement[subelement.tag]=(os.getcwd()+subelement.text).encode('utf-8')
else:
dictSubElement[subelement.tag]=subelement.text.encode('utf-8')
else:
dictSubElement[subelement.tag]=""#将None赋值一串空字符串

‘伍’ python如何解析xml格式的字符串，最好解析成键值对的那种，

有现成的库可以用，xml.etree.ElementTree，或者xml.dom.minidom，ET相对来说简单一些，而minidom配上node缓存也是一种不错的实现，原理都一样，就是把xml先转化为dom树。这两个库可以参考官方文档，xml以及dom树可以参考w3school

‘陆’ python怎么向已经存在的xml文件中追加填入数据

直接操作文件肯定不现实，只能先使用python自带模块xml.etree 解析xml，然后找到对应的节点把数据添加进去，重新写入文件。

‘柒’ python读取xml文件有哪些方法

1、以下几种方法建议初学者使用：

xml.etree.ElementTree
xml.dom
xml.dom.minidom
xml.dom.pulldom
xml.parsers.expat
其中，第一个模块更加轻便简介，对于简单的xml文档，推荐使用

下面的方法涉及知识比较多，熟练掌握上面方法后可以了解使用：

2、Dom读取

3、Dom4j读取
使用dom4j需要导入相关的jar包

import java.io.File;
import java.util.Iterator;
import java.util.List;

4、JDom读取
使用jdom需要导入相关的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax读取

6、properties的读取

‘捌’ 如何使用Python和xml.etree.ElementTree解析xml文件获取其节点

<?xmlversion="1.0"encoding="utf-8"?>
<root>
	<bodyname="lyc">
		<age>110</age>
	</body>
	<bodyname="l"age="10">
	</body>
</root>

######################


#coding=UTF8

fromxml.etreeimportElementTree

#xmlText=open("xml.txt").read()
#root=ElementTree.fromstring(xmlText)

root=ElementTree.parse("xml.txt")
bodys=root.getiterator("body")

#getiterator方法获取
print"getiterator"
printbodys
printdir(bodys[0])
print"attrib:",bodys[0].attrib
print"tag:",bodys[0].tag
print"text",bodys[0].text
#getchildren方法获取
print"getchildren"
children=bodys[0].getchildren()
printchildren
print"attrib:",children[0].attrib
print"tag:",children[0].tag
print"text:",children[0].text
#find
print"find"
children=root.find("body")
printchildren
print"attrib:",children.attrib
print"tag:",children.tag
print"text:",children.text
#findall
print"findall"
children=root.findall("body")
printchildren
print"attrib:",children[0].attrib
print"tag:",children[0].tag
print"text:",children[0].text

‘玖’ python 解析xml需要什么模块

Python的标准库中，提供了6种可以用于处理XML的包。

（1）xml.dom

xml.dom实现的是W3C制定的DOM API。如果你习惯于使用DOM API或者有人要求这这样做，可以使用这个包。不过要注意，在这个包中，还提供了几个不同的模块，各自的性能有所区别。

DOM解析器在任何处理开始之前，必须把基于XML文件生成的树状数据放在内存，所以DOM解析器的内存使用量完全根据输入资料的大小。

（2）xml.dom.minidom

xml.dom.minidom是DOM API的极简化实现，比完整版的DOM要简单的多，而且这个包也小的多。那些不熟悉DOM的朋友，应该考虑使用xml.etree.ElementTree模块。据lxml的作者评价，这个模块使用起来并不方便，效率也不高，而且还容易出现问题。

pythonetree解析xml

与pythonetree解析xml相关的资讯