python處理xml

發布時間: 2022-09-12 15:51:56

⑴ python操作xml文件問題

我給你個示例代碼，你自己改改增加子節點那一段就好了。

#!/usr/bin/python
# -*- coding=utf-8 -*-
# author : [email protected]
# date: 2012-05-25
# version: 0.1
from xml.etree.ElementTree import ElementTree,Element
def read_xml(in_path):
'''讀取並解析xml文件
in_path: xml路徑
return: ElementTree'''
tree = ElementTree()
tree.parse(in_path)
return tree
def write_xml(tree, out_path):
'''將xml文件寫出
tree: xml樹
out_path: 寫出路徑'''
tree.write(out_path, encoding="utf-8",xml_declaration=True)
def if_match(node, kv_map):
'''判斷某個節點是否包含所有傳入參數屬性
node: 節點
kv_map: 屬性及屬性值組成的map'''
for key in kv_map:
if node.get(key) != kv_map.get(key):
return False
return True
#---------------search -----
def find_nodes(tree, path):
'''查找某個路徑匹配的所有節點
tree: xml樹
path: 節點路徑'''
return tree.findall(path)
def get_node_by_keyvalue(nodelist, kv_map):
'''根據屬性及屬性值定位符合的節點，返回節點
nodelist: 節點列表
kv_map: 匹配屬性及屬性值map'''
result_nodes = []
for node in nodelist:
if if_match(node, kv_map):
result_nodes.append(node)
return result_nodes
#---------------change -----
def change_node_properties(nodelist, kv_map, is_delete=False):
'''修改/增加 /刪除 節點的屬性及屬性值
nodelist: 節點列表
kv_map:屬性及屬性值map'''
for node in nodelist:
for key in kv_map:
if is_delete:
if key in node.attrib:
del node.attrib[key]
else:
node.set(key, kv_map.get(key))

def change_node_text(nodelist, text, is_add=False, is_delete=False):
'''改變/增加/刪除一個節點的文本
nodelist:節點列表
text : 更新後的文本'''
for node in nodelist:
if is_add:
node.text += text
elif is_delete:
node.text = ""
else:
node.text = text

def create_node(tag, property_map, content):
'''新造一個節點
tag:節點標簽
property_map:屬性及屬性值map
content: 節點閉合標簽里的文本內容
return 新節點'''
element = Element(tag, property_map)
element.text = content
return element

def add_child_node(nodelist, element):
'''給一個節點添加子節點
nodelist: 節點列表
element: 子節點'''
for node in nodelist:
node.append(element)

def del_node_by_tagkeyvalue(nodelist, tag, kv_map):
'''同過屬性及屬性值定位一個節點，並刪除之
nodelist: 父節點列表
tag:子節點標簽
kv_map: 屬性及屬性值列表'''
for parent_node in nodelist:
children = parent_node.getchildren()
for child in children:
if child.tag == tag and if_match(child, kv_map):
parent_node.remove(child)

if __name__ == "__main__":

#1. 讀取xml文件
tree = read_xml("./test.xml")

#2. 屬性修改
#A. 找到父節點
nodes = find_nodes(tree, "processers/processer")
#B. 通過屬性准確定位子節點
result_nodes = get_node_by_keyvalue(nodes, {"name":"BProcesser"})
#C. 修改節點屬性
change_node_properties(result_nodes, {"age": "1"})
#D. 刪除節點屬性
change_node_properties(result_nodes, {"value":""}, True)

#3. 節點修改
#A.新建節點
a = create_node("person", {"age":"15","money":"200000"}, "this is the firest content")
#B.插入到父節點之下
add_child_node(result_nodes, a)

#4. 刪除節點
#定位父節點
del_parent_nodes = find_nodes(tree, "processers/services/service")
#准確定位子節點並刪除之
target_del_node = del_node_by_tagkeyvalue(del_parent_nodes, "chain", {"sequency" : "chain1"})

#5. 修改節點文本
#定位節點
text_nodes = get_node_by_keyvalue(find_nodes(tree, "processers/services/service/chain"), {"sequency":"chain3"})
change_node_text(text_nodes, "new text")

#6. 輸出到結果文件
write_xml(tree, "./out.xml")

⑵ 初學Python求助Python解析xml

1. 我上面這段xml代碼，一開始沒有注意看，在每一個元素的結尾元素中都含有轉義符，這就是為什麼我用xml解析插件時一直保報錯的原因，因為他不是正規的xml格式。我的方法是用正則替換掉：re.sub(r'(<)\\(/.+?>)',r'\g<1>\g<2>',f_xml) 對於Python中的正則re的sub用法
2. 處理成正規的xml格式後，我這里還是用ElementTree來解析的，但在載入時又報錯：
cElementTree.ParseError: XML or text declaration not at start of entity: line 2, column 0
這個錯誤我在網上沒有找到合適的答案，不過根據字面意思來解決，就是在開頭的地方有錯誤。這里我嘗試這吧xml的文檔聲明給去掉了，居然沒有報錯。這里有些不理解為什麼不能加？我的方法：f_xml=test_xml.replace('<?xml version="1.0" encoding="gbk"?>','')
3. 然後再載入，就能獲取到相應的節點了。
主要代碼如下：
f_xml=test_xml.replace('<?xml version="1.0" encoding="gbk"?>','')
mat=re.sub(r'(<)\\(/.+?>)',r'\g<1>\g<2>',f_xml)
xml_root_doc=ET.fromstring(f_xml)
print(xml_root_doc)

⑶ 如何使用python解析超大XML文檔

在工作時最有吸引力的地方在於可以盡量避免使用昔日的技術。主機、租用線路、COBOL語言......沒有人應該要處理這些東西了，對不對？不幸的是，你最終會與現實發生沖突，即使是2014年，大家都知道JSON是最好的方式，你的票務供應商（你無法控制的）會告訴你，只有使用XML導出才能讓大容量的數據輸出他們的系統。
唉~~~~，好,很好,無所謂。這只是一次性的事情,我不需要照顧和養活這個XML,我只需要解析它並將數據保存到Postgres中,我們就可以利用它。不應該太困難,我需要寫一點python腳本…
import xml.etree.cElementTree as ET
tree = ET.parse('huge.xml')
for ticket_node in tree.findall('ticket'):
#etc...
......這將工作的非常好，如果我們談論的是一個幾MB的XML文檔，但是如果遇到的是huge.xml它是1.3GB的巨大文檔，這種方法只會融化你的筆記本電腦（以16GB的MacBookPro，一旦python的過程花了超過約3GB的內存，系統變得幾乎完全反應遲鈍，並且它幾乎還沒有完成）。回到原點。
首先讓我們快速瀏覽一下我們的數據。
<?xml version="1.0" encoding="UTF-8"?>
<tickets report_date="20140217">
<ticket>

<comments type="array">
<comment>

</comment>

</comments>
</ticket>

</tickets>
不是很復雜，作為一個整體它不是一個真正的文件中，<ticket>節點只是一個列表，每一類又是一個小文件，我想挑出幾部分出來。我不需要做針對樹的任何復雜的遍歷，只是希望從每個<ticket>節點獲得一些數據然後把它扔掉再讀下一個。原來ElementTree的對眼前這個場景提供了一個工具：iterparse()。讓我們再試一次：
import xml.etree.cElementTree as ET
for event, element in ET.iterparse('huge.xml'):
if event == 'end' and element.tag == 'ticket':
#process ticket...
…什麼? !我的筆記本電腦又融化了!跟parse-the-whole-file的方法一樣使用了完全相同的內存(和系統響應能力)。到底發生了什麼事?
好吧,稍微google了一下，google告訴我,當iterparse()讀取元素時,它仍然是在內存中建立了一個完整的文檔樹，就像我一開始使用parse()方法一樣。幾個博客和stackoverflow的答案推薦添加element.clear()方法在循環結束時清理你不需要的對象,可以限制內存消耗。我拯救了你的麻煩:它不工作。其他博客,so的答案,甚至一個IBM白皮書表明需要在循環結束時進行更徹底的清掃工作結束:
import lxml.etree as ET #the IBM piece used lxml but I tried cElementTree also
for event, element in ET.iterparse('huge.xml'):
if event == 'end' and element.tag == 'ticket':
#process ticket...
element.clear()
while elem.getprevious() is not None:
del elem.getparent()[0]
......哎呀！我溶化了另一台筆記本電腦！
為什麼不工作？坦率地說，我不知道。
我稍微離題一下來說說為什麼我愛Python。作為一個DBA和系統工程師，我面對著大量的一次性編程挑戰。移動這個從這里到那裡、Munge數據、將數據從這里遷移到哪裡。這種類型的挑戰是非常適合於蠻力編程解決問題的這種方式。總之，有時是不值得在建立一個優雅的、易於維護的解決方案上花費任何時間。有時候，你只需要解決這個問題，然後忘掉它。在處理這類問題上Python最棒的，簡潔的語法、良好的設計理念、豐富的庫都有助於這個工具，很容易快速解決您碰到的任何問題。即使速度比同等的Java解決方案的10倍還慢，如果需要5分鍾的時間寫而不是5小時，我更願意使用python，因為人類工時比CPU工時更有價值。
所有這一切都證明下述方式解決了我的問題，而不會融化的筆記本電腦：
import xml.etree.cElementTree as ET
def process_buffer(buf):
tnode = ET.fromstring(buf)
#pull it apart and stick it in the database
inputbuffer = ''
with open('huge.xml','rb') as inputfile:
append = False
for line in inputfile:
if '<ticket>' in line:
inputbuffer = line
append = True
elif '</ticket>' in line:
inputbuffer += line
append = False
process_buffer(inputbuffer)
inputbuffer = None
del inputbuffer #probably rendant...
elif append:
inputbuffer += line
不是最優雅，或有效率，或者通用的解決方案，但它可以工作。剛剛看了手邊的手冊，利用其結構的簡單性，在解析之前根據xml文件的內容將它切成可管理的塊，然後解析和處理每個塊，終於可以確保不再需要更長的時間來把它全部處理完。

⑷ python處理是Xml文件的，刪除標簽屬性符合條件的！如＜data name＝"test"id＝"

你可以使用 BeautifulSoup 套件:
安裝:
pip install bs4

如果覺得 html 解析器不敷使用，參考文檔安裝其他適合的解析器。
如果想要詳細了解 BeautifulSoup 也請參考官方文檔(有中文版本)。
測試檔:
以下是我使用的測試文件:
# delete.txt
126
147

# test.xml
<re>
<id>123</id>
<name>abc</name>
</re>
<re>
<id>126</id>
<name>abc</name>
</re>
<re>
<id>135</id>
<name>abc</name>
</re>
<re>
<id>147</id>
<name>abc</name>
</re>

代碼:
from bs4 import BeautifulSoup

with open('test.xml') as reader:
xml = reader.read()

deleted_id = []

with open('delete.txt') as reader:
for line in reader:
line = line.strip()
deleted_id.append(line)

def has_delete_id(tag):
return tag.name=='re' and tag.id.string in deleted_id

soup = BeautifulSoup(xml, 'html.parser')

tags = soup(has_delete_id)
for tag in tags:
tag.decompose()

print(soup.prettify())

程式輸出:
<re>
<id>
123
</id>
<name>
abc
</name>
</re>
<re>
<id>
135
</id>
<name>
abc
</name>
</re>

代碼說明:
首先我們從 Beautiful Soup 的套件中匯入 BeautifulSoup 類
from bs4 import BeautifulSoup

接著分別從 delete.txt 和 test.xml 中讀出要刪除的 id 和主要的 xml 內容，下一步是實體化生成一個 BeautifulSoup對象 soup，我們採用 html.parser 解析器去解析 xml:
soup = BeautifulSoup(xml, 'html.parser')

在此我們定義了一個用於過濾的 function has_delete_id，每一個在 xml 中的tag 只要是 <re> tag 且含有想要刪除的 <id> tag 就會被檢索出來:
def has_delete_id(tag):
return tag.name=='re' and tag.id.string in deleted_id

接著 soup(has_delete_id) 會幫助我們找到欲刪除的 tag，接著走訪搜索出來的這些 tag 並呼叫方法 decompose() 來從文件中刪除該標簽。
最後 soup.prettify()可以幫助我們輸出修改後的文件。

⑸ python怎麼處理xml節點包含命名空間，也就是冒號的情況

a:b為名不行吧，要展開為{URI}b這種形式，看看下面小例子取出的tag名稱：

# -*- coding: utf-8 -*-

from xml.etree import ElementTree as ET
import cStringIO

xml = """\
<?xml version="1.0"?>
<root xmlns = "http://default-namespace.org/"
xmlns:py = "http://www.python.org/ns/">
<py:elem1 />
<elem2 xmlns="" />
</root>
"""
f = cStringIO.StringIO(xml)

#find all elements and print tag's name.
tree = ET.parse(f)
print repr(tree.getroot().tag)
elems = tree.findall('.//*')
for elem in elems:
print repr(elem.tag)

#same as above, but using iterparse.
f.seek(0)
for event, elem in ET.iterparse(f, ("start",)):
print repr(elem.tag)

輸出：
'{http://default-namespace.org/}root'
'{http://www.python.org/ns/}elem1'
'elem2'
'{http://default-namespace.org/}root'
'{http://www.python.org/ns/}elem1'
'elem2'

⑹ 用python怎麼操作xml文件內容

一、什麼是xml？
xml即可擴展標記語言，它可以用來標記數據、定義數據類型，是一種允許用戶對自己的標記語言進行定義的源語言。
abc.xml

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

Ok ,從結構上，它很像我們常見的HTML超文本標記語言。但他們被設計的目的是不同的，超文本標記語言被設計用來顯示數據，其焦點是數據的外觀。它被設計用來傳輸和存儲數據，其焦點是數據的內容。
那麼它有如下特徵：
首先，它是有標簽對組成，<aa></aa>
標簽可以有屬性：<aa id='123'></aa>
標簽對可以嵌入數據：<aa>abc</aa>
標簽可以嵌入子標簽（具有層級關系）：
二、獲得標簽屬性
那麼，下面來介紹如何用python來讀取這種類型的文件。

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
print root.nodeName
print root.nodeValue
print root.nodeType
print root.ELEMENT_NODE

mxl.dom.minidom 模塊被用來處理xml文件，所以要先引入。
xml.dom.minidom.parse() 用於打開一個xml文件，並將這個文件對象dom變數。
documentElement 用於得到dom對象的文檔元素，並把獲得的對象給root
每一個結點都有它的nodeName，nodeValue，nodeType屬性。
nodeName為結點名字。
nodeValue是結點的值，只對文本結點有效。
nodeType是結點的類型。catalog是ELEMENT_NODE類型
現在有以下幾種：
'ATTRIBUTE_NODE'
'CDATA_SECTION_NODE'
'COMMENT_NODE'
'DOCUMENT_FRAGMENT_NODE'
'DOCUMENT_NODE'
'DOCUMENT_TYPE_NODE'
'ELEMENT_NODE'
'ENTITY_NODE'
'ENTITY_REFERENCE_NODE'
'NOTATION_NODE'
'PROCESSING_INSTRUCTION_NODE'
'TEXT_NODE'

三、獲得子標簽
現在要獲得catalog的子標簽以的標簽name

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

對於知道元素名字的子元素，可以使用getElementsByTagName方法獲取：

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
bb = root.getElementsByTagName('maxid')
b= bb[0]
print b.nodeName
bb = root.getElementsByTagName('login')
b= bb[0]
print b.nodeName

如何區分相同標簽名字的標簽：

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>和<item>標簽不止一個如何區分？
復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
bb = root.getElementsByTagName('caption')
b= bb[2]
print b.nodeName
bb = root.getElementsByTagName('item')
b= bb[1]
print b.nodeName

root.getElementsByTagName('caption') 獲得的是標簽為caption 一組標簽，b[0]表示一組標簽中的第一個；b[2] ，表示這一組標簽中的第三個。
四、獲得標簽屬性值

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<login>和<item>標簽是有屬性的，如何獲得他們的屬性？
復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
itemlist = root.getElementsByTagName('login')
item = itemlist[0]
un=item.getAttribute("username")
print un
pd=item.getAttribute("passwd")
print pd
ii = root.getElementsByTagName('item')
i1 = ii[0]
i=i1.getAttribute("id")
print i
i2 = ii[1]
i=i2.getAttribute("id")
print i

getAttribute方法可以獲得元素的屬性所對應的值。
五、獲得標簽對之間的數據
復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>標簽對之間是有數據的，如何獲得這些數據？
獲得標簽對之間的數據有多種方法，
方法一：

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
cc=dom.getElementsByTagName('caption')
c1=cc[0]
print c1.firstChild.data
c2=cc[1]
print c2.firstChild.data
c3=cc[2]
print c3.firstChild.data

firstChild 屬性返回被選節點的第一個子節點，.data表示獲取該節點人數據。
方法二：

復制代碼代碼如下:

#coding=utf-8
from xml.etree import ElementTree as ET
per=ET.parse('abc.xml')
p=per.findall('./login/item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

p=per.findall('./item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

方法二有點復雜，所引用模塊也與前面的不一樣，findall用於指定在哪一級標簽下開始遍歷。
getchildren方法按照文檔順序返回所有子標簽。並輸出標簽名（child.tag）和標簽的數據（child.text）
其實，方法二的作用不在於此，它核心功能是可以遍歷某一級標簽下的所有子標簽。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：876

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1138

python中的init方法發布：2025-10-20 08:17:33 瀏覽：853

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1012

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：896

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1246

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：465

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：350

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1025

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1005

python處理xml

與python處理xml相關的資訊