当前位置:首页 » 编程语言 » elementpython

elementpython

发布时间: 2024-12-01 14:12:50

‘壹’ python lxml etree怎么甩

lxml是Python语言中处理XML和HTML功能最丰富,最易于使用的库。

lxml是libxml2和libxslt两个C库的Python化绑定,它的独特之处在于兼顾了这些库的速度和功能完整性,同时还具有Python API的简介。兼容ElementTree API,但是比它更优越。

用libxml2编程就像是一个异于常人的陌生人的令人惊恐的拥抱,它看上去可以满足你一切疯狂的梦想,但是你的内心深处一直在警告你,你有可能会以最糟糕的方式遭殃,所以就有了lxml。



这是一个用lxml.etree来处理XML的教程,它简单的概述了ElementTree API的主要概念,同时有一些能让你的程序生涯更轻松的简单的提高。


首先是导入lxml.etree的方式:

fromlxmlimportetree

为了协助代码的可移植性,本教程中的例子很明显可以看出,一部分API是lxml.etree在ElementTree API(由Fredrik Lundh 的ElementTree库定义)的基础上的扩展。

Element是ElementTree API的主要容器类,大部分XML tree的功能都是通过这个类来实现的,Element的创建很容易:

root=etree.Element("root")

element的XML tag名通过tag属性来访问

>>>printroot.tag
root



许多Element被组织成一个XML树状结构,创建一个子element并添加进父element使用append方法:

>>>root.append(etree.Element("和耐child1"))



还有一个更简短更有效的方法:the SubElement,它的参数和element一样,但是需要父element作为第一个参数:

>>>child2=etree.SubElement(root,"child2")
>>>child3=etree.SubElement(root,"child3")



可以序列化你创建的树:

>>>print(etree.tostring(root,pretty_print=True))
<root>
<child1/>
<child2/>
<child3/>
</root>



为了更方便直胡棚野观的访问这些子节点,element模仿了正常的Python链:

>>>child=root[0]>>>print(child.tag)
child1
>>>print(len(root))
>>>root.index(root[1])#lxml.etreeonly!
>>>children=list(root)>>>forchildinroot:...print(child.tag)child1child2
child3
>>>root.insert(0,etree.Element("child0"))>>>start裤喊=root[:1]>>>end=root[-1:]>>>print(start[0].tag)child0>>>print(end[0].tag)child3


还可以根据element的真值看其是否有孩子节点:

ifroot:#thisnolongerworks!
print("Therootelementhaschildren")


用len(element)更直观,且不容易出错:

>>>print(etree.iselement(root))#testifit'ssomekindofElement
True
>>>iflen(root):#testifithaschildren
...print("Therootelementhaschildren")
Therootelementhaschildren



还有一个重要的特性,原文的句子只可意会,看例子应该是能看懂什么意思吧。

>>>forchildinroot:...print(child.tag)child0child1child2child3>>>root[0]=root[-1]#移动了element>>>forchildinroot:...print(child.tag)child3child1child2>>>l=[0,1,2,3]>>>l[0]=l[-1]>>>l[3,1,2,3]
>>>rootisroot[0].getparent()#lxml.etreeonly!.etree,'sstandardlibrary:>>>fromimportdeep>>>element=etree.Element("neu")>>>element.append(deep(root[1]))>>>print(element[0].tag)child1>>>print([c.tagforcinroot])['child3','child1','child2']



XML支持属性,创建方式如下:

>>>root=etree.Element("root",interesting="totally")
>>>etree.tostring(root)
b'<rootinteresting="totally"/>'



属性是无序的键值对,所以可以用element类似于字典接口的方式处理:

>>>print(root.get("interesting"))
totally
>>>print(root.get("hello"))
None
>>>root.set("hello","Huhu")
>>>print(root.get("hello"))
Huhu
>>>etree.tostring(root)
b'<rootinteresting="totally"hello="Huhu"/>'
>>>sorted(root.keys())
['hello','interesting']
>>>forname,valueinsorted(root.items()):
...print('%s=%r'%(name,value))
hello='Huhu'
interesting='totally'

如果需要获得一个类似dict的对象,可以使用attrib属性:

>>>attributes=root.attrib
>>>print(attributes["interesting"])
totally
>>>print(attributes.get("no-such-attribute"))
None
>>>attributes["hello"]="GutenTag"
>>>print(attributes["hello"])
GutenTag
>>>print(root.get("hello"))
GutenTag

既然attrib是element本身支持的类似dict的对象,这就意味着任何对element的改变都会影响attrib,反之亦然。这还意味着只要element的任何一个attrib还在使用,XML树就一直在内存中。通过如下方法,可以获得一个独立于XML树的attrib的快照:

>>>d=dict(root.attrib)
>>>sorted(d.items())
[('hello','GutenTag'),('interesting','totally')]

‘贰’ python抓取chrome中element的body内容

您要问的是python抓取chrome中element的body内容的步骤是什么?步骤如下:。安宏基弯装selenium库,可以通过pip命令进行安装,使蔽闷用selenium库打开Chrome浏览器,并进入锋孝目标网站。
1、使用selenium库中的find_element_by_xpath()方法来获取目标element,可以关闭Chrome浏览器,并对获取到的body内容进行处理或存储

‘叁’ python etree element类 实例不能动态增加属性

tree=etree.parse("xxx.xml")
root=tree.getroot()
root.set('myattr',"123")
print(root.attrib)

热点内容
手机上的密码怎么改密码 发布:2025-01-09 00:35:46 浏览:291
电脑联网代理服务器出现问题 发布:2025-01-09 00:29:15 浏览:523
传统的数据存储的管理技术 发布:2025-01-09 00:22:05 浏览:555
python读字节数组 发布:2025-01-09 00:20:36 浏览:482
php关联查询 发布:2025-01-09 00:19:40 浏览:24
android手机终端 发布:2025-01-09 00:14:59 浏览:158
pdf访问被拒绝 发布:2025-01-09 00:10:44 浏览:263
星越l8at什么配置 发布:2025-01-09 00:00:17 浏览:453
vim配置python 发布:2025-01-08 23:59:29 浏览:467
mysql数据库实例名 发布:2025-01-08 23:42:18 浏览:361