pythonhtml解析

发布时间: 2022-09-24 02:30:30

A. python怎么安装lxml html 解析器

lxml是Python中与XML及HTML相关功能中最丰富和最容易使用的库。lxml并不是Python自带的包，而是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些库的速度和功能完整性，以及纯Python API的简洁性，与大家熟知的ElementTree API兼容但比之更优越！但安装lxml却又有点麻烦，因为存在依赖，直接安装的话用easy_install, pip都不能成功，会报gcc错误。下面列出来Windows、Linux下面的安装方法:
【Windows系统】
先确保Python已经安装好，环境变量也配置好了，相应的的easy_install、pip也安装好了.
1. 执行 pip install virtualenv
[python] view plain print?
C:\>pip install virtualenv
Requirement already satisfied (use --upgrade to upgrade): virtualenv in c:\python27\lib\site-package
s\virtualenv-12.0.4-py2.7.egg
2. 从官方网站下载与系统，Python版本匹配的lxml文件：
http //pypi.python.org/pypi/lxml/2.3/
NOTE:
比如说我的电脑是Python 2.7.4, 64位操作系统，那么我就可以下载
[python] view plain print?
lxml-2.3-py2.7-win-amd64.egg (md5) # Python Egg
或
lxml-2.3.win-amd64-py2.7.exe (md5) # MS Windows installer
3. 执行 easy_install lxml-2.3-py2.7-win-amd64.egg
[python] view plain print?
D:\Downloads>easy_install lxml-2.3-py2.7-win-amd64.egg # 进入该文件所在目录执行该命令
Processing lxml-2.3-py2.7-win-amd64.egg
creating c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Extracting lxml-2.3-py2.7-win-amd64.egg to c:\python27\lib\site-packages
Adding lxml 2.3 to easy-install.pth file
Installed c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Processing dependencies for lxml==2.3
Finished processing dependencies for lxml==2.3
NOTE:
1. 可用exe可执行文件，方法更简单直接安装就可以
2. 可用easy_install安装方式，也可以用pip的方式
[python] view plain print?
#再执行下，就安装成功了！
>>> import lxml
>>>
3. 如用pip安装，常用命令就是:
pip install simplejson # 安装Python包
pip install --upgrade simplejson # 升级Python包
pip uninstall simplejson # 卸载Python包
4. 如用Eclipse+Pydev的开发方式，需要移除旧包，重新加载一次
Window --> Preferences --> PyDev --> Interperter-python # 否则导包的时候会报错
【Linux系统】
因为lxml依赖的包如下:
libxml2, libxml2-devel, libxlst, libxlst-devel, python-libxml2, python-libxslt
所以安装步骤如下:
第一步: 安装 libxml2
$ sudo apt-get install libxml2 libxml2-dev
第二步: 安装 libxslt
$ sudo apt-get install libxlst libxslt-dev
第三步: 安装 python-libxml2 和 python-libxslt
$ sudo apt-get install python-libxml2 python-libxslt
第四步: 安装 lxml
$ sudo easy_install lxml

B. Python自带的HTMLParser解析HTML时，怎么把取出Form下所有是hidden的input

HTMLParser好像不是个很好的解决方案吧，他本来就有很多缺陷，而且他也是基于正则匹配的。

你还不如自己写个正则匹配去匹配所有input，type是hidden的。

要么就用Beautiful Soup，这个也不用安装，直接用就可以了。

C. Python编写一个程序以尝试解析XML/HTML标签.

要给这段文字添加一个 root 标签，然后对里面的 node 进行遍历。root 标签的名字可以任意定（但是必须添加一个），我这里使用的 root 命名，对于其它的名字也一样。如果你是直接读取的 XML 文件，而不是字符串，可以将文件打开，然后把文件句柄传入 ElementTree.parse() 函数，最后对其返回值进行遍历。

fromxml.etreeimportElementTree
parsed=ElementTree.XML('''<root>
<composer>WolfgangAmadeusMozart</composer><author>SamuelBeckett</author><city>London</city>
</root>''')
outstr=[]
fornodeinparsed:
outstr+=['%s:%s'%(node.tag,node.text)]
print(''.join(outstr))

D. python 解析html 什么包好

对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。
HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：
handle_startendtag 处理开始标签和结束标签
handle_starttag 处理开始标签，比如<xx> tag不区分大小写

handle_endtag 处理结束标签，比如</xx>
handle_charref 处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref 处理一些特殊字符，以&开头的，比如
handle_data 处理数据，就是<xx>data</xx>中间的那些数据
handle_comment 处理注释
handle_decl 处理<!开头的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
handle_pi 处理形如<?instruction>的东西
def handle_starttag(self,tag,attr):
#注意：tag不区分大小写，此时也可以解析 <A 标签
# SGMLParser 会在创建attrs 时将属性名转化为小写。

if tag=='a':
for href,link in attr:
if href.lower()=="href":
pass

1. 基本解析，找到开始和结束标签

[python] view plain
<span style="font-size:18px;">#coding:utf-8

from HTMLParser import HTMLParser
'''''
HTMLParser的成员函数:

handle_startendtag 处理开始标签和结束标签
handle_starttag 处理开始标签，比如<xx>
handle_endtag 处理结束标签，比如</xx>
handle_charref 处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref 处理一些特殊字符，以&开头的，比如
handle_data 处理数据，就是<xx>data</xx>中间的那些数据
handle_comment 处理注释
handle_decl 处理<!开头的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
handle_pi 处理形如<?instruction>的东西

'''
class myHtmlParser(HTMLParser):
#处理<!开头的内容
def handle_decl(self,decl):
print 'Encounter some declaration:'+ decl
def handle_starttag(self,tag,attrs):
print 'Encounter the beginning of a %s tag' % tag
def handle_endtag(self,tag):
print 'Encounter the end of a %s tag' % tag
#处理注释
def handle_comment(self,comment):
print 'Encounter some comments:' + comment

if __name__=='__main__':
a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\
<html><head><title>test</title><body><a href="http: //www.163.com">链接到163</a></body></html>'
m=myHtmlParser()
m.feed(a)
m.close()

输出结果：

Encounter some declaration:DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
Encounter the beginning of a html tag
Encounter the beginning of a head tag
Encounter some comments:insert javaScript here!
Encounter the beginning of a title tag
Encounter the end of a title tag
Encounter the beginning of a body tag
Encounter the beginning of a a tag
Encounter the end of a a tag
Encounter the end of a body tag
Encounter the end of a html tag</span>

E. python 对html解析时怎么判断标签内的标签是否存在然后获取父标签

想不到好办法。
exp=re.compile("(?is)<a\s+href=\"([^\"]+)\"[^>]*>(?:(?:</em>)|(?:</a>))(?<=<em>[^<]+)"
试试这个。

F. Python html 模块简介

比如：

比如，数学符号，，可以直接获得：

escape 将特殊字符＆， < 和 > 替换为HTML安全序列。如果可选的 flags quote 为 True （默认值），则还会翻译引号字符，包括双引号（ " ）和单引号（ ' ）字符。

将字符串 s 中的所有命名和数字字符引用 (例如 > , > , > ) 转换为相应的 Unicode 字符。此函数使用 HTML 5 标准为有效和无效字符引用定义的规则，以及 HTML 5 命名字符引用列表。

这个模块定义了一个 HTMLParser 类，为 HTML（超文本标记语言）和 XHTML 文本文件解析提供基础。

class html.parser.HTMLParser(*, convert_charrefs=True) 创建一个能解析无效标记的解析器实例。查找标签（tags）和其他标记（markup）并调用 handler 函数。

用法：

通过调用 self.handle_starttag 处理开始标签，或通过调用 self.handle_startendtag 处理结束标签。标签之间的数据通过以 data 为参数调用 self.handle_data 从解析器传递到派生类（数据可以分成任意块）。如果 convert_charrefs 为 True ，则将字符引用自动转换为相应的 Unicode 字符（并且 self.handle_data 不再拆分成块），否则通过调用带有字符串的 self.handle_entityref 或 self.handle_charref 来传递它们以分别包含命名或数字引用作为参数。如果 convert_charrefs 为 True (默认值)，则所有字符引用( script / style 元素中的除外)都会自动转换为相应的 Unicode 字符。

一个 HTMLParser 类的实例用来接受 HTML 数据，并在标记开始、标记结束、文本、注释和其他元素标记出现的时候调用对应的方法。要实现具体的行为，请使用 HTMLParser 的子类并重载其方法。

这个解析器不检查结束标记是否与开始标记匹配，也不会因外层元素完毕而隐式关闭了的元素引发结束标记处理。

下面是简单的 HTML 解析器的一个基本示例，使用 HTMLParser 类，当遇到开始标记、结束标记以及数据的时候将内容打印出来。

输出：

HTMLParser.reset() 重置实例。丢失所有未处理的数据。在实例化阶段被隐式调用。

HTMLParser.feed(data) 填充一些文本到解析器中。如果包含完整的元素，则被处理；如果数据不完整，将被缓冲直到更多的数据被填充，或者 close() 被调用。 data 必须为 str 类型。

HTMLParser.close() 如同后面跟着一个文件结束标记一样，强制处理所有缓冲数据。这个方法能被派生类重新定义，用于在输入的末尾定义附加处理，但是重定义的版本应当始终调用基类 HTMLParser 的 close() 方法。

HTMLParser.getpos() 返回当前行号和偏移值。

HTMLParser.get_starttag_text() 返回最近打开的开始标记中的文本。结构化处理时通常应该不需要这个，但在处理“已部署”的 HTML 或是在以最小改变来重新生成输入时可能会有用处（例如可以保留属性间的空格等）。

下列方法将在遇到数据或者标记元素的时候被调用。他们需要在子类中重载。基类的实现中没有任何实际操作（除了 handle_startendtag() ）：

HTMLParser.handle_starttag 这个方法在标签开始的时候被调用（例如： <div id="main"> ）。 tag 参数是小写的标签名。 attrs 参数是一个 (name, value) 形式的列表，包含了所有在标记的 <> 括号中找到的属性。 name 转换为小写， value 的引号被去除，字符和实体引用都会被替换。比如，对于标签 <a href="https://www.cwi.nl/"> ，这个方法将以下列形式被调用 handle_starttag('a', [('href', 'https://www.cwi.nl/')]) 。 html.entities 中的所有实体引用，会被替换为属性值。

HTMLParser.handle_endtag(tag) 此方法被用来处理元素的结束标记（例如： </div> ）。 tag 参数是小写的标签名。

HTMLParser.handle_startendtag(tag, attrs) 类似于 handle_starttag() , 只是在解析器遇到 XHTML 样式的空标记时被调用（ <tag ... /> ）。这个方法能被需要这种特殊词法信息的子类重载；默认实现仅简单调用 handle_starttag() 和 handle_endtag() 。

HTMLParser.handle_data(data) 这个方法被用来处理任意数据（例如：文本节点和 <script>...</script> 以及 <style>...</style> 中的内容）。

HTMLParser.handle_entityref(name) 这个方法被用于处理 &name; 形式的命名字符引用（例如 > ），其中 name 是通用的实体引用（例如： 'gt' ）。如果 convert_charrefs 为 True，该方法永远不会被调用。

HTMLParser.handle_charref(name) 这个方法被用来处理 &#NNN; 和 &#xNNN; 形式的十进制和十六进制字符引用。例如， > 等效的十进制形式为 > ，而十六进制形式为 > ；在这种情况下，方法将收到 '62' 或 'x3E' 。如果 convert_charrefs 为 True ，则该方法永远不会被调用。

HTMLParser.handle_comment(data) 这个方法在遇到注释的时候被调用（例如：）。例如，这个注释会用 ' comment ' 作为参数调用此方法。

Internet Explorer 条件注释（condcoms）的内容也被发送到这个方法，因此，对于 ``，这个方法将接收到 '[if IE 9]>IE9-specific content<![endif]' 。

HTMLParser.handle_decl(decl) 这个方法用来处理 HTML doctype 申明（例如 <!DOCTYPE html> ）。 decl 形参为 <!...> 标记中的所有内容（例如： 'DOCTYPE html' ）。

HTMLParser.handle_pi(data) 此方法在遇到处理指令的时候被调用。 data 形参将包含整个处理指令。例如，对于处理指令 <?proc color='red'> ，这个方法将以 handle_pi("proc color='red'") 形式被调用。它旨在被派生类重载；基类实现中无任何实际操作。

注解： HTMLParser 类使用 SGML 语法规则处理指令。使用 '?' 结尾的 XHTML 处理指令将导致 '?' 包含在 data 中。

HTMLParser.unknown_decl(data) 当解析器读到无法识别的声明时，此方法被调用。 data 形参为 <![...]> 标记中的所有内容。某些时候对派生类的重载很有用。基类实现中无任何实际操作。

因此，我们可以如此定义：

下面介绍如何解析 HTML 文档。

解析一个文档类型声明：

解析一个具有一些属性和标题的元素：

script 和 style 元素中的内容原样返回，无需进一步解析：

解析注释：

解析命名或数字形式的字符引用，并把他们转换到正确的字符（注意：这 3 种转义都是 '>' ）：

填充不完整的块给 feed() 执行， handle_data() 可能会多次调用（除非 convert_charrefs 被设置为 True ）：

解析无效的 HTML (例如：未引用的属性）也能正常运行：

G. Python解析html出错

自然是文件编码的问题，文件读取utf-8格式，建议使用codecs模块,不用安装，直接import就行，使用fp = codecs.open(filename,'r','utf-8')读取utf-8编码文件，python自带的open是默认gbk的。此外，建议文件都使用utf-8格式，gbk实在是windows的遗留问题，utf-8本来可以一统天下，就是windows一直不改，才使得windows下文件编码一直很麻烦。

H. python解析html时解析不到不到网页源码中script下面的信息

import re
s= '<script>var j,l; </script>'
m = re.search("<script>(.*?)</script>", s)
print m.group(1)
>>>
var j,l;
>>>

I. python 对HTML解码时出错

>>> import urllib.request
>>> response = urllib.request.urlopen('h)
>>> html = response.read()
>>> print(html.decode('utf-8'))

J. python使用BeautifulSoup解析html出现的问题

用这两个参数：findAll('div',{'class':'content'})

阅读全文

热点内容

创建边界缓存错误是啥发布：2025-01-10 12:04:26 浏览：570

我的世界畸变生存服务器发布：2025-01-10 12:02:51 浏览：156

长安unit卓越版有哪些配置发布：2025-01-10 11:25:25 浏览：100

python安装后怎么打开发布：2025-01-10 11:08:35 浏览：872

phpjava架构发布：2025-01-10 10:56:06 浏览：385

python二维排序发布：2025-01-10 10:56:00 浏览：608

南水北调怎么配置发布：2025-01-10 10:55:27 浏览：122

广数980系统参数密码是多少发布：2025-01-10 10:55:25 浏览：577

androidhtml字体发布：2025-01-10 10:55:01 浏览：787

数据库连接工厂模式发布：2025-01-10 10:51:00 浏览：488

pythonhtml解析

与pythonhtml解析相关的资讯