python网页解析

发布时间: 2024-09-06 03:15:38

1. python网页解析库：用requests-html爬取网页

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html 安装，上手和 Reitz 的其他库一样，轻松简单：

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

之后在 HTMLResponse 里定义属性方法 html，就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析，简化了名称，挺讨巧的。

元素定位可以选择两种方式：

方法名非常简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：

定位到元素以后势必要获取元素里面的内容和属性相关数据，获取文本：

获取元素的属性：

还可以通过模式来匹配对应的内容：

这个功能看起来比较鸡肋，可以深入研究优化一下，说不定能在 github 上混个提交。

除了一些基础操作，这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接，这对于整站爬虫应该是个福音，URL 管理比较方便：

内容页面通常都是分页的，一次抓取不了太多，这个库可以获取分页信息：

结果如下：

通过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感受下：

通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页，通常我们的下一页都会通过下一页或者加载更多来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局： ['next','more','older'] 。我个人认为这种方式非常不灵活，几乎没有扩展性。 感兴趣的可以往 github 上提交代码优化。

也许是考虑到了现在 js 的一些异步加载，这个库支持 js 运行时，官方说明如下：

使用非常简单，直接调用以下方法：

第一次使用的时候会下载 Chromium，不过国内你懂的，自己想办法去下吧，就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面，滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。

2. Python解析库lxml与xpath用法总结

本文主要围绕以xpath和lxml库进行展开：

一、xpath 概念、xpath节点、xpath语法、xpath轴、xpath运算符

二、lxml的安装、lxml的使用、lxml案例

一、xpath

1.xpath概念

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航。XPath 包含一个标准函数库。XPath 是 XSLT 中的主要元素。XPath 是一个 W3C 标准。

2.xpath节点

xpath有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。

节点关系：父、子、兄弟、先辈、后辈。

3.xpath语法

xpath语法在W3c网站上有详细的介绍，这里截取部分知识，供大家学习。

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

XPath 通配符可用来选取未知的 XML 元素。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

通过在路径表达式中使用"|"运算符，您可以选取若干个路径。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

4.xpath 轴

轴可定义相对于当前节点的节点集。

5.xpath运算符

下面列出了可用在 XPath 表达式中的运算符：

好了，xpath的内容就这么多了。接下来我们要介绍一个神器lxml，他的速度很快，曾经一直是我使用beautifulsoup时最钟爱的解析器，没有之一，因为他的速度的确比其他的html.parser 和html5lib快了许多。

二、lxml

1.lxml安装

lxml 是一个xpath格式解析模块，安装很方便，直接pip install lxml 或者easy_install lxml即可。

2.lxml 使用

lxml提供了两种解析网页的方式，一种是你解析自己写的离线网页时，另一种则是解析线上网页。

导入包：

1.解析离线网页：

2.解析在线网页：

那么我们怎么获取这些标签和标签对应的属性值了，很简单，首先获取标签只需你这样做：

然后我们可以，比方说，你要获取a标签内的文本和它的属性href所对应的值，有两种方法，

1.表达式内获取

2.表达式外获取

这样就完成了获取，怎么样，是不是很简单了，哈哈哈。

下面再来lxml的解析规则：

3.lxml案例

为了偷懒，我决定还是采用urllib那篇文章的代码，哈哈哈，机智如我。

3. python如何爬虫

python爬虫，需要安装必要的库、抓取网页数据、解析HTML、存储数据、循环抓取。

1、安装必要的库

为了编写爬虫，你需要安装一些Python库，例如requests、BeautifulSoup和lxml等。你可以使用pip install命令来安装这些库。

4. 【Python爬虫】分析网页真实请求

1、抓取网页、分析请求
2、解析网页、寻找数据
3、储存数据、多页处理

翻页有规律：
很多网址在第一页时并没有变化，多翻下一页后规律就出来，比如豆瓣第一页和豆瓣第三页

发现start为40，limit=20，所以猜测start=0就是第一页，每页显示20条数据，对于第三页显示的参数可以一个个删除验证，可以减去不必要的参数， 但是删除前一定要做好数据的对比

（1） 文本框输入后产生一个请求，如常见的登录、注册页面
Referer：表示当前请求的来源
Request URL：表示实际请求地址

翻页后URL不变，该如何寻找请求？
如： http://www.zkh360.com/zkh_catalog/3.html

通过对比可以发现网站是通过pageIndex参数控制翻页的，？表示连接

接下来用抓包工具分析下，从第四页开始看URL就知道了，但是前面几面需要查看请求的参数，这里偏多，就切换到【Inspectors--Webforms】选项，看的比较直观

类似的网站还有今日头条，有兴趣的朋友可以去研究下
（可通过获取max_behot_time的值而改变as和cp）

阅读全文

热点内容

企业文档存储管理系统发布：2025-04-05 12:21:20 浏览：745

php计算字符串发布：2025-04-05 12:09:45 浏览：703

安卓版快手实验室在哪里发布：2025-04-05 11:59:15 浏览：558

系统文件夹加密发布：2025-04-05 11:55:17 浏览：171

python获取坐标发布：2025-04-05 11:49:44 浏览：937

excel2003加密方法发布：2025-04-05 11:32:30 浏览：851

公司路由器地址改变服务器地址发布：2025-04-05 11:32:27 浏览：500

帝豪第四代豪华型有哪些配置发布：2025-04-05 11:31:41 浏览：13

玩和平精英的时候服务器发呆了怎么办发布：2025-04-05 11:02:40 浏览：382

怎么把苹果的号转到安卓手机上发布：2025-04-05 10:39:05 浏览：535

python网页解析

与python网页解析相关的资讯