用python做网页与html
‘壹’ python网页解析库:用requests-html爬取网页
Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库,我平常也是常用这个库,最近用 Xpath 用得比较多,使用 BeautifulSoup 就不大习惯,很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库,一直没有兴趣看,这回可算歹着机会用一下了。
使用 pip install requests-html 安装,上手和 Reitz 的其他库一样,轻松简单:
这个库是在 requests 库上实现的,r 得到的结果是 Response 对象下面的一个子类,多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作,这个 r 也都可以。如果需要解析网页,直接获取响应对象的 html 属性:
不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类,然后将 requests.Session 类里的 requests 方法改写,返回自己的一个 HTMLResponse 对象,这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例:
之后在 HTMLResponse 里定义属性方法 html,就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析,简化了名称,挺讨巧的。
元素定位可以选择两种方式:
方法名非常简单,符合 Python 优雅的风格,这里不妨对这两种方式简单的说明:
定位到元素以后势必要获取元素里面的内容和属性相关数据,获取文本:
获取元素的属性:
还可以通过模式来匹配对应的内容:
这个功能看起来比较鸡肋,可以深入研究优化一下,说不定能在 github 上混个提交。
除了一些基础操作,这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接,这对于整站爬虫应该是个福音,URL 管理比较方便:
内容页面通常都是分页的,一次抓取不了太多,这个库可以获取分页信息:
结果如下:
通过迭代器实现了智能发现分页,这个迭代器里面会用一个叫 _next 的方法,贴一段源码感受下:
通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页,通常我们的下一页都会通过 下一页 或者 加载更多 来引导,他就是利用这个标志来进行判断。默认的以列表形式存在全局: ['next','more','older'] 。我个人认为这种方式非常不灵活,几乎没有扩展性。 感兴趣的可以往 github 上提交代码优化。
也许是考虑到了现在 js 的一些异步加载,这个库支持 js 运行时,官方说明如下:
使用非常简单,直接调用以下方法:
第一次使用的时候会下载 Chromium,不过国内你懂的,自己想办法去下吧,就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面,滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。
‘贰’ html和Python哪个好学
Html好一点,相对容易上手。
其实两个之间没有直接的可比性,之间的交集比较少;唯一的交集存在于web网页开发中,但是做过web开发的人都知道,在web开发里面两个也是互不相干的:HTML是实现前端的语言,python是实现后端的语言而一个完整的web开发,是前后端都需要的,也就是你需要两个都学。
HTML可以嵌入如javaScript的脚本语言,它们会影响HTML网页的行为。网页浏览器也可以引用层叠样式表(CSS)来定义文本和其它元素的外观与布局。维护HTML和CSS标准的组织万维网联盟(W3C)鼓励人们使用CSS替代一些用于表现的HTML元素。
Python(英国发音:/ˈpaɪθən/美国发音:/ˈpaɪθɑːn/)是一种广泛使用的解释型、高级编程、通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年。Python是ABC语言的后继者,也可以视之为一种使用传统中缀表达式的LISP方言。
Python的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进划分代码块,而非使用大括号或者关键词)。相比于C++或Java,Python让开发者能够用更少的代码表达想法。不管是小型还是大型程序,该语言都试图让程序的结构清晰明了。
‘叁’ 如何用python,html,数据库建一个登陆管理系统
实现该系统需要具备python和数据库相关知识,python的web框架可采用flask,带有数据库连接接口,通过配置数据库链接以及相关接口进行数据操作,可以登录flask查看相关文档手册,进入w3c学习sql相关开发知识。谢谢
‘肆’ 如何用Python做HTML的页面
<html>
<body>
<form>
可获取码列表:
<select
name="liscode">
<option
value="01">123456</option>
<option
value="02">123457</option>
<option
value="03">123458</option>
<option
value="04">123459</option>
<option
value="05">123460</option>
<option
value="06">123461</option>
</select>
<input
type="submit"
value="确认获取"/>
</form>
</body>
</html>
其中所有liscode是从一个txt文档上提取的,当用户点击获取一个的时候,该项即被删除。
如何用python实现呢?
做一个py脚本或exe给用户实现的话大概像下面这样:
Python
code
infile
=
open('codelist.txt','r')
codelist
=
infile.readlines()
used_code
=
codelist[0]
#remove用掉的code(删除行)
codelist.remove(codelist[0])
infile.close()
#重写文件(我不知道是否有能直接删除一行的文件操作方法)
outfile
=
open('codelist.txt','w')
for
code
in
codelist:
outfile.write(code
+
'\n')
outfile.close()
print
used_code
‘伍’ 如何将python代码嵌入html代码中
用Gestalt能够改变现状的Javascript库与Silverlight结合后,它可以让开发者直接在HTML中嵌入Python,在查看站点源代码时,会看到类似这样的代码:
<scriptlanguage="python">
将这句话包含在页面顶部,这就是在着手写Python前所要做的所有准备。它会将内联的Python代码传给Silverlight运行时,该运行时支持Dynamic Language Runtime。
‘陆’ 能不能做一个html页面,然后按钮的功能用python实现
你好 可以的,不过你需要会javascript和AJAX,AJAX可以在不刷新网页的情况下把数据传给后端,你可以通过HTML来定义按钮,然后通过javascript定义按钮事件,然后通过AJAX把数据传给后端,后端用Python处理后在把数据传给前端,如果你对javascript还不是太熟练的话可以使用jQuery这个javascript库,jQuery简化了很多原生javascript复杂的部分。不过如果你需要的功能能在前端实现的话就尽量不要让后端来作,除非是必须要提交数据给后端处理,因为每次提交数据给后端都要耗费一定的时间,如果遇上网络不好的情况体验会比较差。希望我的回答能够帮助到你,如果还有什么疑问可以继续追问。
‘柒’ python和html哪个好
Python和html的区别:
html是一种标记语言,是前端必须懂的一种语言之一。
而Python是作为后端语言的,所以你想学习前端只有一种选择,学html。
对于初学者来说,html和Python上手比较快。
Python目前广泛应用于人工智能,是AI的第一开发语言,有很多网站也是用Python写的。
单单只会html是不能胜任前端这个职位的,还需要学习css和JavaScript才能胜任。
所以学习前端的话html好,学习后端的话Python好。
更多Python知识,请关注:Python自学网!!
‘捌’ Python打开网页并另存为静态html怎么实现
用Python的requests库解决这个问题比较简单,例程如下:
importsys
importrequests
reload(sys)
sys.setdefaultencoding('utf-8')
r=requests.get('xxx网址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()
说明一下,requests库不是Python内置的,不过很流行,很多发行版都带,没带的话就去requests官网去下载,或者用 pip install requests命令安装最新版。
这个程序里在保存文件前,还需要把字符编码设置一下,用的是自带的sys库。