当前位置:首页 » 编程语言 » python正则匹配html标签

python正则匹配html标签

发布时间: 2023-02-19 08:32:20

1. python语言,怎么用正则表达式提取HTML标签<h3

importre
text='''<br>
<h3align="center"class="STYLE3">姓名:张三</h3>
<h3align="center"class="STYLE3">2013/6/9</h3>'''
htm=re.findall(r"<h3.*?>.*?</h3>",text)
fortinhtm:
k=re.sub("<h3.*?>","",t)
k=re.sub("</h3>","",k)
print(k.replace("姓名:",""))

2. Python爬虫怎么循环截取html标签中间的内容

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理,提取标签

html = BeautifulSoup(response.text, 'html.parser')

body = html.body # 获取body部分数据

div = body.find("div",{'id','today'}) #用find去找div标签,id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = body.find("input",id='hidden_title')['value']

3. python 正则 匹配HTML

正确的html闭标签里,是以/开头的,所以网页的源代码不可能是<\/span>,<span class=\"name\">小小少年lala<\/span>\r\n\t里的前三个\是为了在字符串里显示“和/而已,并不是字符串的内容。

网页应该是
<span class="name">小小少年lala</span>\r\n\t

你的正则应该用
p=re.compile('<span class="name">(.*)<\/span>')

4. 用Python正则替换HTML中pre标签里面的特殊符号

一共就7个符号,就写7行替换吧。

用不用正则无所谓,不多。

不用正则也行,网页parse后,innerText输出的就是正常文本,innerHtml输出的才是你说的这种有特殊符号的内容。

5. python怎样使用正则表达式获得html标签数据

正则的话
import re
html = "<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text1</a>abcdef<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text2</a>"
result = map(lambda name: re.sub("<a href=.*?>","",name.strip().replace("</a>","")), re.findall("<a href=.*?>.*?</a>",html))
print result
上面代码会把所有a tag里的东西存在result这个list里面。另外python有个模块叫Beautiful Soup,专门用来处理html的,你有空可以看下

6. python语言,怎么用正则表达式提取HTML标签<h3

你是要提取整个h3标签还是h3标签里面的?

整个h3标签
<h3[^>]*>
h3标签里面的内容,取分组1
<h3([^>]*)>

7. python中如何通过关键字查找到指定的HTML标签

可以使用正则表达式的方法

正则表达式:工作职责:</th>s+<td>(.+?)</td>


importre
content="页面内容"
re_1=re.search('工作职责:</th>s+<td>(.+?)</td>',content)
ifre_1:
printre_1.group(1)
else:
print"notfind!"

因为正则表达式有中文 所以要保证你的内容与文本是一个编码

8. 我想匹配一个html里面所有div的标签,div可能还有样式或id,如果用正则表达式匹配,求高手

简单的操作可以用正则去匹配,但是负责的,你就要重新看待问题?html是dom结构,你完全可以用js操作dom的方法就可以获取所有的div,而且很方便,用正则表达式,多次一举,而且效率不高;用jquery匹配一个页面的所有的div例子:
$(function(){
//就这么一句话,就获取了页面所有的div
var divs = $("div");
});

热点内容
u盘免费加密 发布:2024-11-08 07:34:51 浏览:351
英雄联盟登录密码在哪里修改 发布:2024-11-08 07:25:16 浏览:515
努比亚有没有免费云存储 发布:2024-11-08 07:08:18 浏览:569
主机什么配置可以打绝地求生 发布:2024-11-08 07:08:18 浏览:988
方舟手游如何请入火影服务器 发布:2024-11-08 07:05:57 浏览:311
ip6根服务器最新消息 发布:2024-11-08 07:05:56 浏览:334
探探存储的图片在哪里找 发布:2024-11-08 07:04:32 浏览:224
slp用什么编译器 发布:2024-11-08 07:04:16 浏览:413
三一重工天泵参数密码是什么 发布:2024-11-08 06:59:45 浏览:660
攻击服务器数据库 发布:2024-11-08 06:45:57 浏览:909