python正则匹配html标签
1. python语言,怎么用正则表达式提取HTML标签<h3
importre
text='''<br>
<h3align="center"class="STYLE3">姓名:张三</h3>
<h3align="center"class="STYLE3">2013/6/9</h3>'''
htm=re.findall(r"<h3.*?>.*?</h3>",text)
fortinhtm:
k=re.sub("<h3.*?>","",t)
k=re.sub("</h3>","",k)
print(k.replace("姓名:",""))
2. Python爬虫怎么循环截取html标签中间的内容
如果是中间的数据直接就用bs4最简单
from bs4 import BeautifulSoup
#这里是请求过来的额数据处理,提取标签
html = BeautifulSoup(response.text, 'html.parser')
body = html.body # 获取body部分数据
div = body.find("div",{'id','today'}) #用find去找div标签,id叫 today的标签里面的数据
就可以了
如果要提取标签内容比如value的值
div = body.find("input",id='hidden_title')['value']
3. python 正则 匹配HTML
正确的html闭标签里,是以/开头的,所以网页的源代码不可能是<\/span>,<span class=\"name\">小小少年lala<\/span>\r\n\t里的前三个\是为了在字符串里显示“和/而已,并不是字符串的内容。
网页应该是
<span class="name">小小少年lala</span>\r\n\t
你的正则应该用
p=re.compile('<span class="name">(.*)<\/span>')
4. 用Python正则替换HTML中pre标签里面的特殊符号
一共就7个符号,就写7行替换吧。
用不用正则无所谓,不多。
不用正则也行,网页parse后,innerText输出的就是正常文本,innerHtml输出的才是你说的这种有特殊符号的内容。
5. python怎样使用正则表达式获得html标签数据
正则的话
import re
html = "<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text1</a>abcdef<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text2</a>"
result = map(lambda name: re.sub("<a href=.*?>","",name.strip().replace("</a>","")), re.findall("<a href=.*?>.*?</a>",html))
print result
上面代码会把所有a tag里的东西存在result这个list里面。另外python有个模块叫Beautiful Soup,专门用来处理html的,你有空可以看下
6. python语言,怎么用正则表达式提取HTML标签<h3
你是要提取整个h3标签还是h3标签里面的?
整个h3标签
<h3[^>]*>
h3标签里面的内容,取分组1
<h3([^>]*)>
7. python中如何通过关键字查找到指定的HTML标签
可以使用正则表达式的方法
正则表达式:工作职责:</th>s+<td>(.+?)</td>
importre
content="页面内容"
re_1=re.search('工作职责:</th>s+<td>(.+?)</td>',content)
ifre_1:
printre_1.group(1)
else:
print"notfind!"
因为正则表达式有中文 所以要保证你的内容与文本是一个编码
8. 我想匹配一个html里面所有div的标签,div可能还有样式或id,如果用正则表达式匹配,求高手
简单的操作可以用正则去匹配,但是负责的,你就要重新看待问题?html是dom结构,你完全可以用js操作dom的方法就可以获取所有的div,而且很方便,用正则表达式,多次一举,而且效率不高;用jquery匹配一个页面的所有的div例子:
$(function(){
//就这么一句话,就获取了页面所有的div
var divs = $("div");
});