pythonhtml标签

发布时间: 2023-06-29 00:10:37

① python爬虫怎么循环截取html标签中间的内容

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理，提取标签

html = BeautifulSoup(response.text, 'html.parser')

body = html.body # 获取body部分数据

div = body.find("div",{'id','today'}) #用find去找div标签，id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = body.find("input",id='hidden_title')['value']

② python正则表达式去除html标签的属性

importre
test='<pclass="pictext"align="center">陈细妹</p>'
test=re.sub(r'(<[^>s]+)s[^>]+?(>)',r'12',test)
print(test)

③ python 去除html标签的几种方法

python去除html标签的几种方法，代码如下：

#!/usr/bin/python
#-*-coding:utf-8-*-
'''
Createdon2015-07-08
@author:Administrator
'''
importre

classFilterTag():
def__init__(self):
pass
deffilterHtmlTag(self,htmlStr):
'''
过滤html中的标签
:paramhtmlStr:html字符串或是网页源码
'''
self.htmlStr=htmlStr
#先过滤CDATA
re_cdata=re.compile('//]*//]]>',re.I)#匹配CDATA
re_script=re.compile('<s*script[^>]*>[^<]*<s*/s*scripts*>',re.I)#Script
re_style=re.compile('<s*style[^>]*>[^<]*<s*/s*styles*>',re.I)#style
re_br=re.compile('')#处理换行
re_h=re.compile(']*>')#HTML标签
re_comment=re.compile('')#HTML注释
s=re_cdata.sub('',htmlStr)#去掉CDATA
s=re_script.sub('',s)#去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('
',s)#将br转换为换行
blank_line=re.compile('
+')#去掉多余的空行
s=blank_line.sub('
',s)
s=re_h.sub('',s)#去掉HTML标签
s=re_comment.sub('',s)#去掉HTML注释
#去掉多余的空行
blank_line=re.compile('
+')
s=blank_line.sub('
',s)
filterTag=FilterTag()
s=filterTag.replaceCharEntity(s)#替换实体
prints

defreplaceCharEntity(self,htmlStr):
'''
替换html中常用的字符实体
使用正常的字符替换html中特殊的字符实体
可以添加新的字符实体到CHAR_ENTITIES中
CHAR_ENTITIES是一个字典前面是特殊字符实体后面是其对应的正常字符
:paramhtmlStr:
'''
self.htmlStr=htmlStr
CHAR_ENTITIES={'nbsp':'','160':'',
'lt':'<','60':'<',
'gt':'>','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}
re_charEntity=re.compile(r'&#?(?Pw+);')
sz=re_charEntity.search(htmlStr)
whilesz:
entity=sz.group()#entity全称，如>
key=sz.group('name')#去除&;后的字符如（""--->key="nbsp"）去除&;后entity,如>为gt
try:
htmlStr=re_charEntity.sub(CHAR_ENTITIES[key],htmlStr,1)
sz=re_charEntity.search(htmlStr)
exceptKeyError:
#以空串代替
htmlStr=re_charEntity.sub('',htmlStr,1)
sz=re_charEntity.search(htmlStr)
returnhtmlStr

defreplace(self,s,re_exp,repl_string):
returnre_exp.sub(repl_string)


defstrip_tags(self,htmlStr):
'''
使用HTMLParser进行html标签过滤
:paramhtmlStr:
'''
self.htmlStr=htmlStr
htmlStr=htmlStr.strip()
htmlStr=htmlStr.strip("
")
result=[]
parser=HTMLParser()
parser.handle_data=result.append
parser.feed(htmlStr)
parser.close()
return''.join(result)

defstripTagSimple(self,htmlStr):
'''
最简单的过滤html<>标签的方法注意必须是<任意字符>而不能单纯是<>
:paramhtmlStr:
'''
self.htmlStr=htmlStr
#dr=re.compile(r'<[^>]+>',re.S)
dr=re.compile(r']*>',re.S)
htmlStr=re.sub(dr,'',htmlStr)
returnhtmlStr

if__name__=='__main__':
#s=file('Google.html').read()
filters=FilterTag()
printfilters.stripTagSimple("<1>你好")

④ 如何用Python爬取出HTML指定标签内的文本

你好！

可以通过lxml来获取指定标签的内容。

#安装lxml
pipinstalllxml


importrequests
fromlxmlimporthtml

defgetHTMLText(url):
....

etree=html.etree
root=etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr=root.xpath("//div[@class='news-text']/table/tbody/tr");

#循环显示tr里面的内容
fortrintrArr:
rank=tr.xpath("./td[1]/text()")[0]
name=tr.xpath("./td[2]/div/text()")[0]
prov=tr.xpath("./td[3]/text()")[0]
strLen=22-len(name.encode('GBK'))+len(name)
print('排名：{:<3},学校名称：{:<{}}	，省份：{}'.format(rank,name,strLen,prov))

希望对你有帮助！

⑤ python bs4分析html时，怎么找到最底层的某个标签

frombs4importBeautifulSoup
of=open(r'test.html','r')
html_doc=of.readlines()
of.close()
soup=BeautifulSoup('
'.join(html_doc),'html.parser')
printsoup.body.p

<!DOCTYPEhtml>
<html>
<head>
	<title>test</title>
</head>
<body>
	<p>
		<b>xxxxxxxxx</b>
	</p>
	<b>
		<ahref="aasdfd"></a>
		<ahref="aasdfd"></a>
	</b>
</body>
</html>

⑥ python中如何通过关键字查找到指定的HTML标签

可以使用正则表达式的方法

正则表达式：工作职责：</th>s+<td>(.+?)</td>

importre
content="页面内容"
re_1=re.search('工作职责：</th>s+<td>(.+?)</td>',content)
ifre_1:
printre_1.group(1)
else:
print"notfind!"

因为正则表达式有中文所以要保证你的内容与文本是一个编码

⑦ python怎么去除多的HTML标签

不要用soup，去了解一下re，很简单的

阅读全文

热点内容

ie10缓存发布：2025-05-13 23:10:09 浏览：456

安卓手机图标怎么设置提示发布：2025-05-13 23:07:56 浏览：808

香蕉FTP下载发布：2025-05-13 23:07:11 浏览：940

for循环sql语句发布：2025-05-13 22:45:49 浏览：19

python实用代码发布：2025-05-13 22:19:41 浏览：843

dede数据库的配置文件发布：2025-05-13 22:19:08 浏览：970

给字符加密发布：2025-05-13 22:12:32 浏览：975

数据库系统实现答案发布：2025-05-13 22:11:57 浏览：143

哪个软件可以共存安卓发布：2025-05-13 22:10:15 浏览：555

上传宦妃天下野泉肉肉发布：2025-05-13 22:10:10 浏览：411

pythonhtml标签

与pythonhtml标签相关的资讯