pythonre或
A. python中的re可以识别<span>标签吗
方法如下:
rex = r'<a.*? title="(.*?)".*?>.*?</a>'
补充一些正则表达式的知识:
## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”
B. python re 正则匹配某类字符前的所有字符(不包括该类字符)
首先,“匹配除2012这个字符串以外的任意字符?”语义不明,你是想将其从原字符串中删除还是要匹配2012以外的年份?
姑且认为你的意思是后者,也即在一个特定模式里排除某些匹配的实例。
方法一、先预处理,将要匹配的字符串里的2012替换成不可能出现的字符串,然后再进行匹配处理,最后再将其替换回2012。
方法二、使用不匹配的前向断言 (?! ...):
import re
s = '....<b>0033<b> <b>1033<b> <b>2012<b> <b>2033<b> <b>2043<b> <b>3033<b>.....'
p = re.compile('<b>(?!2012)[0-9]{4}<b>')
for m in re.finditer(p, s):
print m.group()
可以匹配出
<b>0033<b>
<b>1033<b>
<b>2033<b>
<b>2043<b>
<b>3033<b>
而没有'<b>2012<b>'
C. python的re,正则表达式,可以用中文么
解决了>>>
a='中文'>>>
a'\xd6\xd0\xce\xc4'>>>
import
re>>>
mytestre=re.compile('\xd6\xd0\xce\xc4')>>>
b='中文asdf223中文ss'>>>
mytestre.sub('zw',b)'zwasdf223zwss'>>>复制代码关键是要找到中文相应coding对应的编码,这里中文='\xd6\xd0\xce\xc4'所以,就用\xd6\xd0\xce\xc4代替中文就可以了,如果是其他编码,也用类似的方法找到编码的字符串就可以了,没测试过,应该是这样的。哈哈。:mrgreen:
D. python3 re模块怎么抓取中文类型
Python的re模块里没有直接匹配中文的属性或者方法。
不过可以用re.findall+()来匹配,但是如果数据里面有中英文,那么就得再次匹配了。
例:
test = '<html><head>网络</head></html>'
cont = re.findall(r'<ht.*?head>(.*?)</hea',test)
print(cont)
E. python中re遇见空格或者换行应该怎么写规则
一般用\s*或者\s+表示
F. python如何安装re库
re库是Python关于正则表达式的一个内置模块,使用时无需下载,直接import即可。我们首先来看看re.py自己头部的注释是如何描述自己的:
这个模块提供与Perl语言中类似的正则表达式匹配操作,支持bytes和unicode两种格式的字符串,处理的字符串可以包含空字符以及超出ASCII码范围的字符(比如中文字符)。
正则表达式中既有'A'、'a'这种就代表自身的一般字符,又有一些具有特定含义的特殊字符,如|、(等。特殊字符既可以作为一个单纯的值表示它自身,也可以影响它周边1的正则表达式的解释。
re库中还包含一些特殊的字符序列,由\和一个字符组成的特殊序列在下表列出,如果\之后的字符不在下列表格中,正则表达式将会匹配字符本身,如\c匹配的就是字符c本身。我们发现如果 \小写字母 代表了某一含义,那么对应的 \大写字母 常常代表它的补集。
G. Python re匹配
按照你的要求编写匹配英文字典的Python3程序如下
importre
s='400buy买DIRECTION&PREPOSITION方向介词490something某物 446beside在……旁边401arrive到达 491every每个 402come来447above在……上面 ANIMALS动物 403hurt伤;刺痛448below在……下面 492chicken鸡'
regex=r'([0-9]+s+[A-Za-z_-]+s+(在……[u4e00-u9fa5]+|S+))'
result=re.findall(regex,s)
foriinresult:
print(i[0])
源代码(注意源代码的缩进)
H. python re :的意思
不捕获分组的意思,整个正则表达式的意思是abc的至少一次的组合(+是贪婪匹配,尽量多组,题目中结果共9个字母)。如果不加?:则所有abc(3个字母)都被放在结果里。
I. 用python中re正则化处理HTML
用replace函数,先把<style>。。。</style>等不需要的的内容替换为空
再使用正则提取。
或者使用正则,只提取
<p>...</p>之间的内容
J. 关于python re模块的一些问题 不是太难 但匹配不出来
你的python正则表达式缺少行首标识符^和行尾标识符$,这样.*?才能知道匹配到什么位置为止,所以加上^和$才能让.*?匹配出687471686,完整的Python3程序如下
#!/usr/bin/python3importrea='//mm.taobao.com/self/model_card.htm?user_id=687471686'
ids=re.compile('^.*??user_id=(.*?)$').findall(a)
print(ids)
运行结果
['687471686']