编译正则表达式
⑴ 正则表达式方法
正则表达式: 使用单个字符串来描述、匹配一系列·符合·某个句法规则的字符串搜索模式。
语法: /正则表达式主体/修饰符
修饰符: i表示执行对大小写不敏感的匹配。g表示执行全局匹配(查找所有匹配而非在找到第一个匹配后停止)。m表示执行多行匹配。
1.search()方法,用于检索指定字符串的子字符串,并返回子字符串的起始位置。
语法:str.search(regexp);
例如: 使用正则表达式搜索 "Runoob" 字符串,且不区分大小写:
2.replace()方法,用在字符串中的一些字符替换另一些字符,或替换与正则表达式匹配的字符串。
语法:str.replace(regexp);
例如: 使用正则表达式且不区分大小写将字符串中的 Microsoft 替换为 Runoob :
3.match()方法,可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配,并以数组形式返回匹配结果。
语法:str.match(regexp);
例如: 使用正则表达式且不区分大小写将全文字符串中的here查找出来 :
4.split()方法,用于把一个字符串分割成字符串数组。
语法:str.split(separator,limit); separator为字符串或正则表达式,limit指定返回数组的最大长度。
例如:
RegExp对象是一个预定义了属性和方法的正则表达式对象。
语法:var patt = new RegExp(pattern,modifiers); 或 var patt = /pattern/modifiers;
pttern为表达式,modifiers为修饰符用于指定全局匹配g,区分大小写i,和多行比配m。
1.test()方法,用于检测字符是否匹配某个模式,有则返回true,否则返回false。
语法:patt.test(str)
例如: 搜索字符串中的字符 "e":
2.exec()方法,用于检索字符串中是否有正则表达式的匹配值,有则返回匹配值,否则返回null。
语法:patt.exec(str)
例如:
3.compile()方法,用于在脚本执行过程中编译正则表达式,也可用于改变和重新编译正则表达式。
语法:patt.compile(regexp,modifier)
例如:
例题
1.给定字符串 str,检查其是否符合如下格式:XXX-XXX-XXXX,其中 X 为 Number 类型。
解析 :开头^和结尾$必须加上来限定字符串,3个数可表示为d{3},4个数则为d{4},{n}表示前面内容出现的次数。
2.给定字符串 str,检查其是否包含 连续3个数字 ,如果包含,返回最新出现的 3 个数字的字符串,如果不包含,返回 false。
解析 :match()返回的是正则表达式匹配的字符串数组,连续的三个任意数字用正则表达式表示为/d{3}/。
3.给定字符串 str,检查其是否符合美元书写格式:以 $ 开始;整数部分,从个位起,满 3 个数字用 , 分隔;如果为小数,则小数部分长度为2;正确的格式如:$1,023,032.03 或者 $2.03,错误的格式如:$3,432,12.12 或者 $34,344.3。
解析 :开头必是 表示结尾,需要进行转义,因此开头为^$;
然后dollar符后必然接数字,并且最少一位,最多三位数,可用{m,n}表示,最少m位,最多n位,因此此段为d{1,3};
接着,后面如还有数,则必然有,分隔,并且后面必有3个数,类似于,XXX的格式会出现0或者n次,因此此段可表示为(,d{3})*;
最后,如有小数部分,则注意对小数点进行转义,此段可表示为(.d{2})?;
使用test方法去检测str
⑵ java中的正则表达式跟编译原理有什么联系
首先,正则表达式不仅在Java里有,其它语言里面也有,它是一个数学上的概念,各个语言中的正则表达式是它的不同形式的实现。
其次,编译原理的词法分析里,会用到正则表达式去匹配源程序中的各种token(记号),比如说
int a = 8;
里识别出:
类型名:int
变量名:a
运算符:=
数字:8
结尾分号:;
总之,二者有联系,但不是一回事。
⑶ 正则表达式怎么编写
<%
Function RegExpTest(patrn, strng)
Dim regEx, Match, Matches '建立变量。
Set regEx = New RegExp '建立正则表达式。
regEx.Pattern = patrn '设置模式。
regEx.IgnoreCase = True '设置是否区分字符大小写。
regEx.Global = True '设置全局可用性。
Set Matches = regEx.Execute(strng) '执行搜索。
For Each Match in Matches '遍历匹配集合。
RetStr = RetStr & "Match found at position "
RetStr = RetStr & Match.FirstIndex & ". Match Value is '"
RetStr = RetStr & Match.Value & "'." & "<BR>"
Next
RegExpTest = RetStr
End Function
response.write RegExpTest("[ij]s.", "IS1 Js2 IS3 is4")
%>
在这个例子中,我们查找字符串中有无is或者js这两个词,忽略大小写。运行的结果如下:
Match found at position 0. Match Value is 'IS1'.
Match found at position 4. Match Value is 'Js2'.
Match found at position 8. Match Value is 'IS3'.
Match found at position 12. Match Value is 'is4'.
下面我们就介绍这三个对象和集合。
1、RegExp对象是最重要的一个对象,它有几个属性,其中:
○Global 属性,设置或返回一个 Boolean 值,该值指明在整个搜索字符串时模式是全部匹配还是只匹配第一个。如果搜索应用于整个字符串,Global 属性的值为 True,否则其值为 False。默认的设置为 False。
○IgnoreCase 属性,设置或返回一个Boolean值,指明模式搜索是否区分大小写。如果搜索是区分大小写的,则 IgnoreCase 属性为 False;否则为 True。缺省值为 False。
○Pattern 属性,设置或返回被搜索的正则表达式模式。必选项。总是一个 RegExp 对象变量。
2、Match 对象
匹配搜索的结果是存放在Match对象中,提供了对正则表达式匹配的只读属性的访问。 Match 对象只能通过 RegExp 对象的 Execute 方法来创建,该方法实际上返回了 Match 对象的集合。所有的 Match 对象属性都是只读的。在执行正则表达式时,可能产生零个或多个 Match 对象。每个 Match 对象提供了被正则表达式搜索找到的字符串的访问、字符串的长度,以及找到匹配的索引位置等。
○FirstIndex 属性,返回在搜索字符串中匹配的位置。FirstIndex 属性使用从零起算的偏移量,该偏移量是相对于搜索字符串的起始位置而言的。换言之,字符串中的第一个字符被标识为字符 0
○Length 属性,返回在字符串搜索中找到的匹配的长度。
○Value 属性,返回在一个搜索字符串中找到的匹配的值或文本。
3、Matches 集合
正则表达式 Match 对象的集合。Matches 集合中包含若干独立的 Match 对象,只能使用 RegExp 对象的 Execute 方法来创建之。与独立的 Match 对象属性相同,Matches `集合的一个属性是只读的。在执行正则表达式时,可能产生零个或多个 Match 对象。每个 Match 对象都提供了与正则表达式匹配的字符串的访问入口、字符串的长度,以及标识匹配位置的索引。
学习了这三个对象和集合,如何应用于字符串的判断和替换呢?regExp对象的三个方法正好解决了这个问题,它们是Replace方法、Test方法和Execute方法。
1、Replace 方法
替换在正则表达式查找中找到的文本。我们还是先看个例子:下面的例子说明了 Replace 方法的用法。
<%
Function ReplaceTest(patrn, replStr)
Dim regEx, str1 ' 建立变量。
str1 = "The quick brown fox jumped over the lazy dog."
Set regEx = New RegExp ' 建立正则表达式。
regEx.Pattern = patrn ' 设置模式。
regEx.IgnoreCase = True ' 设置是否区分大小写。
ReplaceTest = regEx.Replace(str1, replStr) ' 作替换。
End Function
Response.write ReplaceTest("fox", "cat") & "<BR>" ' 将 'fox' 替换为 'cat'。
Response.write ReplaceTest("(\S+)(\s+)(\S+)", "$3$2$1") ' 交换词对.
%>
2、Test 方法
对指定的字符串执行一个正则表达式搜索,并返回一个 Boolean 值指示是否找到匹配的模式。正则表达式搜索的实际模式是通过RegExp对象的Pattern属性来设置的。RegExp.Global属性对Test方法没有影响。
如果找到了匹配的模式,Test方法返回True;否则返回False。下面的代码说明了Test 方法的用法。
<%
Function RegExpTest(patrn, strng)
Dim regEx, retVal ' 建立变量。
Set regEx = New RegExp ' 建立正则表达式。
regEx.Pattern = patrn ' 设置模式。
regEx.IgnoreCase = False ' 设置是否区分大小写。
retVal = regEx.Test(strng) ' 执行搜索测试。
If retVal Then
RegExpTest = "找到一个或多个匹配。"
Else
RegExpTest = "未找到匹配。"
End If
End Function
Response.write RegExpTest("is.", "IS1 is2 IS3 is4")
%>
3、Execute 方法
对指定的字符串执行正则表达式搜索。正则表达式搜索的设计模式是通过 RegExp 对象的 Pattern 来设置的。
Execute 方法返回一个 Matches 集合,其中包含了在 string 中找到的每一个匹配的 Match 对象。如果未找到匹配,Execute 将返回空的 Matches 集合。
⑷ 编译原理中,a和b的个数相等的正则表达式该怎么写
判定a和b的个数相等不能使用正则语言,需要使用上下文无关语言,下推自动机利用堆栈记忆和处理a和b的个数之间的关系。
所以没有能够描述你所要求的正则表达式。
⑸ 编译原理 正则表达式
/^(?!.*001)[01]+$/
⑹ 如何在c语言中使用正则表达式
看到大家讨论这方面的东西,作点贡献聊表各位高手对这个版快的无私奉献 :oops:
如果用户熟悉Linux下的sed、awk、grep或vi,那么对正则表达式这一概念肯定不会陌生。由于它可以极大地简化处理字符串时的复杂
度,因此现在已经在许多Linux实用工具中得到了应用。千万不要以为正则表达式只是Perl、Python、Bash等脚本语言的专利,作为C语言程序
员,用户同样可以在自己的程序中运用正则表达式。
标准的C和C++都不支持正则表达式,但有一些函数库可以辅助C/C++程序员完成这一功能,其中最着名的当数Philip Hazel的Perl-Compatible Regular Expression库,许多Linux发行版本都带有这个函数库。
编译正则表达式
为了提高效率,在将一个字符串与正则表达式进行比较之前,首先要用regcomp()函数对它进行编译,将其转化为regex_t结构:
int regcomp(regex_t *preg, const char *regex, int cflags);
参数regex是一个字符串,它代表将要被编译的正则表达式;参数preg指向一个声明为regex_t的数据结构,用来保存编译结果;参数cflags决定了正则表达式该如何被处理的细节。
如果函数regcomp()执行成功,并且编译结果被正确填充到preg中后,函数将返回0,任何其它的返回结果都代表有某种错误产生。
匹配正则表达式
一旦用regcomp()函数成功地编译了正则表达式,接下来就可以调用regexec()函数完成模式匹配:
int regexec(const regex_t *preg, const char *string, size_t nmatch,regmatch_t pmatch[], int eflags);
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;
参数preg指向编译后的正则表达式,参数string是将要进行匹配的字符串,而参数nmatch和pmatch则用于把匹配结果返回给调用程序,最后一个参数eflags决定了匹配的细节。
在调用函数regexec()进行模式匹配的过程中,可能在字符串string中会有多处与给定的正则表达式相匹配,参数pmatch就是用来保
存这些匹配位置的,而参数nmatch则告诉函数regexec()最多可以把多少个匹配结果填充到pmatch数组中。当regexec()函数成功返
回时,从string+pmatch[0].rm_so到string+pmatch[0].rm_eo是第一个匹配的字符串,而从
string+pmatch[1].rm_so到string+pmatch[1].rm_eo,则是第二个匹配的字符串,依此类推。
释放正则表达式
无论什么时候,当不再需要已经编译过的正则表达式时,都应该调用函数regfree()将其释放,以免产生内存泄漏。
⑺ C语言怎么用正则表达式
由于它可以极大地简化处理字符串时的复杂度,因此现在已经在许多 L i n u x 实用工具中得到了应用。千万不要以为正则表达式只是 P e r l 、 P y t h o n 、 B a s h 等脚本语言的专利,作为 C 语言程序员,用户同样可以在自己的程序中运用正则表达式。标准的 C 和 C + + 都不支持正则表达式,但有一些函数库可以辅助 C / C + + 程序员完成这一功能,其中最着名的当数 P h i l i p H a z e l 的 P e r l - C o m p a t i b l e R e g u l a r E x p r e s s i o n 库,许多 L i n u x 发行版本都带有这个函数库。编译正则表达式为了提高效率,在将一个字符串与正则表达式进行比较之前,首先要用 r e g c o m p ( ) 函数对它进行编译,将其转化为 r e g e x _ t 结构: i n t r e g c o m p ( r e g e x _ t * p r e g , c o n s t c h a r * r e g e x , i n t c f l a g s ) ; 参数 r e g e x 是一个字符串,它代表将要被编译的正则表达式;参数 p r e g 指向一个声明为 r e g e x _ t 的数据结构,用来保存编译结果;参数 c f l a g s 决定了正则表达式该如何被处理的细节。如果函数 r e g c o m p ( ) 执行成功,并且编译结果被正确填充到 p r e g 中后,函数将返回 0 ,任何其它的返回结果都代表有某种错误产生。匹配正则表达式一旦用 r e g c o m p ( ) 函数成功地编译了正则表达式,接下来就可以调用 r e g e x e c ( ) 函数完成模式匹配: i n t r e g e x e c ( c o n s t r e g e x _ t * p r e g , c o n s t c h a r * s t r i n g , s i z e _ t n m a t c h , r e g m a t c h _ t p m a t c h [ ] , i n t e f l a g s ) ; t y p e d e f s t r u c t { r e g o f f _ t r m _ s o ; r e g o f f _ t r m _ e o ; } r e g m a t c h _ t ; 参数 p r e g 指向编译后的正则表达式,参数 s t r i n g 是将要进行匹配的字符串,而参数 n m a t c h 和 p m a t c h 则用于把匹配结果返回给调用程序,最后一个参数 e f l a g s 决定了匹配的细节。在调用函数 r e g e x e c ( ) 进行模式匹配的过程中,可能在字符串 s t r i n g 中会有多处与给定的正则表达式相匹配,参数 p m a t c h 就是用来保存这些匹配位置的,而参数 n m a t c h 则告诉函数 r e g e x e c ( ) 最多可以把多少个匹配结果填充到 p m a t c h 数组中。当 r e g e x e c ( ) 函数成功返回时,从 s t r i n g + p m a t c h [ 0 ] . r m _ s o 到 s t r i n g + p m a t c h [ 0 ] . r m _ e o 是第一个匹配的字符串,而从 s t r i n g + p m a t c h [ 1 ] . r m _ s o 到 s t r i n g + p m a t c h [ 1 ] . r m _ e o ,则是第二个匹配的字符串,依此类推。释放正则表达式无论什么时候,当不再需要已经编译过的正则表达式时,都应该调用函数 r e g f r e e ( ) 将其释放,以免产生内存泄漏。 v o i d r e g f r e e ( r e g e x _ t * p r e g ) ; 函数 r e g f r e e ( ) 不会返回任何结果,它仅接收一个指向 r e g e x _ t 数据类型的指针,这是之前调用 r e g c o m p ( ) 函数所得到的编译结果。如果在程序中针对同一个 r e g e x _ t 结构调用了多次 r e g c o m p ( ) 函数, P O S I X 标准并没有规定是否每次都必须调用 r e g f r e e ( ) 函数进行释放,但建议每次调用 r e g c o m p ( ) 函数对正则表达式进行编译后都调用一次 r e g f r e e ( ) 函数,以尽早释放占用的存储空间。报告错误信息如果调用函数 r e g c o m p ( ) 或 r e g e x e c ( ) 得到的是一个非 0 的返回值,则表明在对正则表达式的处理过程中出现了某种错误,此时可以通过调用函数 r e g e r r o r ( ) 得到详细的错误信息。 s i z e _ t r e g e r r o r ( i n t e r r c o d e , c o n s t r e g e x _ t * p r e g , c h a r * e r r b u f , s i z e _ t e r r b u f _ s i z e ) ; 参数 e r r c o d e 是来自函数 r e g c o m p ( ) 或 r e g e x e c ( ) 的错误代码,而参数 p r e g 则是由函数 r e g c o m p ( ) 得到的编译结果,其目的是把格式化消息所必须的上下文提供给 r e g e r r o r ( ) 函数。在执行函数 r e g e r r o r ( ) 时,将按照参数 e r r b u f _ s i z e 指明的最大字节数,在 e r r b u f 缓冲区中填入格式化后的错误信息,同时返回错误信息的长度。应用正则表达式最后给出一个具体的实例,介绍如何在 C 语言程序中处理正则表达式。 # i n c l u d e < s t d i o . h > ; # i n c l u d e < s y s / t y p e s . h > ; # i n c l u d e < r e g e x . h > ; / * 取子串的函数 * / s t a t i c c h a r * s u b s t r ( c o n s t c h a r * s t r , u n s i g n e d s t a r t , u n s i g n e d e n d ) { u n s i g n e d n = e n d - s t a r t ; s t a t i c c h a r s t b u f [ 2 5 6 ] ; s t r n c p y ( s t b u f , s t r + s t a r t , n ) ; s t b u f [ n ] = 0 ; r e t u r n s t b u f ; } / * 主程序 * / i n t m a i n ( i n t a r g c , c h a r * * a r g v ) { c h a r * p a t t e r n ; i n t x , z , l n o = 0 , c f l a g s = 0 ; c h a r e b u f [ 1 2 8 ] , l b u f [ 2 5 6 ] ; r e g e x _ t r e g ; r e g m a t c h _ t p m [ 1 0 ] ; c o n s t s i z e _ t n m a t c h = 1 0 ; / * 编译正则表达式 * / p a t t e r n = a r g v [ 1 ] ; z = r e g c o m p ( & r e g , p a t t e r n , c f l a g s ) ; i f ( z ! = 0 ) { r e g e r r o r ( z , & r e g , e b u f , s i z e o f ( e b u f ) ) ; f p r i n t f ( s t d e r r , " % s : p a t t e r n ' % s ' \ n " , e b u f , p a t t e r n ) ; r e t u r n 1 ; } / * 逐行处理输入的数据 * / w h i l e ( f g e t s ( l b u f , s i z e o f ( l b u f ) , s t d i n ) ) { + + l n o ; i f ( ( z = s t r l e n ( l b u f ) ) > ; 0 & & l b u f [ z - 1 ] = = ' \ n ' ) l b u f [ z - 1 ] = 0 ; / * 对每一行应用正则表达式进行匹配 * / z = r e g e x e c ( & r e g , l b u f , n m a t c h , p m , 0 ) ; i f ( z = = R E G _ N O M A T C H ) c o n t i n u e ; e l s e i f ( z ! = 0 ) { r e g e r r o r ( z , & r e g , e b u f , s i z e o f ( e b u f ) ) ; f p r i n t f ( s t d e r r , " % s : r e g c o m ( ' % s ' ) \ n " , e b u f , l b u f ) ; r e t u r n 2 ; } / * 输出处理结果 * / f o r ( x = 0 ; x < n m a t c h & & p m [ x ] . r m _ s o ! = - 1 ; + + x ) { i f ( ! x ) p r i n t f ( " % 0 4 d : % s \ n " , l n o , l b u f ) ; p r i n t f ( " $ % d = ' % s ' \ n " , x , s u b s t r ( l b u f , p m [ x ] . r m _ s o , p m [ x ] . r m _ e o ) ) ; } } / * 释放正则表达式 * / r e g f r e e ( & r e g ) ; r e t u r n 0 ; } 上述程序负责从命令行获取正则表达式,然后将其运用于从标准输入得到的每行数据,并打印出匹配结果。执行下面的命令可以编译并执行该程序: # g c c r e g e x p . c - o r e g e x p # . / r e g e x p ' r e g e x [ a - z ] * ' < r e g e x p . c 0 0 0 3 : # i n c l u d e < r e g e x . h > ; $ 0 = ' r e g e x ' 0 0 2 7 : r e g e x _ t r e g ; $ 0 = ' r e g e x ' 0 0 5 4 : z = r e g e x e c ( & r e g , l b u f , n m a t c h , p m , 0 ) ; $ 0 = ' r e g e x e c ' 小结对那些需要进行复杂数据处理的程序来说,正则表达式无疑是一个非常有用的工具。本文重点在于阐述如何在 C 语言中利用正则表达式来简化字符串处理,以便在数据处理方面能够获得与 P e r l 语言类似的灵活性。
⑻ 编译原理,正则表达式的低级基础问题
1、正则表达式:0(0|1)*1
2、由于不方便画图,最简DFA用状态表表示如下:
(1)开始状态S------输入0------->状态A
(2)状态A-------输入0-------->状态A
(3)状态A-------输入1-------->状态B(可接受状态)
(4)状态B-------输入0-------->状态A
(5)状态B-------输入1-------->状态B(可接受状态)
⑼ 编译原理正则表达式化简
你好,语言L={a}{a,b}∗({ϵ}∪({.,_}{a,b}{a,b}∗))L={a}{a,b}
∗
({ϵ}∪({.,_}{a,b}{a,b}
∗
))
这个语言是指,由a开头,后接任意长度的a、b串,然后再接空串(代表结束)。或者是接以.或_开头的,后接长度大于等于1的a、b串。
正则表达式(Regular Expression, RE)是一种用来描述正则语言的更紧凑的表示方法。
⑽ 编译原理:c语言标识符的正则表达式
C语言中的标识符:
标识符由字母、数字、下划线“_”组成,并且首字母不能是数字.
java语言中的标识符:
标识符由字母、数字、下划线“_”、美元符号“$”组成,并且首字母不能是数字。
一般标识符由字母、数字、下划线“_”组成
如果只能以下划线、英文字母开头,后跟单词字符的话:
^[A-Za-z_][A-Za-z0-9_]*$