php模式匹配
A. php 正则表达式总结
PHP 正则表达式总结
1.PHP中两个常用的正则函数
a.preg_match 正则函数,以perl语言为基础
语法:preg_match( mode,string subject,array matches)
说明:mode参数---- 正则的模块,也就是正则表达式(语法)
subject参数---- 正则的内容
matches参数---- 正则的结果(获得一个数组的形式)
b.ereg 正则函数,以POSIX基础(Unix、Script)
语法:ereg(mode ,string subject, array regs)
2.正则表达式中包括的元素
a.原子(普通字符:a-z A-Z 0-9 、原子表、转义字符)
b.元字符(有特殊功能的字符,如:# 、*)
c.模式修正符(系统内置部分字符 i、m、S、U ...)
3.正则表达式中的“原子”
a.a-z A-Z _ 0-9 //最常见的字符
b.(abc)(skd) //用圆括号包含起来的单元符号(一个整体)
c.[abcs][^abd] //用方括号包含的原子表,原子表中的^代表排除或相反的内容
d.转义字符
d 包含所有的数字[0-9]
D 除所有数字外[^0-9]
w 包含所有英文字符[a-z A-Z 0-9]
W 除所有英文字符外[^a-z A-Z 0-9]
s 回车,换行等
......
注明: 圆括号 必须是整体才能匹配; 方括号 只要是其子集,都可以匹配(内容存在)
4.正则表达式元字符
* 匹配前一个内容的0次1次或多次
. 匹配内容的0次1次或多次,但不包含回车换行(代指自己,任何内容)
+ 匹配前一个内容的1次或多次
? 匹配前一个内容的.0次或1次
| 选择匹配类似PHP中的| (因为这个运算符合是弱类型导致前面最为整体匹配,类似一个单词匹配)
^ 匹配字符串首部内容
$ 匹配字符串尾部内容
b 匹配单词边界,边界可以是空格或者特殊符合(有单词分界符,类似空格)
B 匹配除带单词边界意外内容(无单词分界符)
{m} 匹配前一个内容的重复次数为M次
{m,} 匹配前一个内容的重复次数大于等于M次
{m,n} 匹配前一个内容的重复次数M次到N次
( ) 合并整体匹配,并放入内存,可使用1 2…依次获取 (调用放入内存中的内容)
5.运算顺序
依然遵循从左到→右的运算规则
优先级:
( ) 圆括号因为是内存处理所以最高
* ? + { } 重复匹配内容其次
^ $ b 边界处理第三
| 条件处理第四
最后按照运算顺序计算匹配
6.模式修正符
模式修正符是为正则表达式增强和补充的一个功能,使用在正则之外 例如:/ 正则 / U
常用修正符:
i 正则内容在匹配时候不区分大小写(默认是区分的)
m 在匹配首内容或者尾内容时候采用多行识别匹配
s 将转义回车取消是为单行匹配如. 匹配的时候
x 忽略正则中的空白
A 强制从头开始匹配
D 强制$匹配尾部无任何内容 n
U 禁止贪婪匹配 只跟踪到最近的一个匹配符并结束, 常用在采集程序上的正则表达式
7.匹配功能
preg_match_all 全部匹配函数
语法:preg_match_all ( string pattern, string subject, array matches [, int flags] )
说明:对结果排序使 $matches[0] 为全部模式匹配的数
用途:截取比较详细的内容,采集网页,分析文本
8.替换功能
preg_replace 正则替换函数
语法:preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit] )
说明:通过正则表达式来替换相关内容,类似之前学过的str_replace字符串替换,但 功能要强于它
提示:1、替换内容可以是一个正则也可以是数组正则
2、替换内容可以通过修正符e来解决替换执行内容
用途:替换一些比较复杂的内容上,也可以用于内容的转换上
9.分割功能
preg_split 正则切割
语法:preg_split ( string pattern, string subject [, int limit [, int flags]] )
说明:通过正则表达式来切割相关内容,类似之前学过的explode切割函数,但explode 只能按照一种方式切割有局限性。
;B. php正则表达式 怎样从后面开始匹配
这头尾两个斜杠/是正则表达式的限定符,这是perl正则的标准,而php支持的正则表达式就是perl正则的规范。表示两个斜杠之间就是正则内容,在结尾斜杠后面可以开启匹配的模式,例如:/^[\w\x80-\xff]{3,15}$/i
,后面的
i
就是忽略大小写匹配。
C. php匹配 括号内的内容
你的已经是写“对”了的,只不过你没有提取数字而已。改一下模式:'/\(([\s\s]*?)\)/',这样就能利用$matchplayers[1]得到你要的数字了。在模式中,括号有子模式的作用,也就是从左到右,括号引起的数据从1开始到n,在匹配结果中用下标1到n提取。$matchplayers[0]则是总结果。详细参考php手册。
D. php正则匹配多处内容
第一个问题:
preg_match("/<div.*?>((?:(?!<div).)+?)<\/div>/", $content, $match);
echo $match[1];
第二个问题,LZ是不是想匹配出b、c中先出现的一处中的内容?这样的话:
$content = '
<div class="b">内容</div>
<div class="c">内容</div>';
preg_match("/<div\sclass=\"[bc]\">(.+?)<\/div>/", $content, $match);
echo $match[1];
E. php 正则表达式 url匹配
1,preg_grep(pattern,array);它的返回值是一个新数组,新数组的元素是成功匹配的元素。
F. PHP中使用 preg_match 模糊匹配
preg_match
(PHP 4, PHP 5)
preg_match — Perform a regular expression match
Report a bug
Description
int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )
Searches subject for a match to the regular expression given in pattern.
Report a bug
Parameters
pattern
The pattern to search for, as a string.
subject
The input string.
matches
If matches is provided, then it is filled with the results of search. $matches[0] will contain the text that matched the full pattern, $matches[1] will have the text that matched the first captured parenthesized subpattern, and so on.
flags
flags can be the following flag:
PREG_OFFSET_CAPTURE
If this flag is passed, for every occurring match the appendant string offset will also be returned. Note that this changes the value of matches into an array where every element is an array consisting of the matched string at offset 0 and its string offset into subject at offset 1.
G. php正则表达式匹配一段中文,中间有换行,空白,应该怎么写
有多种处理方法:
1、使用[sS]匹配任意字符,而不是使用“.”
2、使用s单行修饰模式,例:$pattern='#abc.*?def#s';//能匹配abc换行def
3、使用s*匹配换行和空格,php里s能匹配空白字符,含换行
php里的中文使用[x7f-xff]表示,因此,使用正则:
$pattern='#[x7f-xff]+(?:s*[x7f-xff]+)*#';即可
H. 如何使用PHP编程说明
PHP是一门高效的网络编程语言 由于它具有编写灵活 运行快速等优点 迅速成为Web程序员的首选语言 前不久的一份权威调查表明 现在已经有 %的网站使用PHP作为主要的服务器端编程语言
但是 要成为一名PHP编程高手却并不容易 并不像很多人想象的那样 只要能够飞快地编写几条简单的代码去解决一个复杂的问题就是PHP编程高手了 真正的PHP高手还需要考虑更多的其它问题 以下三条准则是一名成熟的PHP程序员在编程中应该首先遵循的准则
懒惰是金
编写漂亮的代码
追求程序的速度 而不是编程的速度
一 懒惰是金
做一个懒惰的程序员吗?这个想法太奇怪了!因为这个世界上最忙碌的人可能就是计算机程序员了 但正是因为程序员太忙了 所以才应该在编程时学会偷懒
对于一个程序员来说 懒惰的方法有两种 其一 大胆使用现成的别人的程序代码 把这些代码融入到你自己的程序或者项目中去 其二是编写一些有用的代码建立一个函数库 在将来编写程序时可以顺手拈来 省去了许多重复的劳动 自然就可以懒惰一点了
这两种偷懒的方法都非常适合PHP程序员了
首先 PHP是在自由开放的环境中诞生和成长的一门语言 在世界各地 有成千上万的程序员 他们一直在为PHP的完美而不断奋斗 他们也愿意和别人分享自己的聪明才智和自己编写的代码 你每天都可以从一些PHP网站 邮件列表 新闻组发现大量的优秀的程序代码 这样说 我培让并不是鼓励你整天等着让别人为你编写代码 但是你可以 站在伟人的肩膀上 充分发扬 拿来主义 聪明地应用别人的程序代码可以节省你大量时间 其次 在PHP中 你可以方便地建立自己的函数库 这样可以在你以后编写程序时省去很多麻烦
下面笔者为大家介绍几个通用的函数 这些函数有的来自网上的一些开放源代码的项目 有的精选自邮件列表 如果你能把它们加入到你自己的函数库中 迟早你将会发现自己受益无穷
通用数据库处理函数
和其它的CGI函数相比 PHP的优点之一是具有很强大的数据库处理能力 但是 在PHP中 对于不同的数据库都使用一些特定的函数来专门处理 缺少通用的数据库处理函数 这大大降低了程序代码的可移植性 这也为初学编程的朋友带来了很多不便
在网上 许多程序员都通过封装类解决了这个问题 他们编写了统一的函数用来处理任何流行的数据库——不管是在Linux世界深受欢迎的mysql_query($Query_String $this->Link_ID);ss_timing_stop();ss_log(INFO ss_timing_current() Secs - $Query_String);$this->Row = ;$this->Errno = mysql_errno();$this->Error = mysql_error();if ($halt_on_error && !$this->Query_ID) {$this->halt( Invalid SQL: $Query_String);}return $this->Query_ID; }
二 编写漂亮的代码
将后台程序与前端程序分开
在编写PHP程序时 有些代码是用来处理一些事务 例如操作数据库 进行数学运算等 而另外的一些代码则只是事务处理的结果显示出来 例如一些使用echo 语句将结果以HTML的格式显示在Web浏览器上的PHP代码以及那些直接嵌入PHP程序的HTML代码 首先我们应该清晰地区分这两种代码 把前者称为后台程序 把后者称为前端程序
因为PHP是一种嵌入式编程语言 也就是说 所有的PHP代码都可以嵌入到HTML代码之中 这为程序的编写带来了许多便利之处 但是 物极必反 如果在一段较长的程序中将PHP代码和HTML代码混合编写 这将使程序杂乱无章 不利于程序的维护和阅读 所以我们需要尽可能地将这些程序中混杂于HTML代码中的PHP代码移植出来 在专门的文件中将这些代码封装成函数 然后在HTML代码中使用 include语句来包含这些文件 在适当的位置调用这些函数滑中闷即可
这种做法一方面使HTML代码和PHP代码都简单易读 另一方面因为HTML代码需要不断更新 而这种分离的方法可以确保后台程序不会被破坏 同前端程序不同 后台程序更多追求的是稳定 结构信弯化 极少更改 所以应该认真地设计和管理 其实 在设计台程序时 投入大量时间是值得的 现在栽树 以后乘凉 在以后的设计工作中将可以轻松地使用现在编写的后台程序
灵活使用包含文件
正如前面所说的那样 后台程序应当安排在一系列的包含文件中 包含文件可以通过include语句在需要时动态装入 也可以在php ini文件中通过使用auto_prepend_file指令预先自动装入 如果使用后一种方法的话 虽然取得了一劳永逸的好处 但是也有一些缺点值得我们注意 下面的一段代码向我们展示了解析一个庞大的包含文件需要一定的时间
require(timing inc); ss_timing_start(); include(test inc); ss_timing_stop(); echo ss_timing_current() ?>
在上面的代码中 test inc是一个 行的包含文件 运行的结果显示 解析这个包含文件花费了 秒钟 对于一个大型网站来说 这个速度并不是可以忽略不记的
使用包含文件的另外一个缺点是 如果一个文件中的一个语句发生错误 将会使整个网站的PHP程序都无法运行 所以使用起来也及其小心
其实 对包含文件稍做处理 即可以使包含文件只在需要时进行解析 下面的代码使abc inc文件只在程序需要时才作解析
if ( defined( __LIBA_INC) ) return; define( __LIBA_INC ); /* * 代码 */ ?>
使用面向对象的编程方法
PHP 也是一种面向对象的语言 面向对象的编程方法是优秀的程序员们非常推崇的一种软件设计方法 在PHP编程中可以充分发挥面向对象语言的优势 对编程中的对象进行封装 在前面的代码中 我们使用了面向对象的方法 例如在管理数据库时 我们将query()函数封装进数据库类中 这极大地方便了代码的管理 增加了程序的可读性
三 追求程序速度 而不是编程的速度
在网站建设中 程序运行速度和网页下载速度都是关系成败的重要因素 作为一名Web程序员 应该更加注意代码的运行速度 下面介绍的几种方法都在不同程度上提高了代码的运行速度
使用内嵌的HTML代码 而不是PHP的echo语句
因为PHP是一门嵌入式Web编程语言 可以将HTML代码和PHP代码相互嵌入 但是很多程序员担心在HTML代码中过多的使用 嵌入PHP代码会多次调用PHP解释器 从而降低了PHP代码的运行速度 所以宁愿使用PHP的echo语句来输出HTML代码 而不直接使用HTML代码 但事实却恰恰相反 每一个PHP页面只调用一次PHP解释器来解释所有的PHP代码 所以 只在需要时才嵌入PHP代码 而大多数的时候直接使用HTML代码输入结果 不但不会降低程序的运行速度 而且因为减少了对echo语句的解析 往往可以提高代码的运行速度
下面的一段代码证明了我们的结论 在这段代码中 我们使用了前面介绍的时间测试函数
使用str-replace而不是ereg-replace 习惯使用Perl进行编程的程序员更加愿意使用ereg_replace完成字符串替换工作 因为在PHP中ereg_replace的用法和Perl中模式匹配的用法相近 但是 下面的这段代码证明 使用str_replace 代替 ereg_replace将可以大大提高代码的运行速度
测试str_replace和ereg_replace的运行速度
//这段代码测试str_replace的运行速度 emphasis; ?> for ($i= ; $i< ; $i++) {str_replace(i> b> $string) } ?>
//这段代码测试ereg_replace的运行速度 for ($i= ; $i< ; $i++) {ereg_replace(<([/]*)i> < b> $string) } ?> //打印结果
结论
使用str_replace的时间 - 使用ereg_pattern的时间 -
运行上面的代码 得到的结果是
使用str_replace的时间 - 使用ereg_pattern的时间 -
从运行的结果我们可以看出使用str_replace替代ereg_replace作为字符串替换函数 极大地提高了代码的运行速度
注意字符串的引用
PHP 和其它很多编程语言一样 可以使用双引号( )来引用字符串 也可以使用单引号() 但是在PHP中 如果使用双引号来引用字符串 那么PHP解析器将首先分析字符串中有没有对变量的引用 有变量的话 将对变量进行替换 如果是单引号 则没有如此复杂——直接将单引号包含起来的所有字符串直接显示出来 显然 在PHP编程中 如果使用单引号引用字符串变量要比使用双引号快速一些
在数据库中避免使用联合操作
比起其它的Web编程语言来说 PHP的数据库功能十分强大 但是在PHP中数据库的运行仍然是一件十分费时费力的事情 所以 作为一个Web程序员 要尽量减少数据库的查询操作 同时应该为数据库建立适当的索引 另一件值得注意的事情是在用PHP操作数据库时 尽可能不使用多个数据表的联合操作 尽管联合操作可以增强数据库的查询功能 但是却大大增加了服务器的负担
为了说明这个问题 我们可以看看下面的这个简单的例子
我们在数据库中创建了两个数据表foo和big_foo 在数据表foo中 只有一个字段 包含了从 - 之间的所有自然数 数据表big_foo同样只有一个字段 但包含了从 - 之间的全部自然数 所以 从大小上说 big_foo等于foo与它自身进行了联合操作
$db->query( select * from foo ); secs $db->next_record(); secs $db->query( insert into foo values (NULL) ); secs $db->query( select * from foo as a foo as b ); secs $db->query( select * from foo as a foo as b where a id > b id ); secs $db->query( select * from foo as a foo as b where a id = b id ); secs $db->query( select * from big_foo ); secs
从上面操作结果我们可以发现 对于两个有 条记录的数据表进行联合 其速度并不比对一个 条纪录的大型数据表单独进行操作快多少
注意include与require的区别
在PHP变成中 include()与require()的功能相同 但在用法上却有一些不同 include()是有条件包含函数 而require()则是无条件包含函数 例如在下面的一个例子中 如果变量$somgthing为真 则将包含文件somefile
if($something){include( somefile ); }
但不管$something取何值 下面的代码将把文件somefile包含进文件里
if($something){require( somefile ); }
下面的这个有趣的例子充分说明了这两个函数之间的不同
$i = ; while ($i < ) {require( somefile $i );$i++; }
在这段代码中 每一次循环的时候 程序都将把同一个文件包含进去 很显然这不是程序员的初衷 从代码中我们可以看出这段代码希望在每次循环时 将不同的文件包含进来 如果要完成这个功能 必须求助函数include()
$i = ; while ($i < ) { include( somefile $i ); $i++; }
注意echo和print的区别
PHP中echo和print的功能也基本相同 但是两者之间也有细微差别 在PHP代码中可以把print作为一个普通函数来使用 例如执行下面的代码后变量$res的值将为 $ret = print Hello World ;
lishixin/Article/program/PHP/201405/30767
I. php正则匹配数字
式子:/^[a-zA-Z0-9]+$/u
释义:
"/":表示正则表达式的定义,固定写法。
"^":表示开头。
"[]":表示字符组。匹配所包含的任意一个字符。如,“[ab]”匹配“plain”中的“a”。
"a-z":表示匹配小写字母a-z的字母范围。
"A-Z":表示匹配大写字母A-Z的字母范围。
"0-9":表示匹配0-9的数字范围。
"+":表示匹配次数大于等于1。
"$":匹配输入行尾。如果设置了RegExp对象Multiline属性,$也匹配“ ”或“ ”之前的位置。
"u":最后的u是模式修饰符,严格的说可能叫预定义常量。表示使用unicode进行匹配。
(9)php模式匹配扩展阅读:
正则表达式的特点是:
1. 灵活性、逻辑性和功能性非常强;
2. 可以迅速地用极简单的方式达到字符串的复杂控制。
3. 对于刚接触的人来说,比较晦涩难懂。
由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到着名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
J. php 正则表达式 网页采集为什么源代码一换行 模式也换行 就是匹配不到
php里的.不能匹配换行,可以使用[sS]替换.
或者添加s模首喊毕式修饰符,如:
$pattern='#<div>[sS]*?</div>#';
或
$pattern='#<div>.*?</div>#s';
更多正则问题,请参考我的渗枯博客《我眼里者芹的正则表达式入门教程》