php正則表達式手冊
❶ 這一段php中正則表達式的詳細含義……
拆分這段正則:
'
(and|or)\b.+?(>|<|=|in|like)
\/\*.+?\*\/
<\s*script\b
\bEXEC\b
UNION.+?SELECT
UPDATE.+?SET
INSERT\s+INTO.+?VALUES
(SELECT|DELETE).+?FROM
(CREATE|ALTER|DROP|TRUNCATE)\s+(TABLE|DATABASE)
你仔細看看,每一條都是對應一種資料庫語句可能會出現的情況(除了第3條):
第一條是 單引號,單引號在資料庫語句中的作用不用我多說了
第二條是 模糊孫查詢
第三條是「*.*」這種資料庫萬能語句
第四條我覺得可能是<script>的html標簽
第五條是 exec資料庫動態查詢語句
第六條是 UNION聯合查詢
第七條是 資料庫更新語句
第八條是 數據表插入
第九條是 查詢或刪除數據
第十條是 創建、修改、刪除等資料庫操作
而這條語句的作用就是使用正則從字元串中查找是否存在資料庫操作相關的敏感字元串,從而對該字元串進行一定的處理,保障伺服器安全。
(以上)
❷ php中正則表達式是如何使用的
如果你的正則是對的話,代碼應該如下
$reg='[a-zA-zs]+';
preg_match($reg,$string,$matchs);
//結果
$result='';
foreach($matchs[1]as$m){
$result.=$m
}
❸ 怎樣解讀php中的正則表達式 (求詳解)
^(https?|ftps?) -------- 以https或ftps開頭 (協議名)
:\/\/ ------------------- ://
([a-zA-Z0-9-]+\.){1,5} ----- 一個以上的大小寫字母或數字加點'.'為一組,出現1組到5組(域名)
(com|cn|net) ---------------- com或cn或net
\/? ---------------------------- 可能有一個/
(\/?index.php)? ----------------- 可能有index.php 文件名
(\??(\w+=\S+&?)+)?/' ---------- 可能有問號(加一個以上的字元,加等於號,可能有&)括弧里的東西可能重復出現 (用get方式傳遞的參數)
所以可能匹配: http://abab.aba.com/index.php?id=123&name=jack 這樣的url。
感覺這個寫的不是很嚴謹,很多不是想要的也能匹配上。
| 表示或,問號表示出現0次或1次,加好表示出現1次以上,大括弧里的是出現次數的上下限。
這個教程不錯,簡單而且比較夠用:http://deerchao.net/tutorials/regex/regex.htm
❹ PHP正則
看一下php手冊的pre_match_all()你就明白了
結果排序為$arr[0]保存完整模式的所有匹配, $arr[1] 保存第一個子組的所有匹配,以此類推。
就是說,第一個數組是整個正則表達式匹配的結果,第二個數組是第一個()中的小正則匹配的結果,這個正則有幾個括弧就有幾個數組;
所以你取第一數組就行了
❺ PHP手冊里關於正則表達式的詳細說明在哪
php手冊上沒有正則表達式的詳細說明,有一本正則表達式的手冊,你可以找一下,哪裡比較詳細。
❻ PHP正則表達式ereg的問題
eregi 和 ereg_replace 這兩個函數到5.3以後就被廢棄了,可以使用preg_match, preg_replace進行替換,舉個例子:
<?php
$wenben="hello,world";
print_r(preg_match('/[a-z]*/i',$wenben));
$result=preg_replace('/[a-z]*/i',"TiHuan",$wenben);
var_mp($result);
preg_replace,就是替換匹配的字元串,並返回替換後的結果。
preg_match, 就是匹配字元串,返回匹配的結果,為0或者1,當第一次匹配成功,就不繼續匹配了。
這些文件函數,你都可以參考php 官方手冊:
http://cn2.php.net/manual/zh/function.preg-replace.php
❼ php正則表達式的問題
很有必要!!
跟我學正則表達式!
想必很多人都對正則表達式都頭疼.今天,我以我的認識,加上網上一些文章,希望用常人都可以理解的表達方式.來和大家分享學習經驗.
開篇,還是得說說 ^ 和 $ 他們是分別用來匹配字元串的開始和結束,以下分別舉例說明
"^The": 開頭一定要有"The"字元串;
"of despair$": 結尾一定要有"of despair" 的字元串;
那麼,
"^abc$": 就是要求以abc開頭和以abc結尾的字元串,實際上是只有abc匹配
"notice": 匹配包含notice的字元串
你可以看見如果你沒有用我們提到的兩個字元(最後一個例子),就是說 模式(正則表達式) 可以出現在被檢驗字元串的任何地方,你沒有把他鎖定到兩邊
接著,說說 '*', '+',和 '?',
他們用來表示一個字元可以出現的次數或者順序. 他們分別表示:
"zero or more"相當於{0,},
"one or more"相當於{1,},
"zero or one."相當於{0,1}, 這里是一些例子:
"ab*": 和ab{0,}同義,匹配以a開頭,後面可以接0個或者N個b組成的字元串("a", "ab", "abbb", 等);
"ab+": 和ab{1,}同義,同上條一樣,但最少要有一個b存在 ("ab", "abbb", 等.);
"ab?":和ab{0,1}同義,可以沒有或者只有一個b;
"a?b+$": 匹配以一個或者0個a再加上一個以上的b結尾的字元串.
要點, '*', '+',和 '?'只管它前面那個字元.
你也可以在大括弧裡面限制字元出現的個數,比如
"ab{2}": 要求a後面一定要跟兩個b(一個也不能少)("abb");
"ab{2,}": 要求a後面一定要有兩個或者兩個以上b(如"abb", "abbbb", 等.);
"ab{3,5}": 要求a後面可以有2-5個b("abbb", "abbbb", or "abbbbb").
現在我們把一定幾個字元放到小括弧里,比如:
"a(bc)*": 匹配 a 後面跟0個或者一個"bc";
"a(bc){1,5}": 一個到5個 "bc."
還有一個字元 '│', 相當於OR 操作:
"hi│hello": 匹配含有"hi" 或者 "hello" 的 字元串;
"(b│cd)ef": 匹配含有 "bef" 或者 "cdef"的字元串;
"(a│b)*c": 匹配含有這樣多個(包括0個)a或b,後面跟一個c
的字元串;
一個點('.')可以代表所有的單一字元,不包括"n"
如果,要匹配包括"n"在內的所有單個字元,怎麼辦?
對了,用'[n.]'這種模式.
"a.[0-9]": 一個a加一個字元再加一個0到9的數字
"^.{3}$": 三個任意字元結尾 .
中括弧括住的內容只匹配一個單一的字元
"^[a-zA-Z0-9]"@"[a-zA-Z0-9]"."[a-zA-Z]$"
"[ab]": 匹配單個的 a 或者 b ( 和 "a│b" 一樣);
"[a-d]": 匹配'a' 到'd'的單個字元 (和"a│b│c│d" 還有 "[abcd]"效果一樣); 一般我們都用[a-zA-Z]來指定字元為一個大小寫英文
"^[a-zA-Z]": 匹配以大小寫字母開頭的字元串
"[0-9]%": 匹配含有 形如 x% 的字元串
",[a-zA-Z0-9]$": 匹配以逗號再加一個數字或字母結尾的字元串
你也可以把你不想要得字元列在中括弧里,你只需要在總括弧裡面使用'^' 作為開頭 "%[^a-zA-Z]%" 匹配含有兩個百分號裡面有一個非字母的字元串.
要點:^用在中括弧開頭的時候,就表示排除括弧里的字元
為了PHP能夠解釋,你必須在這些字元面前後加'',並且將一些字元轉義.
不要忘記在中括弧裡面的字元是這條規路的例外—在中括弧裡面, 所有的特殊字元,包括(''), 都將失去他們的特殊性質 "[*+?{}.]"匹配含有這些字元的字元串.
還有,正如regx的手冊告訴我們: "如果列表裡含有 ']', 最好把它作為列表裡的第一個字元(可能跟在'^'後面). 如果含有'-', 最好把它放在最前面或者最後面, or 或者一個范圍的第二個結束點[a-d-0-9]中間的『-』將有效.
看了上面的例子,你對{n,m}應該理解了吧.要注意的是,n和m都不能為負整數,而且n總是小於m. 這樣,才能 最少匹配n次且最多匹配m次. 如"p{1,5}"將匹配 "pvpppppp"中的前五個p
下面說說以開頭的
b 書上說他是用來匹配一個單詞邊界,就是...比如'veb',可以匹配love里的ve而不匹配very里有ve
B 正好和上面的b相反.例子我就不舉了
好,我們來做個應用:
如何構建一個模式來匹配 貨幣數量 的輸入
構建一個匹配模式去檢查輸入的信息是否為一個表示money的數字。我們認為一個表示money的數量有四種方式: "10000.00" 和 "10,000.00",或者沒有小數部分, "10000" and "10,000". 現在讓我們開始構建這個匹配模式:
^[1-9][0-9]*$
這是所變數必須以非0的數字開頭.但這也意味著 單一的 "0" 也不能通過測試. 以下是解決的方法:
^(0│[1-9][0-9]*)$
"只有0和不以0開頭的數字與之匹配",我們也可以允許一個負號在數字之前:
^(0│-?[1-9][0-9]*)$
這就是: "0 或者 一個以0開頭 且可能 有一個負號在前面的數字." 好了,現在讓我們別那麼嚴謹,允許以0開頭.現在讓我們放棄 負號 , 因為我們在表示錢幣的時候並不需要用到. 我們現在指定 模式 用來匹配小數部分:
^[0-9]+(.[0-9]+)?$
這暗示匹配的字元串必須最少以一個阿拉伯數字開頭. 但是注意,在上面模式中 "10." 是不匹配的, 只有 "10" 和 "10.2" 才可以. (你知道為什麼嗎)
^[0-9]+(.[0-9]{2})?$
我們上面指定小數點後面必須有兩位小數.如果你認為這樣太苛刻,你可以改成:
^[0-9]+(.[0-9]{1,2})?$
這將允許小數點後面有一到兩個字元. 現在我們加上用來增加可讀性的逗號(每隔三位), 我們可以這樣表示:
^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
不要忘記 '+' 可以被 '*' 替代 如果你想允許空白字元串被輸入話 (為什麼?). 也不要忘記反斜桿 』』 在php字元串中可能會出現錯誤 (很普遍的錯誤).
現在,我們已經可以確認字元串了, 我們現在把所有逗號都去掉 str_replace(",", "", $money) 然後在把類型看成 double然後我們就可以通過他做數學計算了.
再來一個:
構造檢查email的正則表達式
在一個完整的email地址中有三個部分:
1. 用戶名 (在 '@' 左邊的一切),
2.'@',
3. 伺服器名(就是剩下那部分).
用戶名可以含有大小寫字母阿拉伯數字,句號 ('.'), 減號('-'), and 下劃線 ('_'). 伺服器名字也是符合這個規則,當然下劃線除外.
現在, 用戶名的開始和結束都不能是句點. 伺服器也是這樣. 還有你不能有兩個連續的句點他們之間至少存在一個字元,好現在我們來看一下怎麼為用戶名寫一個匹配模式:
^[_a-zA-Z0-9-]+$
現在還不能允許句號的存在. 我們把它加上:
^[_a-zA-Z0-9-]+(.[_a-zA-Z0-9-]+)*$
上面的意思就是說: "以至少一個規範字元(除了.)開頭,後面跟著0個或者多個以點開始的字元串."
簡單化一點, 我們可以用 eregi()取代 ereg().eregi()對大小寫不敏感, 我們就不需要指定兩個范圍 "a-z" 和 "A-Z" – 只需要指定一個就可以了:
^[_a-z0-9-]+(.[_a-z0-9-]+)*$
後面的伺服器名字也是一樣,但要去掉下劃線:
^[a-z0-9-]+(.[a-z0-9-]+)*$
好. 現在只需要用」@」把兩部分連接:
^[_a-z0-9-]+(.[_a-z0-9-]+)*@[a-z0-9-]+(.[a-z0-9-]+)*$
這就是完整的email認證匹配模式了,只需要調用
eregi(『^[_a-z0-9-]+(.[_a-z0-9-]+)*@[a-z0-9-]+(.[a-z0-9-]+)*$ 』,$email)
就可以得到是否為email了
正則表達式的其他用法
提取字元串
ereg() and eregi() 有一個特性是允許用戶通過正則表達式去提取字元串的一部分(具體用法你可以閱讀手冊). 比如說,我們想從 path/URL 提取文件名 – 下面的代碼就是你需要:
ereg("([^/]*)$", $pathOrUrl, $regs);
echo $regs[1];
高級的代換
ereg_replace() 和 eregi_replace()也是非常有用的: 假如我們想把所有的間隔負號都替換成逗號:
ereg_replace("[ nrt]+", ",", trim($str));
最後,我把另一串檢查EMAIL的正則表達式讓看文章的你來分析一下.
"^[-!#$%&'*+./0-9=?A-Z^_`a-z{|}~]+'.'@'.'[-!#$%&'*+/0-9=?A-Z^_`a-z{|}~]+.'.'[-!#$%&'*+./0-9=?A-Z^_`a-z{|}~]+$"
如果能方便的讀懂,那這篇文章的目的就達到了.
這篇文章我是在網上找到的...關於正則表達式我也只看過這篇文章...覺得還行看完以後簡單的正則表達式還是能看懂的。
❽ php 正則表達式
建議你到我的網站上下載PHP5參考手冊,里邊有詳細的正則表達式的參考。
模式要有開始和結束的字元,一下都是合法的:
/
|
#
'
前提是模式中不能再出現這個字元了。
結尾的/後邊的is是模式修政府,具體如下
i (PCRE_CASELESS)
如果設定此修正符,模式中的字元將同時匹配大小寫字母。
m(PCRE_MULTILINE)
默認情況下,PCRE 將目標字元串作為單一的一「行」字元所組成的(甚至其中包含有換行符也是如此)。「行起始」元字元(^)僅僅匹配字元串的起始,「行結束」元字元($)僅僅匹配字元串的結束,或者最後一個字元是換行符時其前面(除非設定了 D 修正符)。這和 Perl 是一樣的。
當設定了此修正符,「行起始」和「行結束」除了匹配整個字元串開頭和結束外,還分別匹配其中的換行符的之後和之前。這和 Perl 的 /m 修正符是等效的。如果目標字元串中沒有「\n」字元或者模式中沒有 ^ 或 $,則設定此修正符沒有任何效果。
s(PCRE_DOTALL)
如果設定了此修正符,模式中的圓點元字元(.)匹配所有的字元,包括換行符。沒有此設定的話,則不包括換行符。這和 Perl 的 /s 修正符是等效的。排除字元類例如 [^a] 總是匹配換行符的,無論是否設定了此修正符。
x(PCRE_EXTENDED)
如果設定了此修正符,模式中的空白字元除了被轉義的或在字元類中的以外完全被忽略,在未轉義的字元類之外的 # 以及下一個換行符之間的所有字元,包括兩頭,也都被忽略。這和 Perl 的 /x 修正符是等效的,使得可以在復雜的模式中加入注釋。然而注意,這僅適用於數據字元。空白字元可能永遠不會出現於模式中的特殊字元序列,例如引入條件子模式的序列 (?( 中間。
e
如果設定了此修正符,preg_replace() 在替換字元串中對逆向引用作正常的替換,將其作為 PHP 代碼求值,並用其結果來替換所搜索的字元串。
只有 preg_replace() 使用此修正符,其它 PCRE 函數將忽略之。
注意: 本修正符在 PHP3 中不可用。
A(PCRE_ANCHORED)
如果設定了此修正符,模式被強制為「anchored」,即強制僅從目標字元串的開頭開始匹配。此效果也可以通過適當的模式本身來實現(在 Perl 中實現的唯一方法)。
D(PCRE_DOLLAR_ENDONLY)
如果設定了此修正符,模式中的美元元字元僅匹配目標字元串的結尾。沒有此選項時,如果最後一個字元是換行符的話,美元符號也會匹配此字元之前(但不會匹配任何其它換行符之前)。如果設定了 m 修正符則忽略此選項。Perl 中沒有與其等價的修正符。
S
當一個模式將被使用若干次時,為加速匹配起見值得先對其進行分析。如果設定了此修正符則會進行額外的分析。目前,分析一個模式僅對沒有單一固定起始字元的 non-anchored 模式有用。
U(PCRE_UNGREEDY)
本修正符反轉了匹配數量的值使其不是默認的重復,而變成在後面跟上「?」才變得重復。這和 Perl 不兼容。也可以通過在模式之中設定 (?U) 修正符或者在數量符之後跟一個問號(如 .*?)來啟用此選項。
X(PCRE_EXTRA)
此修正符啟用了一個 PCRE 中與 Perl 不兼容的額外功能。模式中的任何反斜線後面跟上一個沒有特殊意義的字母導致一個錯誤,從而保留此組合以備將來擴充。默認情況下,和 Perl 一樣,一個反斜線後面跟一個沒有特殊意義的字母被當成該字母本身。當前沒有其它特性受此修正符控制。
u(PCRE_UTF8)
此修正符啟用了一個 PCRE 中與 Perl 不兼容的額外功能。模式字元串被當成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起開始檢查模式的 UTF-8 合法性。
❾ PHP函數preg_match_all正則表達式的基本使用詳細解析
了解正則表達式之前,須要掌握一些常用的正則表達式的基礎知識,這些如果能記得最好記得,記不住須要用的時候能查到就行,就多個特殊字元,所以說正則表達式玩的就是特殊,具體大家可以查看更加細致的說明。
preg_match_all函數具體說明大家可以查看PHP手冊,本文運用
preg_match_all用於測試正則表達的效果。
實例代碼:
復制代碼
代碼如下:
$html
=
'<div
id="biuuu">jb51.net</div><div
id="biuuu_2">jb51.net2</div><div
id="biuuu_3">jb51.net3</div>';
實例要求:分別將每一個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,jb51.net,jb51.net2和jb51.net3(一些常用的抓站要領就是這樣匹配的)
分析:字元串是一個基本的HTML元素,每一個DIV元素對應該一個ID和內容,並且是獨立的,首先考慮如何
取出一個DIV內的ID值和內容,如:jb51.net,然後匹配其它類似的元素。一個DIV中須要取出兩個值,也就是兩個匹配的表達式,第一個表達式用於匹配ID值(biuuu),第二個表達式用於匹配ID的內容(jb51.net),正則表達式常用的表達式運用小括弧,那麼前面的元素將會變成如下形式:
<div
id="(biuuu)">(jb51.net)</div>
<div
id="(表達式1)">(表達式2)</div>
好,運用如上小括弧把須要匹配的區域執行
了劃分,接下來就是如何
匹配各個表達式內的內容,我們猜想一個ID可能是字母,數字或下劃線,那這就變得基本了,運用中括弧就可以實現,如下:
表達式1:[a-zA-Z0-9_]+
(表示匹配大小寫字母,數字和下劃線)
那如何
匹配表達式2,因為ID的內容可以是任意的字元,但是要留心,不能匹配<或>字元,因為如果匹配這兩個字元將會把後面運用的DIV都匹配出來,因此須要排除這兩個字元開始的元素,也就是不匹配以<或>字元,如下:
表達式2:[^<>]+
(表示不匹配<和>字元)
這樣,須要匹配的子表達式就實現了,但是還要須要匹配一個
的表達式,要領如下:
表達式:/
'\"(表達式1)\"'>(表達式2)<\/div>/
留心其中的雙引號"和/須要運用
\轉義字元轉義,然後把前面兩個表達式放進去,
如下:
'\"([a-z0-9_]+)\"'>/<div
id=\"([a-z0-9_]+)\">([^<>]+)<\/div>/
這樣就實現一個匹配每一個DIV元素ID值和內容的正則表達式,然後運用
preg_match_all函數測試如下:
復制代碼
代碼如下:
$html
=
'<div
id="biuuu">jb51.net</div><div
id="biuuu_2">jb51.net2</div><div
id="biuuu_3">jb51.net3</div>';
preg_match_all('/<div\sid=\"([a-z0-9_]+)\">([^<>]+)<\/div>/',$html,$result);
var_mp($result);
結果:
復制代碼
代碼如下:
array(3)
{
[0]=>
array(3)
{
[0]=>
string(30)
"<div
id="biuuu">jb51.net</div>"
[1]=>
string(33)
"<div
id="biuuu_2">jb51.net2</div>"
[2]=>
string(33)
"<div
id="biuuu_3">jb51.net3</div>"
}
[1]=>
array(3)
{
[0]=>
string(5)
"biuuu"
[1]=>
string(7)
"biuuu_2"
[2]=>
string(7)
"biuuu_3"
}
[2]=>
array(3)
{
[0]=>
string(8)
"jb51.net"
[1]=>
string(9)
"jb51.net2"
[2]=>
string(9)
"jb51.net3"
}
}
共有三個表達式,分別顯示每一個表達式匹配的值,並以數組的形式存儲,這樣就把每一個DIV元素的ID和內容取出。運用正則表達式最主要還是要知道須要什麼,然後跟椐須要執行
匹配,並且思路清晰,並適當的藉助preg_match_all函數執行
輸出調試,非常方便。