當前位置:首頁 » 編程語言 » 中文正則php

中文正則php

發布時間: 2022-11-14 07:41:30

php正則匹配中文亂碼問題

當然亂碼啦,一個漢字在php里是三個字元,你這樣直接用.去匹配任意字元的話,三個.才等於一個漢字。你把一個漢字給截取掉了,當然亂碼了,不信你把你的0,10改成0,11。就不亂碼的,而且只匹配出兩個漢字。漢字不是這樣去匹配的,有專門匹配漢字的正則,

Ⅱ PHP正則提取中文部分內容,怎麼實現呀

中文可以用正則表達式進行匹配,但是具體匹配方法與中文的編碼方式有關:


如果是GBK(GB2312、GB1080),那麼中文的編碼范圍是:

x80-xff


如果是UTF-8編碼,那麼中文的編碼范圍是:

u4e00-u9fa5


那麼匹配漢字的正則表達式可以是:

/[x7f-xff]+/

或者

/[u4e00-u9fa5]+/


例子代碼,顯示文件中的所有漢字(GBK編碼):

<?php
$s=file_get_contents('1.txt');
if(preg_match_all('/[x7f-xff]+/',$s,$r)){
for($i=1;$i<count($r[0]);$i++)echo"$i ".$r[0][$i]." ";
}
?>

Ⅲ php中如何用正則表達式匹配中文字元呢

php中匹配一個或多個中文字元(包含簡體和繁體中文字元)的正則表達式如下:/[[b]\x{4e00}-\x{9fa5}]+/注意:php中正則表達式的16進制是以
\x
開頭的。

Ⅳ php正則表達式匹配一段中文,中間有換行,空白,應該怎麼寫

有多種處理方法:

1、使用[sS]匹配任意字元,而不是使用「.」
2、使用s單行修飾模式,例:$pattern='#abc.*?def#s';//能匹配abc換行def
3、使用s*匹配換行和空格,php里s能匹配空白字元,含換行

php里的中文使用[x7f-xff]表示,因此,使用正則:

$pattern='#[x7f-xff]+(?:s*[x7f-xff]+)*#';即可

Ⅳ 超常用的PHP正則表達式收集整理

以下就是對超常用的PHP正則表達式進行的收集整理,為了方便大家更快更好的掌握php正則表達式。
一、表單驗證匹配
驗證賬號,字母開頭,允許
5-16
位元組,允許字母數字下劃線:^[a-zA-Z][a-zA-Z0-9_]{4,15}$
驗證賬號,不能為空,不能有空格,只能是英文字母:^\S+[a-z
A-Z]$
驗證賬號,不能有空格,不能非數字:^\d+$
驗證用戶密碼,以字母開頭,長度在
6-18
之間:^[a-zA-Z]\w{5,17}$
驗證是否含有
^%&',;=?$\
等字元:[^%&',;=?$\x22]+
匹配Email地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配騰訊QQ號:[1-9][0-9]{4,}
匹配日期,只能是
2004-10-22
格式:^\d{4}\-\d{1,2}-\d{1,2}$
匹配國內電話號碼:^\d{3}-\d{8}|\d{4}-\d{7,8}$------------評註:匹配形式如010-12345678
或0571-12345678

0831-1234567
匹配中國郵政編碼:^[1-9]\d{5}(?!\d)$
匹配身份證:\d{14}(\d{4}|(\d{3}[xX])|\d{1})------------評註:中國的身份證為15
位或18

不能為空且二十位元組以上:^[\s|\S]{20,}$
二、字元匹配
匹配由
26
個英文字母組成的字元串:^[A-Za-z]+$
匹配由
26
個大寫英文字母組成的字元串:^[A-Z]+$
匹配由
26
個小寫英文字母組成的字元串:^[a-z]+$
匹配由數字和
26
個英文字母組成的字元串:^[A-Za-z0-9]+$
匹配由數字、26個英文字母或者下劃線組成的字元串:^\w+$
匹配空行:\n[\s|
]*\r
匹配任何內容:[\s\S]*
匹配中文字元:[\x80-\xff]+
或者
[\xa1-\xff]+
只能輸入漢字:^[\x80-\xff],{0,}$
匹配雙位元組字元(包括漢字在內):[^\x00-\xff]
三、匹配數字
只能輸入數字:^[0-9]*$
只能輸入n位的數字:^\d{n}$
只能輸入至少n位數字:^\d{n,}$
只能輸入m-n位的數字:^\d{m,n}$
匹配正整數:^[1-9]\d*$
匹配負整數:^-[1-9]\d*$
匹配整數:^-?[1-9]\d*$
匹配非負整數(正整數
+
0):^[1-9]\d*|0$
匹配非正整數(負整數
+
0):^-[1-9]\d*|0$
匹配正浮點數:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
匹配負浮點數:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
匹配浮點數:^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
匹配非負浮點數(正浮點數
+
0):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
匹配非正浮點數(負浮點數
+
0):^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
四、其他
匹配HTML標記的正則表達式(無法匹配嵌套標簽):<(\S*?)[^>]*>.*?</\1>|<.*?
/>
匹配網址
URL
:[a-zA-z]+://[^\s]*
匹配
IP
地址:((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)
匹配完整域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
提示
上述正則表達式通常都加了
^

$
來限定字元的起始和結束,如果需要匹配的內容包括在字元串當中,可能需要考慮去掉
^

$
限定符。
以上正則表達式僅供參考,使用時請檢驗後再使用,希望通過這些超常用的PHP正則表達式

Ⅵ php正則判斷字元串是否含有中文

functionchk_cn($str){
if(preg_match('|[x{4e00}-x{9fa5}]+?|u',$str)){
returntrue;
}
returnfalse;
}

調用這個 函數,返回true則是含有中文,false則無中文。

另外,x{4e00}-x{9fa5} 這個范圍我也不太確定是不是包含所有的中文范圍,沒有認真研究它的取值范圍。

Ⅶ PHP正則表達式中怎麼匹配漢字啊 - 技術問答

匹配中文字元的正則表達式:
[\\u4e00-\\u9fa5]匹配雙位元組字元(包括漢字在內):[^\\x00-\\xff]應用:計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1)String.prototype.len=function(){return
this.replace([^\\x00-\\xff]/g,\"aa\").length;}匹配空行的正則表達式:\\n[\\s|
]*\\r匹配HTML標記的正則表達式:/.*|/匹配首尾空格的正則表達式:(^\\s*)|(\\s*$)

Ⅷ 史上最全的PHP正則表達式

一、校驗數字的表達式 

1 數字:

^[0-9]*$

2 n位的數字:

^\d{n}$

3 至少n位的數字:

^\d{n,}$

4 m-n位的數字:

^\d{m,n}$

5 零和非零開頭的數字:

^(0|[1-9][0-9]*)$

6 非零開頭的最多帶兩位小數的數字:

^([1-9][0-9]*)+(.[0-9]{1,2})?$

7 帶1-2位小數的正數或負數:

^(\-)?\d+(\.\d{1,2})?$

8 正數、負數、和小數:

^(\-|\+)?\d+(\.\d+)?$

9 有兩位小數的正實數:

^[0-9]+(.[0-9]{2})?$

10 有1~3位小數的正實數:

^[0-9]+(.[0-9]{1,3})?$

11 非零的正整數:

^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12 非零的負整數:

^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13 非負整數:

^\d+$ 或 ^[1-9]\d*|0$

14 非正整數:

^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15 非負浮點數:

^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16 非正浮點數:

^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17 正浮點數:

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18 負浮點數:

^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19 浮點數:

^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校驗字元的表達式

1 漢字:

^[\u4e00-\u9fa5]{0,}$

2 英文和數字:

^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3 長度為3-20的所有字元:

^.{3,20}$

4 由26個英文字母組成的字元串:

^[A-Za-z]+$

5 由26個大寫英文字母組成的字元串:

^[A-Z]+$

6 由26個小寫英文字母組成的字元串:

^[a-z]+$

7 由數字和26個英文字母組成的字元串:

^[A-Za-z0-9]+$

8 由數字、26個英文字母或者下劃線組成的字元串:

^\w+$ 或 ^\w{3,20}$

9 中文、英文、數字包括下劃線:

^[\u4E00-\u9FA5A-Za-z0-9_]+$

10 中文、英文、數字但不包括下劃線等符號:

^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11 可以輸入含有^%&',;=?$\"等字元:

[^%&',;=?$\x22]+

12 禁止輸入含有~的字元:

[^~\x22]+

三、特殊需求表達式

1、 Email地址:

^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

2 、域名:

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3 、InternetURL:

[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

4 、手機號碼:

^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

5 、電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):

^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$ 

6 國內電話號碼(0511-4405222、021-87888822):

\d{3}-\d{8}|\d{4}-\d{7}

7 、身份證號:

15或18位身份證:

^\d{15}|\d{18}$

15位身份證:

^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$

18位身份證:

^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$

8、 短身份證號碼(數字、字母x結尾):

^([0-9]){7,18}(x|X)?$



^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

9 、帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 、密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):

^[a-zA-Z]\w{5,17}$

11 、強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字元,長度在8-10之間):

^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ 

12、 日期格式:

^\d{4}-\d{1,2}-\d{1,2}

13、 一年的12個月(01~09和1~12):

^(0?[1-9]|1[0-2])$

14 、一個月的31天(01~09和1~31):

^((0?[1-9])|((1|2)[0-9])|30|31)$ 

15 、錢的輸入格式:

16 、1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":

^[1-9][0-9]*$ 

17、 2.這表示任意一個不以0開頭的數字,但是,這也意味著一個字元"0"不通過,所以我們採用下面的形式:

^(0|[1-9][0-9]*)$ 

18 、3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號:

^(0|-?[1-9][0-9]*)$ 

19 、4.這表示一個0或者一個可能為負的開頭不為0的數字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分:

^[0-9]+(.[0-9]+)?$ 

20 、5.必須說明的是,小數點後面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:

^[0-9]+(.[0-9]{2})?$ 

21、 6.這樣我們規定小數點後面必須有兩位,如果你認為太苛刻了,可以這樣:

^[0-9]+(.[0-9]{1,2})?$ 

22、 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:

^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$ 

23 、8.1到3個數字,後面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須:

^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ 

24 、備註:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字元串也可以接受的話(奇怪,為什麼?)最後,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這里

25 、xml文件:

^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

26 、中文字元的正則表達式:

[\u4e00-\u9fa5]

27 、雙位元組字元:

[^\x00-\xff]

(包括漢字在內,可以用來計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1))

28 、空白行的正則表達式:\n\s*\r (可以用來刪除空白行)

29 、HTML標記的正則表達式:

<(\S*?)[^>]*>.*?|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於復雜的嵌套標記依舊無能為力)

30 、首尾空白字元的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表達式)

31 、騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)

32 、中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數字)

33、 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用)

Ⅸ php 求用正則匹配中文以及標點符號

你指的連續,那麼就要求是兩個以上了:

1

$reg ='/[\x80-\xff]{2,}/';

這個正則是表示匹配兩個位元組以上的多位元組字元(多位元組字元通常高位為 1)。

Ⅹ 網址中帶有中文字元的php正則表達式

在中文字元出現的地方用[^`]+表示,你也可以用其它字元代替「`」,只要中文字元內處不可能出現的字元就行。
意思是:不是「`」字元,除了「`」的一切字元,包括中文,重復一次或多次。
為什麼要這樣表示中文字元的集合呢?
可能是因為在正則表達式中沒有表示中文字元的字元類或集合或范圍。甚至[[:print:]]+都不行!
測試如下:
<?php
$str='ffdjsfjshgfhfg<12><模式>d<括弧內的部分>f符類中fs<字元類中可tryrt用的元字元為>:sjssdfsfs,sfsfjksjk,<iogfds12346789>括弧內的部分';

$b='[<][^<]+[>]';//有可能出現中文字元的地方用[^<]+表示
//$b='[<][[:print:]]+[>]';

while(eregi($b,$str,$array))
{
$str_h=str_replace("<","<",$array[0]);
$str_h=str_replace(">",">",$str_h);

echo $str_h."</br>";
$str=str_replace($array[0],'',$str);
}//From J.L
?>

熱點內容
手機路由器如何登陸密碼 發布:2025-01-12 18:35:41 瀏覽:464
電光貓無法連接伺服器是什麼原因 發布:2025-01-12 18:32:58 瀏覽:512
迷你世界測試服的密碼從哪裡打開 發布:2025-01-12 18:25:32 瀏覽:110
我的世界手游tis伺服器 發布:2025-01-12 18:24:28 瀏覽:585
青海省分布式伺服器雲主機 發布:2025-01-12 18:12:03 瀏覽:476
英雄聯盟安卓手機版怎麼切換 發布:2025-01-12 18:10:53 瀏覽:381
q5尊享時尚型哪些配置 發布:2025-01-12 18:05:41 瀏覽:229
安卓版本哪裡下載 發布:2025-01-12 18:05:39 瀏覽:557
mc伺服器搭建搜不到 發布:2025-01-12 17:57:37 瀏覽:18
手機手勢密碼忘了怎麼辦 發布:2025-01-12 17:14:51 瀏覽:487