sql字符串匹配
1. sql 正则表达式匹配
当我们要进行一些简单的糊涂查询时用百分号(%),通配符(_)就可以了.其中%表达任意长度的字符串,_表示任意的某一个字符.
比如
select*fromempwhereenamelike's%'orenamelike's_';
但如果在一些复杂的查询中关用这两个符号sql语句就会非常复杂,而且也不一定能实现.从Oracle 10g开始引入了在其他程序语言中普通使用的正则表达式.
主要有regexp_like,regexp_replace,regexp_substr,regexp_instr四个正则表达式函数.
正则表达式中的元字符:
元字符 意思 例子
说明要匹配的字符是一个特殊字符、常量或者后者引用。(后引用重复上一次的匹配)
匹配换行符
\ 匹配
匹配(匹配 )
^ 匹配字符串的开头位置 ^a匹配arwen.但不匹配barwen.
$ 匹配字符串的末尾位置 en$匹配arwen.但不匹配arwenb.
* 匹配前面的字符0次或多次 a*rwen可以匹配rwen或aaarwen.
+ 匹配前面的字符1次或多次 a+rwen可以匹配arwen或aarwen.但不能匹配rwen.
? 匹配前面的字符0次或1次 a?rwen可以匹配arwen或rwen.但不能匹配aarwen.
{n} 匹配前面的字符恰好是n次,其中n是整数 ar{2}wen可以匹配arrwen.但不能匹配arwen或arrrwen.
{n,m} 匹配前面的字符至少是n次,最多是m次.如果写成{n,} 表示最少匹配n次.没有上限.
ar{1,2}wen可以匹配arwen,arrwen.但不匹配awen或arrrwen.
. 点号,匹配除null,换行以外的任意单个字符 arw.n.可以匹配arwen,arwin.但不能匹配arween或arwn.
(pattern) 括号中pattern是一个子正则表达式,匹配指定pattern模式的一个子表达式。 其实括号就像一般语言表达式中的括号.有时多加些括号可增强可读性.另外的用处见下面关于 的描述.
x|y 匹配“或” x|y可以匹配x或者y
[abc] 可以匹配abc中的任何单个字符 hello[abc]可以匹配helloa,hellob,helloc
[a-z] 可以匹配指定范围内的任何单个字符 hell[a-z]可以匹配hello或者hellz
[::] 指定一个字符类,可以匹配该类中的任何字符 [:alphanum:]可以匹配字符0-9、A-Z、a-z
[:alpha:]可以匹配字符A-Z、a-z
[:blank:]可以匹配空格或tab键
[:digit:]可以匹配数字0-9
[:graph:]可以匹配非空字符
[:lower:]可以匹配小写字母a-z
[:print:]与[:graph:]类似,不同之处在于[:print:]包括空格字符
[:punct:]可以匹配标点符号.,""等等
[:space:]可以匹配所有的空字符
[:upper:]可以匹配大写字母A-Z
[:xdigit:]可以匹配十六进制数字0-9、A-F、a-f
这是对前一次匹配命中的一个后引用,其中n是一个正整数 arw(en)1可以匹配arwenen.注意1前面必须是个加括号的子表达式.
regexp_like:
regexp_like(x,pattern[,match_option]),查看x是否与pattern相匹配,该函数还可以提供一个可选的参数match_option字符串说明默认的匹配选项。match_option的取值如下:
‘c’ 说明在进行匹配时区分大小写(缺省值);
'i' 说明在进行匹配时不区分大小写;
'n'(.)点号能表示所有单个字符,包括换行(俺还不知道什么地方有用到换行.只知道sql里面可以用chr(10)表示换行.
'm' 字符串存在换行的时候当作多行处理.这样$就可匹配每行的结尾.不然的话$只匹配字符串最后的位置.
示例:select * from emp where regexp_like(ename,'^a[a-z]*n$');可以查找ename中以a开头以n结尾的行.例如ename为arwen或arwin或anden.但Arwen不能被匹配.因为默认是区分大小写.如果是select * from emp where regexp_like(ename,'^a[a-z]*n$','i')则可以查找ename为Arwen的行记录.
2. regexp_instr:
REGEXP_INSTR(x,pattern[,start[,occurrence[,return_option[, match_option]]]])用于在x中查找pattern。返回pattern在x中出现的位置。匹配位置从1开始。可以参考字符串函数 INSTR(),参数相关:
'start' 开始查找的位置;
'occurrence' 说明应该返回第几次出现pattern的位置;
'return_option' 说明应该返回什么整数。若该参数为0,则说明要返回的整数是x中的一个字符的位置;若该参数为非0的整数,则说明要返回的整数为x中出现在pattern之后 的字符的位置;
'match_option' 修改默认的匹配设置.与regexp_like里面的相同.
示例:
DECLARE
V_RESULTINTEGER;
BEGIN
SELECT REGEXP_INSTR('hello world','o',1,1,0)INTO V_RESULT
FROM DUAL;
DBMS_OUTPUT.PUT_LINE(V_RESULT);
END;
结果为5.即字母o第一个次出现的位置
如果regexp_instr('hello world','o',1,1,n)其中n为除0之外的整数.比如1,3.则结果为6.表示第一次出现字母o的后面一个字符的位置.
如果regexp_instr('hello world','o',1,2,0)则结果为9.表示第二次出现字母o的位置.
3. regexp_replace:
REGEXP_REPLACE(x,pattern[,replace_string[,start[,occurrence[, match_option]]]])用于在x中查找pattern,并将其替换为replae_string。可以参考字符串函数 REPLACE(),参数同REGEXP_INSTR函数
示例:
DECLARE
V_RESULT varchar2(90);
BEGIN
SELECT REGEXP_REPLACE('hello world','o','x',1,1)INTO V_RESULT
FROM DUAL;
DBMS_OUTPUT.PUT_LINE(V_RESULT);
END;
结果为hellx world.
如果REGEXP_REPLACE('hello world','o','x'),则结果为hellx wxrld.
如果 REGEXP_REPLACE('hello w
orld','o','x',1,2)则结果为hello wxrld.
4.regexp_substr:
REGEXP_SUBSTR(x,pattern[,start[,occurrence[, match_option]]])用于在x中查找pattern并返回。可以参考字符串函数 SUBSTR(),参数同REGEXP_INSTR函数.
例如:
DECLARE
V_RESULT VARCHAR2(255);
BEGIN
SELECTREGEXP_SUBSTR('hello world','l{2}')INTO V_RESULT
FROM DUAL;
DBMS_OUTPUT.PUT_LINE(V_RESULT);
END;
结果为ll
查询到匹配的字符串才返回匹配的字符.没查到就返回空.
2. SQL的正则表达式
注意:正则表达式后面需用''括起来,因为正则表达式是针对“文本”的匹配。
正则表达式REGEXP可以理解为可支持更多规则/通配符的LIKE,可以对检索内容进行更强的控制。LIKE本身只能和%及_这两种通配符连接进行粗略的搜索,而REGEXP可以支持更多规则,比如.是和%一样的可匹配任意一个字符的正则模式,[]可匹配一个范围,如REGEXP '[1-5] ton'可以搜索出来1 ton、2 ton、3 ton、4 ton、5 ton。
一些正则模式:
. :匹配任意一个字符,类似于%
| :类似于OR
[] :字符集合,可用|隔开表or选项,也可用-定义范围
[^] :类似于NOT,匹配非[]框内的
定位元字符 :
^ :匹配输入字符串的开始位置【^有两种用法,一种是开始位置,一种和[]连在一起表示NOT】
$ :匹配输入字符串的结束位置
[[:<:]] :词的开始
[[:<:]] :词的结尾
字符类 (预定义的字符集,类似“快捷键”):
重复元字符 :
* :0次或多次匹配
+ :1次或多次匹配(等于{1,})
? :匹配它前面的任何字符0次或1次(等于{0,1})
{n} :指定数目的匹配
{n,} :不少于指定数目的匹配
{n,m} :匹配数目的范围(m不超过255)
正则表达式略复杂,但用好了会非常方便,所以务必把各种正则模式记熟。
关于特殊字符所在位置会造成不同影响,有个小例子:
^[0-9\\.]表示查找以0-9里任意一个数字和“.”开头的字符串
[^0-9\\.]表示除了“0-9.”这个单词外的任意字符串
转义
如果想搜出代表正则模式字符本身,比如想查找“.”,如果直接输REGEXP '.',那么查找出来的将是全部行,因为“.”表示任意字符;又比如想查找“|”,直接输REGEXP '|',那么查找不出结果,因为正则表达式认为这是or的含义,此时需要用到“转义”的功能,即在想查找的特殊字符前输入两条斜杠——“//”,告诉正则表达式现在要查找的是特殊字符本身,而不是它所代表的含义。
另外还有一些在SQL练习中碰到的其他注意事项:
NOT只对单个字段有效,如果想多重否定,需要在每个字段前都加上NOT,比如 WHERE vend_id NOT IN(1002,1003) AND prod_price NOT IN (5.99);
通配符%可以任意长度的字符,包括0字符,但不能匹配出NULL;_只能匹配单个字符。注意尽量少使用通配符,并且尽量不要在开头使用,避免搜索时间过长。
3. SQL语言的字符串匹配运算符是
以sqlserver,oracle,mysql三种数据库为例,因为这三种数据库具有代表性。
sqlserver:
select
'123'+'456';
oracle:
select
'123'||'456'
from
al;
或
select
concat('123','456')
from
al;
mysql:
select
concat('123','456');
注意:oracle和mysql中虽然都有concat,但是oracle中只能拼接2个字符串,所以建议用||的方式;mysql中的concat则可以拼接多个字符串。
4. SQL 查询字符串匹配的个数
将要查询字段的租卖梁长度减弊运去该字段将要查询字符替换为空后的长度
select len(字段名)-len(replace(字段名配谨,要查询的字符,''))from table