通过例子学习正则表达式(一)--基础知识

类别:编程语言 点击:0 评论:0 推荐:
正则表达式的基本语法:

首先,让我们看一看两个特殊符号:'^' 和 '$'.它们的作用是指明一个字符串的开头和结尾.分别像这样:


"^The": 对应任何以 "The" 开始的字符串
"of despair$": 对应以 "of despair" 结尾的字符串
"^abc$": 一个以 "abc" 开头然后结尾的字符串---就是"abc"自己!
"notice": 一个包含"notice" 的字符串.

你可以看到如果你两个符号都不使用,就像最后的那个例子,你等于在表述:在字符串的任意位置符合样式都可以,就是说你不管它出现在头还是尾.

还有几个符号 '*', '+', 和 '?',它们表示字符或字符串出现的数目. 他们的意思分别是:"0或更多(任意)", "1或更多(至少1次)", 和"0或1次(至多1次)". 下面有一些例子:


"ab*": 对应一个含有一个 a 后跟有任意个 b 的字符串 ("a", "ab", "abbb", 等等.);
"ab+": 类似, 不过至少有一个 b ("ab", "abbb", 等等.);
"ab?": 要么一个 b 要么没有;
"a?b+$": 结尾部分可能有一个 a ,也可能没有,后面是1个以上的 b.

你还可以使用花括号,里面的数字将指明前面字符出现的范围:


"ab{2}": 对应含有一个 a 后面跟着2个 b ("abb") 的字符串;
"ab{2,}": 至少含有2个b 的("abb", "abbbb", 等等.);
"ab{3,5}": 3到5个 b ("abbb", "abbbb", or "abbbbb").

注意你必须注意范围的第一个数字.(例如:"{0,2}", 不可以是"{,2}"). 同时你可能已经注意到了,字符'*', '+', 和'?'与"{0,}", "{1,}", 和 "{0,1}"的功能是一样的.

现在,来量化一些字符序列/小字符串,把他们放入圆括号里:

"a(bc)*": 对应一个含有任意个 "bc" 在 a 后面的字符串;
"a(bc){1,5}": 1到5个 "bc" 都可以.

还有'|'字符,作用如同OR,用来选择:


"hi|hello": 对应一个有"hi" 或者 "hello" 的字符串;
"(b|cd)ef": 一个有 "bef" 或者 "cdef" 的字符串;
"(a|b)*c": 一个字符串有任意个a和b 的组合,然后以一个 c 结尾;
一个句号('.')表示任意单独字符:


"a.[0-9]": 表示拥有一个 a 后面跟着一个字符和一个数字的字符串;
"^.{3}$": 有 3 个字符的字符串.

方括号明确指出哪些字符可以出现在某个单个字符的位置:

"[ab]": 对应一个有一个 a 或者一个 b (等同于"a|b");
"[a-d]": 一个字符串有小写字母 'a' 到 'd' (等同于 "a|b|c|d" 甚至是 "[abcd]");
"^[a-zA-Z]": 一个开始字符是英文字母的字符串;
"[0-9]%": 有一个数字在百分号前的字串;
",[a-zA-Z0-9]$": 一个字符串结尾是逗号后面跟着一个数字或字母.

你可以使用一个列表剔除你不想要的字符--只要使用一个'^'在你的方括号里的第一个位置 (例如, "%[^a-zA-Z]%" 表示在两个百分号之间的一个字符不是英文字母).另外,你必须注意,某些时候,你不必多加一个反斜杠表示特殊字符失效,比如在字符类的第一个位置时.看例子:"($|¥)[0-9]+"的含义可以表示成ereg("(\$|¥)[0-9]+", $str) (这匹配的是什么字符串?)

不要忘记了,在方括号里的所有特殊字符都将失去特殊含义(注: '^'和'-'例外吧),包括反斜杠,例如"[*+?{}.]"就是匹配这些符号中的任意一个. Regex man pages告诉我们:如果包含一个']',你可以把它放在第一个字符位置,也可以在它的前面放一个反斜杠(例如/[abc]]/)

最后,我应该提一下还有如:collating sequences, character classes, 和 equivalence classes之类,我不会再提它们的细节,因为这和本文章的深入关系不大,你可以在regex man pages找到更多内容.

转自:http://se2k.51.net/myphp/

本文地址:http://com.8s8s.com/it/it27789.htm