正则表达式和字符串处理
第一章正则表达式概述正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种: l用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。 l描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。 l由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。 l用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。 l用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。 以上这些定义其实也就是正则表达式的作用。 第二章 正则表达式基础理论这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论: l元字符 l字符串 l字符转义 l反义 l限定符 l替换 l分组 l反向引用 l零宽度断言 l匹配选项 l注释 l优先级顺序 l递归匹配 2.1元字符 在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、 w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。 2.1.1匹配位置的元字符 包括:^、$、和b。其中^(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。比如,^string匹配以string开头的行,string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。b匹配单词的开始和结尾,如:bstr匹配以str开始的单词,但b不匹配空格、标点符号或换行符号,所以,bstr可以匹配string、string fomat等单词。bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如string、This is a string等 Ingb 正则表达式ingb匹配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:bstringb。 2.1.2 匹配字符的元字符 匹配字符的元字符有7个:.(点号)、w、W、、s、S、d和D。其中点号匹配除换行之外的任意字符;w匹配单词字符(包括字母、汉字、下划线和数字);W匹配任意非单词字符、s匹配任意的空白字符,如空格、制表符、换行等;S匹配任意的非空白字符;d匹配任意数字字符;D匹配任意的非数字字符。如: ^.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。 ^w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。 bawwwwwwb匹配以字母a开头长度等于7的任意单词 bawwwdddDb匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词 2.2 字符类 字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在[](方括号)中定义。如: [012345]可以匹配数字0到5中的任意一个。 <H[123456]>可以匹配HTML标签中的H1到H6。 [Jj]ack可以匹配字符串Jack或jack。 但是,由于表达式[0123456789]书写非常不方便,连字符(-)便应用而生,[0-9]等价于[0123456789]。[a-z]匹配任何小写字母,[A-Z]匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:[-a]表示表达式匹配-或者a。在字符类中如果^是字符类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:[^abc]匹配除了abc以外的任意字符,[^-]匹配除了连字符以外的任意字符,a[^b]匹配a之后不是b的字符串。 表2-1常用的字符类 2.3字符转义 表2-2:常用的转义字符 还有其他一些在后边章节中有特殊用处的标点符号,在前面加 "" 后,就代表该符号本身。比如:^,$ 都有特殊意义,如果要想匹配字符串中 "^" 和 "$" 字符,则表达式就需要写成 "^" 和 "$"。 2.4 反义 在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。其实我们已经使用过反义表达式,如W、S、D、[^abc]等。常用的反义表如下: 表2-3:常用的反义表达式 2.4 限定符 正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如{n}表示出现n次;{n,}表示重复至少n次;{n,m}表示至少出现n次最 多m次。常用限定符如下表: 表2-4:常用限定符 2.5 贪婪、惰性和支配性匹配 惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。 贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后一个字符并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。 支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。 我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?). 2.6替换 正则表达式0d{2}-d{8}和0d{3}-d{7}分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和号码均使用-连接,0d{2}-d{8}|0d{3}-d{7} 表2-5常用替换 2.7 分组 分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:(abc){1,2}表示abc出现一次或两次的字符串,其中把abc看做一个整体来进行匹配。 2.8 后向引用 当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可以代表该组的表达式。其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。如:(A?(B?(C?)))将产生3个组号,第一组为:(A?(B?(C?)));第二组为: (B?(C?));第三组为:(C?)。 反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。比如:b(w)1b匹配两个字符一样的单词,此表达式和b(w)wb不一样,后者两个字符可以不一样。再看,b(w)(d)12b,匹配一个字符和一个数字然后重复字符和数字。bw*(w+)1b匹配以至少两个字符一样结尾的单词。b(w+)bs+1b此正则表达式匹配的具体过程如下: a.表达式b(w+)b匹配一个单词并且单词的长度至少为1 b.表达式s+匹配一个或多个空白字符 c.表达式1将重复子表达式(w+)匹配的内容,及匹配重复的单词 d.匹配单词的结束位置。 分组不仅可以使用数字作为组号,还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式w+命名为word. (?<word>w+) (?’word’w+) 因此b(w+)bs+1b和以下正则表达式是等价的,都匹配重复的单词: b(?<word>w+)bs+k<word>b 表2-5后向引用说明表 表2-6常用分组说明 2.9 零宽度断言 元字符^、b、$都匹配一个位置,并且这个位置满足一定条件。在此把满足一个条件称为断言或零宽度断言。正则表达式中零宽度断言说明如下表: 表2-6零宽度断言 表达式(?=expression)、(?!expression)、(?<=expression)、和(?<!expression)都是匹配一个位置。下面将详细介绍表达式(?=expression)和(?<=expression)。 (?=expression)又称为零宽度正预测先行断言,它断言自身位置的前面能够匹配表达式expression。以下正则表达式匹配以ed结尾的单词的前面部分:bw+(?=edb)。 (?<=expression)又称为零宽度正回顾后发断言,它断言自身位置的后面能够匹配表达式expression,以下正则表达式匹配以an开头的单词的后面部分,即匹配单词除了字符串an之外的部分:(?<=ban)w+b 2.10 负向零宽度断言 (编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |