[8-27]正则表达式、扩展表达式以及相关实战

时间：2015-08-31 15:29:13 阅读：287 评论：0 收藏：0 [点我收藏+]

本文旨在复习正则表达式，扩展正则表达式，对基本概念、基本用法等作记录

知识储备

正则表达式：是文本搜索工具，根据用户指定的“PATTERN模式”去逐行匹配目标文本，打印匹配到的行
- 模式： 由正则表达式的元字符及文本字符，所编写的过滤条件
- 元字符：字符不标识其字面意义，用于表示通配或控制功能；
- 逐行： 请注意：正则处理单位是“行”，匹配时去匹配行，输出时输出行

BRE与ERE：
- BRE基本正则表达式，ERE扩展正则表达式
- 本质区别是[元字符的定义不一样罢了]，常用参数是一致的
- BRE与ERE可互相切换，grep命令中-E使用扩展正则，egrep中-G使用基本正则
FRE快速正则表达式
- 严格来说已经不是正则表达式了，单纯的字符文本匹配罢了

基本正则表达式BRE

Usage：

grep [OPTIONS] PATTERN [FILE...]

常用参数

-v：显示模式匹配不到的行，取反，这里是小写。大写是Version
-i：忽略字符大小写
-o：仅显示能够被模式匹配到的串本身，而不是行
-q：静默模式，无返回值，通过$?可以查看是否匹配到，0是匹配到，1是失败
-E：使用扩展的正则表达式

元字符：

字符匹配

.        匹配任意单个字符，请注意是单个
[]       匹配[]范围内的任意单个字符
[^]      匹配[]范围外地任意单个字符
请注意：[]表示字符集有2种常见的写法
枚举法：[A-Za-z]表示任意1个大小写字母,枚举法即将所有可能出现的字符写在[]里面,可以用","隔开，连续字符用“-”
特殊法：[:upper:]、[:alnum:]、[:alpha:],特殊法本质上是预先定义好的字符集合，按照规定引用即可
在ASNII编码中,[:alnum:]表示大小写和数字,而\w 还能够表示大小写字母、数字以及下划线 等价于[_A-Za-z0-9]

次数匹配

*        匹配前一个字符出现任意次,0次、1次、N次都可以
\?       匹配前一个字符出现0次或1次
\+       匹配前一个字符出现1次或N次
\{m\}    精确匹配前一个字符出现了m次，一定是m次
\{m,n\}  匹配前一个字符至少m次,至多n次,相当于[m,n],有以下2种引申用法
    \{m,\}    至少m次
    \{0,n\}   至多n次
请注意：
1.次数匹配一定是针对前一个字符而言的，就是描述前一个字符出现了多少次
2.有一个特殊用法 .* 表示任意长度的任意字符

位置锚定

行为单位
^        行首锚定, 简而言之就是 紧跟的字符为 行为首的行
$        行尾锚定,简而言之就是 前一个字符为 行尾的行
^$       特殊用法,表示空行
请注意： 空行是该行啥都没有,只有一个$行尾结束符。而不是空格,看下面这个实验

词为单位 --> Linux中单词的定义和英文单词不一样，标点符号作为单独单词，连续字母or数字组成算单词
\<       词首锚定
\>       词尾锚定
\b       锚定边缘,这玩意儿,既可以锚定词首,也可以锚定词尾,
请注意：
1.通常\b可以匹配边缘[词首、词尾],单并非总是等价的,因为正则默认工作在贪婪模式,有时候\b匹配的范围大于使用\<\>
2.建议写成\< \> 这样易读,且易于排错

从上面的元字符我们可以看出来一件事，总是在强调匹配单个字符，如果对于lancelancexy如何去描述，或者说如何去匹配连续出现的2次lance呢？

分组：

使用\(ABCDE\)将多个字符捆绑起来作为整体，对整体你可以附加字符匹配、次数匹配等等；
分组匹配的内容保存在内置的变量中，这些变量分别是\1,\2,\3 ...
\1：从左侧起，第一个左括号以及与之配对的右括号 中间的模式 所匹配到的内容
\2：从左侧起，第2个。。。。。你懂的
这就是后向引用：使用变量引用前面的分组括号中的模式所匹配到的
请注意：为什么使用\(\) 而不是()本身？
答：其实这是由于bash决定的,在bash中()有指定意义.而grep命令又是由bash解析然后提请给内核的,所以如果使用()那么bash就不能理解为分组的含义,这就需要使用\来告诉bash这个括号表示为分组的含义，这也很好地解释了上面的\{\} 呵呵

扩展正则表达式BRE

Usage：

egrep [OPTIONS] PATTERN [FILE...]

常用参数同基本正则表达式，参考前文

元字符：

字符匹配   ---> 同BRE
.         
[] 
[^]
次数匹配   ---> 同BRE,但是不需要\来特殊申明了
*
?        匹配前一个字符0次或1次
+        匹配前一个字符1次或N次
{m}      精确匹配前一个字符m次
{m,n}    次数在范围[m,n]中
位置锚定   ---> 同BRE
^
$
\<
\>
\b
分组       ---> 分组不需要\了        
()后向引用\1 \2 \3
请注意：特殊A|B 用法
匹配整个|左侧 或 右侧，
如C|cat              表示的含义是C或者cat
如果想表示Cat或者cat  请使用 (C|c)at