regular expression-CFANZ编程社区

1. 引言

例如使用grep命令查找一个特定模式的字符串。

模式包含

字符类（Character Class）
数量限定符（Quantifier）
各种字符类以及普通字符之间的位置关系

例如email的正则表达式[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+，IPv4地址的正则表达式[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}【实际上IPv4这个不一定正确，例如999.999.999.999不是IPv4地址，但是符合正则表达式】

egrep命令相当于grep -E，表示采用Extended 正则表达式语法。fgrep相当于grep -F，表示只搜索固定字符串而不搜索正则表达式模式。

注意：grep找的是包含某一模式的行，而不是完全匹配某一模式的行。【也就是要是完全匹配需要加上开头和结尾】

2. 基本语法

2.1 字符类

字符	含义	举例
`.`	匹配任意一个字符	`abc.`可以匹配`abcd`、`abc9`等
`[]`	匹配括号中的任意一个字符	`[abc]d`可以匹配`ad`、`bd`或`cd`
`-`	在`[]`括号内表示字符范围	`[0-9a-fA-F]`可以匹配一位十六进制数字
`^`	位于`[]`括号内的开头，匹配除括号中的字符之外的任意一个字符	`[^xy]`匹配除`xy`之外的任一字符，因此`[^xy]1`可以匹配`a1`、`b1`但不匹配`x1`、`y1`
`[[:xxx:]]`	`grep`工具预定义的一些命名字符类	`[[:alpha:]]`匹配一个字母，`[[:digit:]]`匹配一个数字

2.2 数量限定符

字符	含义	举例
`?`	紧跟在它前面的单元应匹配零次或一次	`[0-9]?\.[0-9]`匹配`0.0`、`2.3`、`.5`等，由于`.`在正则表达式中是一个特殊字符，所以需要用`\`转义一下，取字面值
`+`	紧跟在它前面的单元应匹配一次或多次	`[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+`匹配email地址
`*`	紧跟在它前面的单元应匹配零次或多次	`[0-9][0-9]`匹配至少一位数字，等价于`[0-9]+`，`[a-zA-Z_]+[a-zA-Z_0-9]`匹配C语言的标识符
`{N}`	紧跟在它前面的单元应精确匹配N次	`[1-9][0-9]{2}`匹配从100到999的整数
`{N,}`	紧跟在它前面的单元应匹配至少N次	`[1-9][0-9]{2,}`匹配三位以上（含三位）的整数
`{,M}`	紧跟在它前面的单元应匹配最多M次	`[0-9]{,1}`相当于`[0-9]?`
`{N,M}`	紧跟在它前面的单元应匹配至少N次，最多M次	`[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}`匹配IP地址

2.3 位置限定符

字符	含义	举例
`^`	匹配行首的位置	`^Content`匹配位于一行开头的`Content`
`$`	匹配行末的位置	`;$`匹配位于一行结尾的`;`号，`^$`匹配空行
`\<`	匹配单词开头的位置	`\<th`匹配`... this`，但不匹配`ethernet`、`tenth`
`\>`	匹配单词结尾的位置	`p\>`匹配`leap ...`，但不匹配`parent`、`sleepy`
`\b`	匹配单词开头或结尾的位置	`\bat\b`匹配`... at ...`，但不匹配`cat`、`atexit`、`batch`
`\B`	匹配非单词开头和结尾的位置	`\Bat\B`匹配`battery`，但不匹配`... attend`、`hat...`

2.4 其它特殊字符

字符	含义	举例
`\`	转义字符，普通字符转义为特殊字符，特殊字符转为普通字符	普通字符`<`写为`\<`表示单词开头的位置，特殊字符`.`写成`\.`以及`\`写成`\\`就当作普通字符来匹配
`()`	将正则表达式的一部分括起来组成一个单元，可以对整个单元使用数量限定符	`([0-9]{1,3}\.){3}[0-9]{1,3}`匹配IP地址
`\|`	连接两个子表达式，表示或的关系	`n(o\|either)`匹配`no`或`neither`

以上介绍的是grep正则表达式的Extended规范，Basic规范也有这些语法，只是字符?+{}|()应解释为普通字符，要表示上述特殊含义则需要加\转义。如果用grep而不是egrep，并且不加-E参数，则应该遵照Basic规范来写正则表达式。

POSIX规定了正则表达式的C语言库函数，详见regex(3)

$ man 3 regex

3. `sed`

sed意为流编辑器(Stream editor)，在Shell脚本和Makefile中作为过滤器使用非常普遍，也就是把前一个程序的输出引入sed的输入，经过一系列编辑命令转换为另一种格式输出。

sed和vi都源于早期UNIX的ed工具，所以很多sed命令和vi的末行命令是相同的。

3.1 基本格式

$ sed option 'script' file1 file2 ...
$ sed option -f scriptfile file1 file2 ...

sed处理的文件既可以由标准输入重定向得到，也可以当命令行参数传入，命令行参数可以一次传入多个文件，sed会依次处理。sed的编辑命令可以直接当命令行参数传入，也可以写成一个脚本文件然后用-f参数指定，编辑命令的格式为：/pattern/action。其中pattern是正则表达式，action是编辑操作。sed程序一行一行读出待处理文件，如果某一行与pattern匹配，则执行相应的action，如果一条命令没有pattern而只有action，这个action将作用于待处理文件的每一行。

3.2 常用命令

命令	释义
`/patter/p`	打印匹配`pattern`的行
`/pattern/d`	删除匹配`pattern`的行
`/pattern/s/pattern1/pattern2/`	查找符合`pattern`的行，将该行第一个匹配`pattern1`的字符串替换为`pattern2`
`/pattern/s/pattern1/pattern2/g`	查找符合`pattern`的行，将该行所有匹配`pattern1`的字符串替换为`pattern2`

sed会把待处理文件的内容连同处理结果一起输出到标准输出，所以/pattern/p会把文件内容打印以及符合pattern的行打印。

sed命令不会修改原文件，删除命令只表示某些行不打印输出，而不是从原文件中删去。

# 文件 testfile 的内容（不包含本行）
123
abc
456

# 打印其中包含 abc 的行
$ sed '/abc/p' testfile
123
abc
abc
456

# 要想只输出处理结果，应加上-n选项，这种用法相当于grep命令
$ sed -n '/abc/p' testfile
abc

# 使用 d 命令就不需要使用 -n 选项了
$ sed '/abc/d' testfile
123
456

# 使用查找替换命令时，可以把匹配pattern1的字符串复制到pattern2中
# pattern2中的&表示原文件的当前行中与pattern1相匹配的字符串
$ sed 's/bc/-&-' testfile
123
a-bc-
456

# pattern2中的\1表示与pattern1的第一个()括号相匹配的内容，\2表示与pattern1的第二个()括号相匹配的内容。
# sed默认使用Basic正则表达式规范，如果指定了-r选项则使用Extended规范，那么()括号就不必转义了。
$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
-1-~2~3
abc
-1-~5~6

4. `awk`

sed以行为单位处理文件，awk比sed强的地方在于不仅能以行为单位还能以列为单位处理文件。

4.1 基本格式

awk option 'script' file1 file2 ...
awk option -f scriptfile file1 file2 ...

和sed一样，awk处理的文件既可以由标准输入重定向得到，也可以当命令行参数传入，编辑命令可以直接当命令行参数传入，也可以用-f参数指定一个脚本文件，编辑命令的格式为：

/pattern/{actions}
condition{actions}

和sed类似，pattern是正则表达式，actions是一系列操作。

awk程序一行一行读出待处理文件，如果某一行与pattern匹配，或者满足condition条件，则执行相应的actions，如果一条awk命令只有actions部分，则actions作用于待处理文件的每一行。

# testfile 文件内容
ProductA 30
ProductB 76
ProductC 55

# 打印每一行的第二列，自动变量$1, $2分别表示第一列，第二列等，$0代表当前整行
$ awk '{print $2;}' testfile
30
76
55

# 如果某种产品的库存量低于75则在行末标注需要订货
$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile

# awk命令可以像C语言一样使用变量（但不需要定义变量），比如统计一个文件中的空行数
$ awk '/^ *$/ {x=x+1;} END {print x;}' testfile

# 打印系统中的用户帐号列表
$ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwd

awk命令的condition部分还可以是两个特殊的condition－BEGIN和END，对于每个待处理文件，BEGIN后面的actions在处理整个文件之前执行一次，END后面的actions在整个文件处理完之后执行一次。

4.2 `awk`常用的内建变量

变量	释义
`FILENAME`	当前输入文件的文件名，该变量是只读的
`NR`	当前行的行号，该变量是只读的，R代表Record
`NF`	当前行所拥有的列数，该变量是只读的，F代表Field
`OFS`	输出格式的列分割符，缺省是空格
`FS`	输入文件的列分隔符，缺省是连续的空格和Tab
`ORS`	输出格式的行分隔符，缺省是换行符
`RS`	输入文件的行分隔符，缺省是换行符