当前位置: 首页 > news >正文

Linux系统入门第十二章 --Shell编程之正则表达式

一、正则表达式

之前学习了 Shell 脚本的基础用法,已经可以利用条件判断、循环等语句编辑 Shell脚本。接下来我们将开始介绍一个很重要的概念-正则表达式(RegularExpression,RE)

1.正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说,是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grepegrepsedawk)以及应用比较广泛的 Python 语言正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。

2.正则表达式的用途

对于一般计算机用户来说,由于使用到正则表达式的机会不多,所以无法体会正则表达式的魅力,而对于系统管理员来说,正则表达式则是必备技能之一。
正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。
目前很多软件也支持正则表达式,最常见的就是邮件服务器。在Internet 中,垃圾的广告邮件经常会造成网络塞车,如果在服务器端就将这些问题邮件提前剔除的话,客户端就会减少很多不必要的带宽消耗。而目前常用的邮件服务器 postfix 以及支持邮件服务器的相关分析软件都支持正则表达式的对比功能。将来信的标题、内容与特殊字符串进行对比,发现问题邮件就过滤掉。
除邮件服务器之外,很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达式,不过字符串的对比规则还需要系统管理员来添加,因此正则表达式是系统管理员必须掌握的技能之一。

二、基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。

1、栗子:

1.1、准备测试文件:

vim test.txt
#文档内容
he was short and fat.
he was weating a blue polo shirt with black pants.
The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12!
google is the best tools for search keyword.
PI=3.14
a wood cross!
Actions speak louder than words#woood #
#woooooooood #
AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
Misfortunes never come alone/single.
I shouldn't have lett so tast.

1.2、查找特定字符:

查找特定字符非常简单,如执行以下命令即可从 test.txt 文件中查找出特定字符“the”所在位置其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后,符合匹配标准的字符,字体颜色会变为区分色

grep -ni "the" test.txt#“-n”表示显示行号
#“-i”表示不区分大小写

#不区分大小写的过滤出不包含“the”的行
grep -nvi "the" test.txt

1.3、利用中括号“[  ]”来查找集合字符

想要査找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符,都仅代表任意一个字符也就是说“[io]”表示匹配“i”或者“o”

grep -n "sh[oi]rt" test.txt

查找包含重复单个字符“oo”时

grep -n 'oo' test.txt

査找“oo”前面不是“w”的字符串

#过滤oo,但不以w开头
grep -n '[^w]oo' test.txt

在上述命令的执行结果中发现“'woood”与“wooooood”也符合匹配规则,二者均包含“w”。其实通过执行结果就可以看出,符合匹配标准的字符有区分色显示,而上述结果中可以得知,“#woood #”中加粗显示的是“ooo”,而“oo”前面的“o”是符合匹配规则的。同理“#woooooood #”也符合匹配规则。

若不希望“oo”前面存在小写字母,可以使用“grep -n'[^a-z]oo'test.txt”命令实现,其中 a-z”
表示小写字母,大写字母则通过“A-Z”表示。

grep -n '[^a-z]oo' test.txtgrep -n '[^A-Z]oo' test.txt

查找包含数字的行可以通过“grep -n '[0-9]' test.txt”命令

grep -n '[0-9]' test.txt

1.4、查找行首“^”与行尾字符“^”

基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中,査询“the”字符串时出现了很多包含“the”的行,如果想要査询以“the”字符串为行首的行,则可以通过“^”元字符来实现。

^a以a为开头
a$以a为结尾

#过滤出以the开头的行
grep -n "^the" test.txt

#查询以小写字母开头的行
grep -n "^[a-z]" test.txt#査询大写字母开头的行
grep -n "^[A-Z]" test.txt#查询不以字母开头的行
grep -n "^[^a-zA-Z]" test.txt

“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]”符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。例如,执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.)在正则表达式中也是一个元字符所以在这里需要用转义字符“!”将具有特殊意义的字符转化成普通字符

#过滤出以.结尾的行
#\ 转义
grep -n "\.$" test.txt

#过滤出空行
grep -n "^$" test.txt#过滤出非空行
grep -nv "^$" test.txt

1.5、查找任意一个字符“.”与重复字符“*”

前面提到,在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以査找“w??d”的字符串,即共有四个字符,以 w开头 d 结尾。

grep -n "w..d" test.txt

在上述结果中,“'wood”字符串“w..d”匹配规则。若想要査询 oo、ooo、ooooo 等资料,则需要使用星号(*)元字符。但需要注意的是,“*”代表的是重复零个或多个前面的单字符。“o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep-n'o*' test.txt”命令会将文本中所有的内容都输出打印。如果是“oo*”,则第一个 。必须存在,第二个。则是零个或多个 o,所以凡是包含 o、oo、ooo,等的资料都符合标准。同理,若査询包含至少两个 。 以上的字符串,则执行“grep -n 'ooo*' test.txt”命令即可。

grep -n "o*" test.txt

查询以 w 开头 d 结尾,中间包含至少一个 o的字符串

grep -n "woo*d" test.txt

查询以 w开头 d 结尾,中间的字符可有可无的字符串

grep -n "w.*d" test.txt

查询任意数字所在行

grep -n "[0-9][0-9]*" test.txt

1.6、查找连续字符范围“{}”

在上面的示例中,使用了“.”与“*”来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个o的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 shell 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。

查找2个o的字符

grep -n "o\{2\}" test.txt

查询以 w 开头以 d 结尾,中间包含 2~5 个o的字符串

grep -n "o\{2,5\}" test.txt

查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上o的字符串

grep -n "wo\{2,\}d" test.txt

2、元字符总结

字符说明
\将下一个字符标记为一个特殊字符,或一个原义字符,或一个向后引用,或一个八进制转义符
^匹配输入字符串的开始位置
$匹配输入字符串的结束位置
*匹配前面的子表达式零次或多次
+匹配前面的子表达式一次或多次
?匹配前面的子表达式零次或一次
.匹配除换行符 (\n, \r) 之外的任何单个字符
[a-z]字符范围,匹配指定范围内的任意字符
{n}n 是一个非负整数,匹配确定的 n 次
{n,}n 是一个非负整数,至少匹配 n 次
{n,m}m 和 n 均为非负整数,其中 n <= m。最少匹配 n 次且最多匹配 m 次
\d匹配一个数字字符。等价于 [0-9]。
\D匹配一个非数字字符。等价于 [^0-9]。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [\f\n\r\t\v]。
\S匹配任何非空白字符。等价于 [^\f\n\r\t\v]。
\w匹配字母、数字、下划线。等价于 '[A-Za-z0-9_]'。
\W匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'
\n匹配一个换行符
\f匹配一个换页符
\r匹配一个回车符

3、扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用范围更广的扩展正则表达式。例如,使用基础正则表达式査询除文件中空白行与行首为“#”之外的行(通常用于查看生效的配置文件),执行“grep -v'^$’test.txt|grep -v'^#’”即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式,可以简化为“egrep-v'^$|^#’test.txt”,其中,单引号内的管道符号表示或者(or)。
此外,grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 或 awk 命令。awk 命令在后面的小节进行讲解,这里我们直接使用 egrep 命令。egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式,使用该命令可以搜索文件中的任意字符串和符号,也可以搜索一个或多个文件的字符串,一个提示符可以是单个字符、一个字符串、一个字或一个句子。

3.1、“+”重复一个或者一个以上的前一个字符
#査询"wood""woood""woooooood"等字符串
egrep -n "wo+d" test.txt

3.2、“?”零个或者一个的前一个字符

#査询“bet"“best”这两个字符串
egrep -n 'bes?t' test.txt
3.3、“|”使用或者(or)的方式找出多个字符
#査询"of"或者"if"或者"on"字符串
egrep -n 'of|is|on' test.txt

3.4、“()”查找“组”字符串
#査询"tast"或者"test"字符串
egrep -n 't(a|e)st' test.txt

3.5、“()+”辨别多个重复的组
#査询开头的"A"结尾是"C",中间有一个以上的"xyz"字符串
egrep -n 'A(xyz)+C' test.txt

二、文本处理器

在 Linux/UNIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的 VIM编辑器与 grep 等。而 grep、sed、awk 更是 Shell 编程中经常用到的文本处理工具,被称之为 Shell编程三剑客。

sed工具

sed(stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于 shell 脚本中,用以完成各种自动化处理任务。

读取sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)
执行默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行
显示发送修改后的内容到输出流。在发送数据后,式空间将会被清空

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完

注意:默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化除非是用重定向存储输出。

sed [选项] '操作' 参数
sed「选项] -f scriptfile 参数

常见的 sed 命令选项

-e或--expression=表示用指定命令或者脚本来处理输入的文本文件
-f或--file=表示用指定的脚本文件来处理输入的文本文件
-h 或--help显示帮助
-n、--quiet 或 silent表示仅显示处理后的结果
-i直接编辑文本文件

“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~20 行之间进行,则表示为“5,20 动作行为”。

a增加,在当前行下面增加一行指定内容
c替换,将选定行替换为指定内容
d删除,删除选定的行
i插入,在选定行上面插入一行指定内容
p打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用
s替换,替换指定字符
y字符转换

1、打印

1.1、打印文本的内容
sed -n 'p' test.txt    #等同于 cat test.txt

1.2、输出指定行
sed -n '3p' test.txt

1.3、输出指定范围行
sed -n '3,5p' test.txt

1.4、输出奇数行的内容
sed -n 'p;n' test.txt#n;表示读入下一行资料
#p;打印

1.5、输出偶数行的内容
sed -n 'n;p' test.txt#n;表示读入下一行资料
#p;打印

1.6、输出指定范围奇数、偶数行
sed -n '1,5{p;n}' test.txtsed -n '1,5{p;n}' test.txt

1.7、输出第 10 行至文件尾之间的偶数行
sed -n '10,${n;p}' test.txt

在执行“sed  -n '10,${n;p}'test.txt” 命令时,读取的第 1 行是文件的第 18 行,读取的第 2行是文件的第 11 行,依此类推,所以输出的偶数行是文件的第 11 行、13 行直至文件结尾,其中包括空行。

sed 命令结合正则表达式时,格式略有不同,正则表达式以“/”包围

1.8、输出包含“the”的行
sed -n '/the/p' test.txt

1.9、输出从第 4行至第一个包含 the 的行
sed -n '4,/the/p' test.txt

1.10、输出包含 the 的行所在的行号,等号(=)用来输出行号
sed -n '/the/=' test.txt 

1.11、输出以 PI 开头的行
sed -n '/^PI/p' test.txt

1.12、输出以数字结尾的行
sed -n '/[0-9]$/p' test.txt

1.13、输出包含单词 wood 的行,\<、\>代表单词边界
sed -n '/\<wood\>/p' test.txt

2、删除

下面命令中 n1 命令用于计算文件的行数,结合该命令可以更加直观地査看到命令执行的结果。

2.1、删除指定行
nl test.txt |sed 3d

2.2、删除指定范围行
 nl test.txt |sed 5,7d

2.3、删除包含指定内容的行
nl test.txt |sed '/the/d'

2.4、删除以小写字母开头的行
sed '/^[a-z]/d' test.txt

2.5、删除以.结尾的行
sed '/\.$/d' test.txt

2.6、删除空行
sed '/^$/d' test.txt

注意:若是删除重复的空行,即连续的空行只保留一个,执行“sed -e '/^$/{n;/^$/d}' test.txt”命令即可实现。其效果与“cat-s test.txt”相同,n 表示读下一行数据

3、替换

在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)

3.1、替换指定内容
sed 's/the/THE/' test.txt

3.2、将每行中的第2个l替换为 L
sed 's/l/L/2' test.txt

3.3、将文件中的所有 the 替换为 THE
sed 's/the/THE/g' test.txt
3.4、将文件中的所有o删除(替换为空串)
sed 's/o//g' test.txt 
3.5、在每行行首插入#号
sed 's/^/#/g' test.txt

3.6、在指定内容的行开头加#
sed 's/the/^/#/g' test.txt
3.7、在每行的行末添加字符串
sed 's/$/#/g' test.txt

3.8、将第 3~5 行中的所有 the 替换为 THE
sed '3,5s/the/THE/g' test.txt

4、迁移

H复制到剪贴板
g、G将剪贴板中的数据覆盖/追加至指定行
w保存为文件
r读取指定文件
a追加指定内容
4.1、将包含 the 的行迁移至文件末尾,{;}用于多个操作
sed '/the/{H;d};$G' test.txt

4.2、将第 1~5 行内容转移至第/11行后
sed '1,5{H;d};11G' test.txt

4.3、将包含 the 的行另存为文件 out.file
sed '/the/w out.file' test.txt

4.4、在指定行的下边添加内容
#添加内容
sed '3aNew' test.txt#在第 3 行后插入多行内容,中间的\n 表示换行
sed '3aNew1\nNew2' test.txt

awk工具

在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 shell 脚本,完成各种自动化配置任务。
通常情况下 awk 所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk 可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。

#过滤并输出文件中符合条件的内容
awk 选项'模式或条件{编辑指令}'文件 1 文件 2...#从脚本中调用编辑指令,过滤并输出内容
awk -f 脚本文件 文件 1 文件 2...

前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理,且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。
在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件,各字段间使用“:”作为分隔符隔开,Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一

栗子:査找出/etc/passwd 的用户名、用户 ID、组 ID 等列

awk -F : '{print $1,$3,$4}' /etc/passwd

awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中的一个字段(域)。为了探作这些不同的字段,awk 借用 shell 中类似于位置变量的方法,用$1、$2、$3…顺序地表示行(记录)中的不同字段。另外 awk 用$0 表示整个行(记录)。
不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符。在上述示例中,awk 命令对/etc/passwd 文件的处理过程如下图所示

awk特殊的内建变量

FS指定每行文本的字段分隔符,默认为空格或制表位
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)
$0当前处理的行的整行内容。0:当前处理的行的整行内容
$n当前处理行的第n个字段(第n列)
FILENAME被处理的文件名
RS数据记录分隔,默认为\n,即每行为一条记录

1、按行输出文本

#输出所有内容,等同于cat test.txt
awk '{print}' test.txt awk '{print $0}' test.txt 

#输出第1行、第3行内容
awk 'NR==1||NR==3{print}' test.txt

#输出第1~3行内容
awk 'NR==1,NR==3{print}' test.txt#输出第1~3行内容
awk '(NR>=1)&&(NR<=3){print}' test.txt 

#输出所有奇数行的内容
awk '(NR%2)==1{print}' test.txt

#输出所有偶数行的内容
awk '(NR%2)==0{print}' test.txt

#输出以root开头的行
awk '/^root/{print}' /etc/passwd

#过滤出以nologin结尾的行
awk '/nologin$/{print}' /etc/passwd

2、按字段输出文本

#过滤出每行的第3个字段(未指定分割符时,默认为空格)
awk '{print $3}' test.txt

#指定分隔符过滤
awk -F : '{print $1 $3 $4}' /etc/passwd

3、通过管道、双引号调用 shell 命令

#调用 wc -1 命令统计使用 bash 的用户个数
awk -F : '/bash$/{print | "wc -l"}' /etc/passwdgrep -c "bash$" /etc/passwd

#调用w命令,并用来统计在线用户数
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'

#调用 hostname,并输出当前的主机名
awk 'BEGIN {"hostname" | getline ; print $0}'

总结

我们深入了解了正则表达式与文本处理器在 Shell 编程中的重要性和实际应用。正则表达式作为一种强大的文本匹配工具,通过简洁的字符组合实现了复杂的字符串匹配与操作,极大地提高了文本处理的效率与灵活性。基础正则表达式和扩展正则表达式的介绍,使我们掌握了从简单到复杂的文本匹配技巧。
同时,我们也详细探讨了 sed 和 awk 这两个强大的文本处理工具。sed 以其简洁而强大的命令集,能够轻松实现文本的删除、替换、迁移等操作,是自动化脚本编写中不可或缺的一部分。而 awk 则以其强大的文本分析能力,能够灵活地对文本进行格式化输出和复杂的数据处理,是处理结构化文本数据的理想选择。
通过本章的实战演练,我们不仅学会了正则表达式与文本处理器的基本语法和使用方法,还通过具体示例加深了对这些工具的理解。这些技能不仅对于 shell 编程至关重要,也是系统管理员、开发人员和数据分析师在日常工作中不可或缺的武器。掌握这些技能,将使我们能够更加高效地处理文本数据,提升工作效率,为未来的编程之路打下坚实的基础。

http://www.xdnf.cn/news/376291.html

相关文章:

  • [架构之美]Windows系统安装MySQL 8.0详细图文教程(十八)
  • 论文精读:YOLOE: Real-Time Seeing Anything
  • 从0开始学习大模型--Day05--理解prompt工程
  • 零知识证明:区块链隐私保护的变革力量
  • HTTPS加密握手与加密算法
  • Kotlin 内联函数深度解析:从源码到实践优化
  • 分书问题的递归枚举算法
  • [思维模式-25]:《本质思考力》-6- 马哲的三大规律:对立统一规律、质量互变规律、否定之否定规律,以及在计算机领域中的体现
  • RHCE实验:远程控制qq邮箱发送邮件
  • 20250510解决NanoPi NEO core开发板在Ubuntu core22.04.3系统下适配移远的4G模块EC200A-CN的问题
  • C++内存管理
  • 仓库管理系统,Java+Vue,含源码及文档,高效管理仓库物资,实现入库、存储、出库全流程数字化精准管控
  • 基于CNN卷积神经网络的带频偏QPSK调制信号检测识别算法matlab仿真
  • MySQL 从入门到精通(五):索引深度解析 —— 性能优化的核心武器
  • idea如何快速生成测试类
  • 【赵渝强老师】TiDB SQL层的工作机制
  • Yocto中`${B}`变量的作用
  • 论文图表自动编号与交叉引用
  • python中的继承和多态
  • FreeRTOS Queue消息队列-笔记
  • AlimaLinux设置静态IP
  • 护网HVV初级蓝队面试题总结
  • Axure :基于中继器的列表删除 、 列表编辑
  • 自动语音拨号系统V2.6.0产品说明书
  • Dockers部署oscarfonts/geoserver镜像的Geoserver
  • BERT类模型
  • CenOS7切换使用界面
  • 推荐一款免费开源工程项目管理系统软件,根据工程项目全过程管理流程开发的OA 办公系统
  • 基于定制开发开源AI智能名片S2B2C商城小程序的公私域流量融合运营策略研究
  • 策略路由更改路径