Linux的文本处理工具grep及初识正则表达式

时间：2015-05-19 10:59:50 阅读：215 评论：0 收藏：0 [点我收藏+]

一）、Linux的三大文本处理之GREP：

GREP（Global search REgular expression and Print out the line，全面搜索正则表达式并把行打印出来）:在给出文件列表或标准输出后，grep会对匹配一个或多个正则表达式的文本进行搜索，并只输出匹配（或者不匹配）的行或文本。----摘自于维基百科

GREP家族包括：

grep：

egrep：支持扩展正则表达式的grep，等同于grep -E。

fgrep：fixed grep或fast grep，不支持正则表达式。

二）、语法格式：

grep [option]... ‘PATTERN‘ FILE...

注意：以字符串逐行查找。

常用命令选项：

-v：反向选取，即显示不匹配的行。

-o：仅显示匹配的字串，而非字串所在的行。

-i：ignore-case，忽略字符大小写。

-E：支持使用扩展正则表达式。

-A #：显示匹配行及下#行。

-B #：显示匹配行及上#行。

-C #：显示匹配行及上下#行。

--color=auto：匹配到的字符串显示颜色。

三)、正则表达式：

Regular Expression，在代码中常简写为regex、regexp或RE，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。----摘自于维基百科

四）、元字符：

1）、字符匹配：

.：匹配任意一个单个字符

[]：匹配一个指定范围内的字符

[^]：匹配一个不在指定范围内的字符

[:digit:]：数字字符，即[0-9]

[:lower:]：小写字符，即[a-z]

[:upper:]：大写字符，即[A-Z]

[:alpha:]：文字字符，即[A-Z,a-z]

[:alnum:]：文字数字字符，即[A-Z,a-z,0-9]

[:xdigit:]：十六进制数字，即[0-9,a-f,A-F]

[:punct:]：标点符号

[:space:]：空白字符

[:graph:]：非空白字符

[:cntrl:]：控制字符

[:print:]：非空字符（包括空格）

2）、次数匹配：

*：零次或多次先前字符。

.*：任意次任意字符

\?:零次或一次先前字符。

\{m\}：先前字符重复m次。

\{m,n\}：先前字符m到n次。

x\{m,\}：先前字符至少m次。

x\{0,n\}：先前字符至多n次。

3）、位置锚定：

^：行首锚定。

$：行尾锚定。

^$:空白行。

\<，/b：锚定词首，出现于单词左侧。

\>，\b：锚定词尾，出现于单词右侧。

\<..\>,\b..\b：单词锁定符。

4）、分组和引用：

$..$：

分组中的模式匹配到的内容，可由正则表达式引擎记忆在内存中，之后可被引用。

\#：

引用第n个括号所匹配到的内容，而非模式本身。

五）、扩展正则表达式

1）、字符匹配：

与基本正则表达式相同。

2）、次数匹配

与基本正则表达式相同，且无需转译。

+：一次或多次先前字符。

a|b:分支，a或b，

con(C|c)at：concat或conCat

conC|cat：conC或cat

3）、位置锚定：

与基本正则表达式相同。

4）、分组和引用

与基本正则表达式相同，分组无需转译。

六）、实例说明：

01、显示/proc/meminfo文件中以大写或小写S开头的行。

#grep --color=auto -i ‘^s‘ /proc/meminfo
#grep --color=auto -E ‘^(s|S)‘ /proc/meminfo

02、显示/etc/passwd文件中其默认shell为非/sbin/nologin的用户。

#grep --color=auto -v "/sbin/nologin$" /etc/passwd | cut -d: -f1

03、显示/etc/passwd文件中其默认shell为/bin/bash的用户；

进一步：仅显示上述结果中其ID号最大的用户。

#grep --color=auto "/bin/bash$" /etc/passwd | sort -t: -k3 -n | tail -n 1 | cut -d: -f1,3,7

04、找出/etc/passwd文件中的一位数或两位数。

#grep --color=auto "\<[[:digit:]]\{1,2\}\>" /etc/passwd

05、显示/boot/grub/grub.conf中以至少一个空白字符开头的行。

#grep --color=auto "^[[:space:]]\{1,}" /boot/grub/grub.conf

06、显示/etc/rc.d/rc.sysinit文件中,以#开头,后面跟至少一个空白字符,而后又有至少一个非空白字符的行。

#grep --color=auto "^#[[:space:]]\{1,\}[^[:space:]]\{1,\}" /etc/rc.d/rc.sysinit

07、找出netstat -tan命令执行结果中以‘LISTEN‘结尾的行。

#netstat -tan | grep --color=auto "LISTEN[[:space:]]*$"

08、添加用户bash、testbash、basher、nologin（SHELL为/sbin/nologin），而找出当前系统上其用户名和默认shell相同的用户。

#grep --color=auto "^\([[:alpha:]]\{1,\}\):.*/\1$" /etc/passwd

09、显示当前系统上root、rhel或centos用户的默认shell。

#grep --color=auto -E "^(root|rhel|centos):.*" /etc/passwd | cut -d: -f1,7

10、找出/etc/rc.d/init.d/functions文件中某单词后跟一组小括号"()"行

#grep --color=auto -E "\<[[:alpha:]]+\>\(\)" /etc/rc.d/init.d/functions

11、找出ifconfig命令结果中的1-255之间的数字；

#ifconfig | grep --color=auto -E "\<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\>"

本文出自 “小马的学习记录” 博客，请务必保留此出处http://masachencer.blog.51cto.com/8683770/1652635

Linux的文本处理工具grep及初识正则表达式

标签：学习记录

原文地址：http://masachencer.blog.51cto.com/8683770/1652635

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行