shell三劍客之grep

forest ? 2016-08-08 16:07 ? Linux干貨

正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字符串”用來表達對字符串的一種過濾邏輯。

給定一個正則表達式和另一個字符串，我們可以達到如下的目的：

1. 給定的字符串是否符合正則表達式的過濾邏輯（稱作“匹配”）；

2. 可以通過正則表達式，從字符串中獲取我們想要的特定部分。

正則表達式的特點是：

1. 靈活性、邏輯性和功能性非常的強；

2. 可以迅速地用極簡單的方式達到字符串的復雜控制。

3. 對于剛接觸的人來說，比較晦澀難懂。

由于正則表達式主要應用對象是文本，因此它在各種文本編輯器場合都有應用，小到著名編輯器EditPlus，大到Microsoft Word、Visual Studio等大型編輯器，都可以使用正則表達式來處理文本內容。

這里將會講到shell里邊的sed、awk、find、grep四劍客中的grep

–color=auto: 對匹配到的文本著色顯示； ?

-v: 顯示不能夠被pattern匹配到的行； ?

-i: 忽略字符大小寫 ?

-n：顯示匹配的行號 ?

-c: 統計匹配的行數 ?

-o: 僅顯示匹配到的字符串； ?

-q: 靜默模式，不輸出任何信息 ?

-A #: after, 后#行 ?

-B #: before, 前#行 ?

-C #：context, 前后各#行 ?

-e：實現多個選項間的邏輯or關系 grep –e ‘cat ’ -e ‘dog’ file ?

-w：整行匹配整個單詞 ?

-E：使用ERE

正則表達式元字符

字符匹配:

. ：匹配任意單個字符；

[] ：匹配指定范圍內的任意單個字符

[^] ：匹配指定范圍外的任意單個字符

[:alpha:] 所有字母，包括大、小寫

[:alnum:] 所有字母和數字

[:upper:] 所有大寫字母

[:lower:] 所有小寫字母

[:digit:] 所有數字

[:punct:] 所有標點符號

[:space:] 空格和Tab

正則表達式

*：匹配前面的字符任意次，包括0次貪婪模式：盡可能長的匹配

.*：任意長度的任意字符

\?：匹配其前面的字符0或1次

\+：匹配其前面的字符至少1次

\{n\}：匹配前面的字符n次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{n,\}：匹配前面的字符至少n次

位置錨定：定位出現的位置

^：行首錨定，用于模式的最左側

$：行尾錨定，用于模式的最右側

^PATTERN$: 用于模式匹配整行

^$: 空行 ^[[:space:]]*$ ：空白行

\< 或 \b：詞首錨定，用于單詞模式的左側

\> 或 \b：詞尾錨定；用于單詞模式的右側

\<PATTERN\>：匹配整個單詞

首先創建一個文本，內容如下；

[root@centous1 home]# cat regular_express.txt
"Open Source" is a good mechanism to develop programs.
 apple is my favorite food.
 Football game is not use feet only.
 this dress doesn't fit me.
 However, this dress is about $ 3183 dollars.
 GNU is free air not free beer.
 Her hair is very beauty.
 I can't finish the test.
 Oh! The soup taste good.
 motorcycle is cheap than car.
 This window is clear.


 the symbol '*' is represented as start.
 Oh!My god!
 The gd software is a library for drafting programs.
 You are the best is mean you are the no. 1.
 The world <Happy> is the same with "glad".
 I like dog.
 google is the best tools for search keyword.
 goooooogle yes!
 go! go! Let's go.
 # I am VBird

1.搜尋特定字符串"the"

注: n為顯示行號

grep -n 'the' regular_express.txt

2.反向搜尋特定字符串"the"

grep -vn 'the' regular_express.txt

3.取得任意大小寫"the"的這個字符串

grep -in 'the' regular_express.txt

4.利用括號 [] 來搜尋集合字符

搜索test或taste這兩個單詞時，發現他們有共同的't?st',所以可以這么搜尋

grep -n 't[ae]st' regular_express.txt

這樣其實就是在找t[a]st和t[e]st這兩個分開的字符

如果搜索有 oo 的字符時，則可以使用：

grep -n 'oo' regular_express.txt

如果搜索oo時不想搜到 oo 前面有 g 的話，我們可以利用反向選擇[^]來達成:

grep -n '[^g]oo' regular_express.txt

如果搜索oo前面不想有小寫字符，則：

grep -n '[^a-z]oo' regular_express.txt

注: 大寫英文/小寫英文/數字可以使用 [a-z]/[A-Z]/[0-9]等方式來書寫，也可以寫在一起

[a-zA-Z0-9]表示要求字符串是數字以及英文

如果我們要取得有數字的那行,則：

grep -n '[0-9]' regular_express.txt

注：但考慮到語系對編碼順序的影響，因此除了連續編碼使用減號[-]外，也可以用[:lower:]代替a-z 以及 [:digit:] 代替0-9 使用

grep -n '[^[:lower:]]oo' regular_express.txt

grep -n '[[:digit:]]' regular_express.txt

5.顯示行首為'the'的字符串

grep -n '^the' regular_express.txt

顯示行首是小寫字符

grep -n '^[a-z]' regular_express.txt

6.顯示行尾為點 . 的那一行

grep -n '\.$' regular_express.txt

7.顯示5-9行數據

cat -An regular_express.txt |head -n 10 |tail -n 6

8.顯示空白行

grep -n '^$' regular_express.txt

9.找出g??d字符串，起頭g結束d的四個字符串

grep -n 'g..d' regular_express.txt

10. o*代表空字符(就是有沒有字符都可以)或者一個到N個o字符，所以grep -n 'o*' regular_express.txt就會把所有行全部打印出來，

11.oo*代表o+空字符或者一個到N個o字符,所以grep -n 'oo*' regular_express.txt就會把o,oo,ooo等的行全部打印出來

12."goo*g"代表gog,goog,gooog…等

grep -n 'goo*g' regular_express.txt

13.找出含g…g字符串的行

注: .代表任意字符, .*則就代表空字符或者一個到N個任意字符

grep -n 'g.*g' regular_express.txt

14.找出含有數字的行

grep -n '[0-9][0-9]*' regular_express.txt

或grep -n '[0-9]' regular_express.txt

15.找出含兩個o的字符串

注:{}因為在shell里有特殊意義，所以需要加跳脫符\來讓其失去意義

grep -n 'o\{2\}' regular_express.txt

找出g后含2到5個o然后以g結尾的字符串

grep -n 'go\{2,5\}g' regular_express.txt

找出g后含2以上的o然后以g結尾的字符串

grep -n 'go\{2,\}g' regular_express.txt

原創文章，作者：forest，如若轉載，請注明出處：http://www.www58058.com/30509

贊 (0)

0

馬哥網絡21-第5周作業

上一篇 2016-08-08 16:07

linux 文本處理工具 grep cut sort等

下一篇 2016-08-08 16:07

CentOS6系統啟動流程分析

Linux系統組成從動態視角看：由內核+根文件系統組成從靜態視角看：由磁盤分區及相關文件組成內核設計流派單內核：所有內核功能集中于同一程序； &n…

Linux干貨 2016-09-09
Linux干貨

第七周系統啟動維護管理

1、簡述linux操作系統啟動流程 2、簡述grub啟動引導程序配置及命令行接口詳解 3、實現kickstart文件制作與光盤鏡像制作

2018-01-12
淺談HTTP協議以及httpd的十八般武藝

初識HTTP協議 HTTP（hyper text transfer protocal）作為互聯網應用最廣泛的協議，任何一個運維人員都無法回避它，HTTP的目的就是提供一種發布和…

Linux干貨 2016-02-14
LVM 與快照

LVM: Logical Volume Manager 概念它就是通過將底層的物理硬盤抽象的封裝起來，然后以邏輯卷的方式呈現給上層應用。允許對卷進行方便操作的抽象層，包括重新設定文件系統的大小允許在多個物理設備間重新組織文件系統 ? 將設備指定為物理卷 ? 用一個或者多個物理卷來創建一個卷組 ? 物理卷是用固…

Linux干貨 2016-09-05
Linux干貨

N28：啟動流程、grub、kickstart

第七周

2018-01-15
DNS從入門到管理（一）

DNS從入門到管理（一） DNS概念 DNS三步法反向解析主從DNS服務器的實現子域授權智能DNS 壓力測試與DNS排錯 DNS概述 DNS（Domain NameSystem，域名系統），域名和IP地址相互映射的一個分布式數據庫，通過主機名，最終得到該主機名對應的IP地址的過程叫做域名解析。而DNS的主要作用，就是域名解析，將主機名解析成IP地址?！?/p>

Linux干貨 2016-10-06

欧美性久久久久