文本處理三劍客之grep及正則表達式

文本處理工具：

Linux上處理文本三劍客：

Grep：文本過濾器工具（模式：pattern）工具；

Sed： stream editor，流編輯器；文本編輯工具;

Awk： linux上實現為gawk，文本報告生成器（格式化文本）；

正則表達式：regual expresslon，REGEXP

由一類特殊將字符及文本字符所編寫的模式，其中有些字符不表示其字面意義，而是用于表示控制或通配的功能；

分兩類：

基本正則表達式：BRE

擴展正則表達式：ERE

元字符：、（hello[[:space:]]\+\)\+

Grep : global search REgular expression and print out the line.

作用：文本搜索工具，根據用戶指定的“模式（過濾條件）”對目標文本逐行進行匹配檢查；打印匹配到的行;

模式：有贈則表達式的元字符及文本字符所編寫出的過濾條件；

正則表達式引擎；

Grep [options] PATTERN [FILE….]

Grep [options] [-e PATTERN | -f FILE] [FILE…..]

OPTIONS:

–color=auto: 對匹配到文本進行著色后高亮顯示

-i：忽略字符的大小寫

-0：只顯示匹配到的字符本身

-v：顯示不能被模式匹配到的行

-E: 支持使用擴展正則表達式元字符：

-q：–quiet，–silent：靜默模式，既不輸出任何信息；

-A#: after,后#行

-B#：before，前#行

-C#：前后#行

基本正則表達式元字符：

. ：匹配任意單個字符；

[] ：匹配指定范圍內的任意單個字符

[^] ：匹配指定范圍外的任意單個字符

[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:] 、[:punct:]、[:space:]

正則表達式

v 匹配次數：用在要指定次數的字符后面，用于指定前面的字符要出現的次數

*：匹配前面的字符任意次，包括0次貪婪模式：盡可能長的匹配

.*：任意長度的任意字符

\?：匹配其前面的字符0或1次

\+：匹配其前面的字符至少1次

\{m\}：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

v 位置錨定：定位出現的位置

^：行首錨定，用于模式的最左側

$：行尾錨定，用于模式的最右側

^PATTERN$: 用于模式匹配整行

^$: 空行

^[[:space:]]*$ ：空白行

\< 或 \b：詞首錨定，用于單詞模式的左側

\> 或 \b：詞尾錨定；用于單詞模式的右側

\<PATTERN\>：匹配整個單詞

分組：：將一個或多個字符捆綁在一起，當作一個整體進行處理，如：$root$\+

分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中，這些變量的命名方式為: \1, \2, \3, …

\1: 從左側起，第一個左括號以及與之匹配右括號之間的模式所匹配到的字符；

實例：

$string1\+\(string2$*\)

\1: string1\+$string2$*

\2: string2

后向引用：引用前面的分組括號中的模式所匹配字符(而非模式本身)

egrep及擴展的正則表達式 v

egrep = grep -E

vegrep [OPTIONS] PATTERN [FILE…] v

擴展正則表達式的元字符： v

字符匹配：

. 任意單個字符

[] 指定范圍的字符

[^] 不在指定范圍的字符

次數匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置錨定：

^ :行首

$ :行尾

\<, \b :語首

\>, \b :語尾 v

分組：

()

后向引用：\1, \2, … v

或者：

a|b

C|cat: C或cat

(C|c)at:Cat或cat

原創文章，作者：xiaoqiang512，如若轉載，請注明出處：http://www.www58058.com/33244

文本處理三劍客之grep及正則表達式

相關推薦

sed

linux基礎之lvm操作流程

新手報到

了解sed

N26 第五周作業

bash基礎特性（一）之命令歷史，命令補存，路勁補存，命令行展開，命令執行狀態結果和引用

bash基礎特性（一）之命令歷史，命令補存，路勁補存，命令行展開，命令執行狀態結果和引用