什么是正則表達式 在計算機科學中,正則表達式是這樣解釋的:它是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。在很多文本編輯器或其他工具里,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字符串操作。對于系統管理員來講,正則表達式貫穿在我們的日常運維工作中,無論是查找某個文檔,亦或查詢某個日志文件分析其內容,都會用到正則表達式。
grep grep: Global search REgular expression and Print outthe line,是一款文本過濾(模式:pattern)工具。 作用:文本搜索工具,根據用戶指定的“模式”對目標文本逐行進行匹配檢查;打印匹配到的行; 模式:由正則表達式字符及文本字符所編寫的過濾條件 ? grep [OPTIONS] PATTERN [FILE...] grep root /etc/passwd grep "$USER" /etc/passwd grep '$USER' /etc/passwd grep `whoami` /etc/passwd grep命令選項 --color=auto: 對匹配到的文本著色顯示; ? -v: 顯示不能夠被pattern匹配到的行; ? -i: 忽略字符大小寫 ? -n: 顯示匹配的行號 ? -c: 統計匹配的行數 ? -o: 僅顯示匹配到的字符串; ? -q: 靜默模式,不輸出任何信息 ? -A #: after, 后#行 ? -B #: before, 前#行 ? -C #: context, 前后各#行 ? -e:實現多個選項間的邏輯or關系 grep –e ‘cat ’ -e ‘dog’ file ? -w:整行匹配整個單詞 ? -E:使用ERE
正則表達式 REGEXP:由一類特殊字符及文本字符所編寫的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能 程序支持: grep, vim, less,nginx等 分兩類: 基本正則表達式: BRE 擴展正則表達式: ERE grep -E, egrep 正則表達式引擎: 采用不同算法,檢查處理正則表達式的軟件模塊 PCRE( Perl Compatible Regular Expressions) ? 元字符分類:字符匹配、匹配次數、位置錨定、分組 ? man 7 regex
基本正則表達式元字符 字符匹配: . : 匹配任意單個字符; [] : 匹配指定范圍內的任意單個字符 [^] :匹配指定范圍外的任意單個字符 [:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]、 [:punct:]、 [:space:] 匹配次數:用在要指定次數的字符后面,用于指定前面的字符要出現的次數 *:匹配前面的字符任意次,包括0次 貪婪模式:盡可能長的匹配 .*:任意長度的任意字符 \?:匹配其前面的字符0或1次 \+:匹配其前面的字符至少1次 \{m\}:匹配前面的字符m次 \{m,n\}:匹配前面的字符至少m次,至多n次 \{,n\}:匹配前面的字符至多n次 \{m,\}:匹配前面的字符至少m次 位置錨定:定位出現的位置 ^:行首錨定,用于模式的最左側 $:行尾錨定,用于模式的最右側 ^PATTERN$: 用于模式匹配整行 ^$: 空行 ^[[:space:]]*$ :空白行 \< 或 \b:詞首錨定,用于單詞模式的左側 \> 或 \b:詞尾錨定;用于單詞模式的右側 \<PATTERN\>:匹配整個單詞 分組: \(\):將一個或多個字符捆綁在一起,當作一個整體進行處理,如: \(root\)\+ 分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中,這些變量的命名方式為: \1, \2, \3, ... \1: 從左側起,第一個左括號以及與之匹配右括號之間的模式所匹配到的字符; 實例: \(string1\+\(string2\)*\) \1: string1\+\(string2\)* \2: string2 后向引用:引用前面的分組括號中的模式所匹配字符(而非模式本身)
egrep及擴展的正則表達式 egrep = grep -E ? egrep [OPTIONS] PATTERN [FILE...] 擴展正則表達式的元字符: 字符匹配: . 任意單個字符 [] 指定范圍的字符 [^] 不在指定范圍的字符 次數匹配: *:匹配前面字符任意次 ?: 0或1次 +: 1次或多次 {m}:匹配m次 {m,n}:至少m,至多n次 位置錨定: ^ :行首 $ :行尾 \<, \b :語首 \>, \b :語尾 分組: () 后向引用: \1, \2, ... ? 或者: a|b C|cat: C或cat (C|c)at:Cat或ca
按列抽取文本 cut [OPTION]... [FILE]... -d DELIMITER: 指明分隔符,默認tab -f FILEDS: #: 第#個字段 #,#[,#]:離散的多個字段,例如1,3,6 #-#:連續的多個字段, 例如1-6 混合使用: 1-3,7 -c 按字符切割 --output-delimiter=STRING指定輸出分隔符 顯示文件或STDIN數據的指定列 cut -d: -f1 /etc/passwd cat /etc/passwd | cut -d: -f7 cut -c2-5 /usr/share/dict/words
合并文件paste paste 合并兩個文件同行號的列到一行 paste [OPTION]... [FILE]... -d 分隔符:指定分隔符,默認用TAB -s : 所有行合成一行顯示 paste f1 f2 paste -s f1 f2
分析文本的工具 文本數據統計: wc 整理文本: sort 比較文件: diff和patch
收集文本統計數據 計數單詞總數、行總數、字節總數和字符總數 可以對文件或STDIN中的數據運行 $ wc story.txt 39 237 1901 story.txt 行數 字數 字符數 使用 -l 來只計數行數 使用 -w 來只計數單詞總數 使用 -c 來只計數字節總數 使用 -m 來只計數字符總數
文本排序sort 把整理過的文本顯示在STDOUT,不改變原始文件 $ sort [options] file(s) 常用選項 ? -r 執行反方向(由上至下)整理 ? -n 執行按數字大小整理 ? -f 選項忽略( fold)字符串中的字符大小寫 ? -u 選項(獨特, unique)刪除輸出中的重復行 ? -t c 選項使用c做為字段界定符 ? -k X 選項按照使用c字符分隔的X列來整理能夠使用多次
uniq uniq命令:從輸入中刪除重復的前后相接的行 uniq [OPTION]... [FILE]... -c: 顯示每行重復出現的次數; -d: 僅顯示重復過的行; -u: 僅顯示不曾重復的行; 連續且完全相同方為重復 ? 常和sort 命令一起配合使用: sort userlist.txt | uniq -c
比較文件 比較兩個文件之間的區別 $ diff foo.conf-broken foo.conf-works 5c5 < use_widgets = no --- > use_widgets = yes ? 注明第5行有區別(改變
復制對文件改變patch diff 命令的輸出被保存在一種叫做“補丁”的文件中 ? 使用 -u 選項來輸出“統一的( unified)” diff格式文件,最適用于補丁文件。 ? patch 命令復制在其它文件中進行的改變(要謹慎使用?。? ? 適用 -b 選項來自動備份改變了的文件 $ diff -u foo.conf-broken foo.conf-works > foo.patch $ patch -b foo.conf-broken foo.patch
原創文章,作者:RecallWzc,如若轉載,請注明出處:http://www.www58058.com/31241