文本處理工具之grep正則表達式

grep簡介

grep 是一種強大的文本搜索工具,它能使用正則表達式搜索文本,并把匹配的行打印出來。

Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的擴展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它們把所有的字母都看作單詞,也就是說,正則表達式中的元字符表示回其自身的字面意義,不再特殊。linux使用GNU版本的grep。它功能更強,可以通過-G、-E、-F命令行選項來使用egrep和fgrep的功能。

一、grep命令的使用
首先,我們來了解grep命令,grep (global search regular expression and printing),全面搜索正則表達式并把行打印出來)是一種強大的文本搜索工具,它能使用正則表達式搜索文本,并把匹配的行打印出來。Linux中的grep命令包括、grep, egrep和fgrep 。egrep是grep的擴展,支持更多的re元字符,fgrep就是fast grep,搜索字符比較快,但不支持正則表達式。
然后,我們再來熟悉一下grep命令,其命令格式為:grep [options] ‘pattern’ FILE 。其中grep的常見選項:
-v:反向選取,只顯示不符合模式的行;
-o:只顯示被模式匹配的字串,而不是整個行;
-i:不區分字符的大小寫;
-r:遞歸搜索;
-A #:顯示匹配到行時,順帶顯示其后面的#個行;
-B #:顯示匹配到行時,順帶顯示其前面的#個行;
-C #:顯示匹配到行時,順帶顯示其前后的#個行;
另外 ,為了用戶查看顯示匹配的結果,可以在grep命令之后輸入  “--color=auto”,使結果呈現顏色。
二、 正則表達式
上面我們提到使用grep命令搜索正則表達式,那么我們來學習一下什么是正則表達式。
對于正則表達式,其起源并非在linux 中,正則表達式的“鼻祖”或許可一直追溯到科學家對人類神經系統工作原理的早期研究。而其含義是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯。給定一個正則表達式和另一個字符串,我們可以達到如下的目的:
1. 給定的字符串是否符合正則表達式的過濾邏輯(稱作“匹配”);
2. 可以通過正則表達式,從字符串中獲取我們想要的特定部分。
正則表達式由一些普通字符和一些元字符(metacharacters)組成。元字符不表示字符本身的意義,而用于額外功能性的描述。正則表達式的類型包括基本正則表達式和擴展正則表達式。
三、基本正則表達式
^:錨定行首的符合條件內容,用法格式 "^pattern";
$: 錨定行尾的符合條件內容,用法格式 "pattern$";
*:匹配緊挨著其前面的字符任意次 ;
.:匹配任意單個字符;
.*:匹配任意長度的任意字符(貪婪模式,盡可能的匹配);
r.*h (非錨定), ^r.*h$(錨定)
[] :匹配指定范圍內的任意單個字符;
[^]:匹配指定范圍外的任意單個字符 ;
[[:space:]]:空白字符;
\?:匹配緊挨著在其前面的字符0次或1次;
\{m,n\}:匹配其前面的字符至少m次,  至多n次;
\{m,\}:至少m次,\{0,n\}:至多n次,0-n次;
\{m\}:精確匹配到m次;
\<:錨定詞首,用法格式:\<pattern;
\>: 錨定詞尾,用法格式:\>pattern;
\<pattern>:錨定單詞;
\(\):分組,用法格式:\(pattern\);
ab任意字符ab:ab.*ab;
a.b任意字符a.b;\(a.b\).*\1 (1的含義是以相同的內容出現)。
四、擴展正則表達式
.: 任意單個字符
[ ] : 匹配指定范圍內的任意單個字符;
[^]:匹配指定范圍外的任意單個字符 ;
*:匹配緊挨著其前面的字符任意次
+:匹配其前面的字符至少1次
{m,n}:至少m次,至多n次
():分組,支持引用\1,\2
a|b:二選一
\<: 錨定詞首,用法格式:\<pattern;
\>: 錨定詞尾,用法格式:\>pattern;
^ : 錨定行首的符合條件內容
$ : 錨定行尾的符合條件內容
正則表達式是如何運用在linux的命令中的呢下面我們一起來看看幾簡單的實例分析正則表達式。
五、 正則表達式與grep命令的實戰演    練
1,顯示/etc/rc.d/rc.sysinit文件中以不區分大小的h開頭的行;
# grep  “^[hH]”  /etc/rc.d/rc.sysinit
2,  顯示/etc/passwd中以sh結尾的行;
# grep  “sh$”  /etc/passwd
3,  顯示/etc/fstab中以#開頭,且后面跟兩個或多個空白字符,而后又跟了任意非空白字符的行;
#grep  “^#[[:space:]]\{1,\}[^[:space:]]  /etc/fstab
4,  顯示/etc/rc.d/rc.local中符合形為“任意單個字符n任意字符任意單個字符n”模式的行;
# grep  “\(.i\).*\1”  /etc/rc.d/rc.local
5,  查找/etc/inittab中含有“以s開頭,并以d結尾的單詞”模式的行;
# grep  “\<s[a-zA-Z]*d\>”  /etc/inittab
或#grep  “\<s[^[:space:]]*d\>”  /etc/inittab
6,  查找ifconfig命令結果中的1-255之間的整數;
# grep | -E "\<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\>"
7,顯示/var/log/secure文件中包含“Failed”或“FAILED”的行;而后統計相關的行數
# egrep “(Failed | FAILED )” /var/log/secure  | wc -l
8,在/etc/passwd中取出默認shell為bash,且其用戶ID號最小的用戶的用戶名
# grep "bash$" /etc/passwd | sort -n -t: -k3 | head -1 | cut -d: -f1

原創文章,作者:zsyzgw,如若轉載,請注明出處:http://www.www58058.com/30762

(0)
zsyzgwzsyzgw
上一篇 2016-08-08 16:11
下一篇 2016-08-08 16:11

相關推薦

  • Haproxy+Keepalived+Varnish+LAMP+Memcacked+NFS 實現WordPress站點的動靜分離

    詳細說明,請點擊CSDN博客的連接地址:http://blog.csdn.net/yhy1271927580/article/details/70195158

    2017-04-16
  • Shell腳本編程(上)

        Shell腳本編程基礎 Shell 腳本基礎:包含一些命令或聲明并符合一定格式的文本文件Shell 腳本用途:        1. 自動化常用命令        2. 執行系統管理和故障排除        3. …

    2017-04-16
  • liunx文本處理三劍客及文本處理工具的使用與練習。

    linux文本處理三劍客: grep ==擅長過濾,把想要的或者不想要的分離開。linux三劍客 老三  -A: 除了顯示匹配的一行之外,并顯示該行之前的num行;-B:除了顯示匹配的一行之外,并顯示該行之后的num行;-C:除了顯示匹配的一行之外,并顯示該行之前后各num行     sed==擅長取行、替換。三劍客老…

    2017-07-28
  • 馬哥教育網絡班21期-第四周課程練習

    第四周作業 1、復制/etc/skel目錄為/home/tuser1,要求/home/tuser1及其內部文件的屬組和其它用戶均沒有任何訪問權限。 [root@localhost ~]# cp -a /etc/skel /home/tuse1   [root@localhost …

    Linux干貨 2016-07-17
  • LVM(重要)

    LVM   LVM(Logical Volume Manger),是一種磁盤分區管理機制,可以靈活的調整分區的大小。它是將多個硬盤組成卷組的形式實現的。說白了就是通過軟件來實現對分區靈活管理。   LVM是將多塊硬盤組成PV,再由PV組成VG,VG再組成lv,然后在lv上創建文件系統。   物理存儲介:指的就是硬盤等,最基本的存儲單元。   PV(physi…

    Linux干貨 2016-08-30
  • Selinux

    Selinux:強制訪問控制的安全模塊,linux內核2.6版本后集成在內核中。     selinux的四種工作類型:             strict:centos5中,每隔進程都受到seli…

    Linux干貨 2016-09-18
欧美性久久久久