正則表達式基礎知識及grep、egrep詳解

什么是正則表達式
    在計算機科學中,正則表達式是這樣解釋的:它是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。在很多文本編輯器或其他工具里,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字符串操作。對于系統管理員來講,正則表達式貫穿在我們的日常運維工作中,無論是查找某個文檔,亦或查詢某個日志文件分析其內容,都會用到正則表達式。
grep
    grep: Global search REgular expression and Print outthe line,是一款文本過濾(模式:pattern)工具。
    作用:文本搜索工具,根據用戶指定的“模式”對目標文本逐行進行匹配檢查;打印匹配到的行;
    模式:由正則表達式字符及文本字符所編寫的過濾條件
?  grep [OPTIONS] PATTERN [FILE...]
    grep root /etc/passwd
    grep "$USER" /etc/passwd
    grep '$USER' /etc/passwd
    grep `whoami` /etc/passwd
grep命令選項
    --color=auto: 對匹配到的文本著色顯示;
? -v: 顯示不能夠被pattern匹配到的行;
? -i: 忽略字符大小寫
? -n: 顯示匹配的行號
? -c: 統計匹配的行數
? -o: 僅顯示匹配到的字符串;
? -q: 靜默模式,不輸出任何信息
? -A #: after, 后#行
? -B #: before, 前#行
? -C #: context, 前后各#行
? -e:實現多個選項間的邏輯or關系
    grep –e ‘cat ’ -e ‘dog’ file
? -w:整行匹配整個單詞
? -E:使用ERE
正則表達式
     REGEXP:由一類特殊字符及文本字符所編寫的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能
程序支持: grep, vim, less,nginx等
分兩類:
    基本正則表達式: BRE
    擴展正則表達式: ERE
    grep -E, egrep
正則表達式引擎:
    采用不同算法,檢查處理正則表達式的軟件模塊
    PCRE( Perl Compatible Regular Expressions)
? 元字符分類:字符匹配、匹配次數、位置錨定、分組
? man 7 regex
基本正則表達式元字符
字符匹配:
    . : 匹配任意單個字符;
    [] : 匹配指定范圍內的任意單個字符
    [^] :匹配指定范圍外的任意單個字符
    [:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]、 [:punct:]、 [:space:]
匹配次數:用在要指定次數的字符后面,用于指定前面的字符要出現的次數
    *:匹配前面的字符任意次,包括0次
    貪婪模式:盡可能長的匹配
    .*:任意長度的任意字符
    \?:匹配其前面的字符0或1次
    \+:匹配其前面的字符至少1次
    \{m\}:匹配前面的字符m次
    \{m,n\}:匹配前面的字符至少m次,至多n次
    \{,n\}:匹配前面的字符至多n次
    \{m,\}:匹配前面的字符至少m次
位置錨定:定位出現的位置
    ^:行首錨定,用于模式的最左側
    $:行尾錨定,用于模式的最右側
    ^PATTERN$: 用于模式匹配整行
    ^$: 空行
    ^[[:space:]]*$ :空白行
    \< 或 \b:詞首錨定,用于單詞模式的左側
    \> 或 \b:詞尾錨定;用于單詞模式的右側
    \<PATTERN\>:匹配整個單詞
分組: \(\):將一個或多個字符捆綁在一起,當作一個整體進行處理,如: \(root\)\+
    分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中,這些變量的命名方式為: \1, \2, \3, ...
    \1: 從左側起,第一個左括號以及與之匹配右括號之間的模式所匹配到的字符;
    實例: \(string1\+\(string2\)*\)
    \1: string1\+\(string2\)*
    \2: string2
    后向引用:引用前面的分組括號中的模式所匹配字符(而非模式本身)
egrep及擴展的正則表達式
    egrep = grep -E
? egrep [OPTIONS] PATTERN [FILE...]
擴展正則表達式的元字符:
     字符匹配:
    . 任意單個字符
    [] 指定范圍的字符
    [^] 不在指定范圍的字符
次數匹配:
    *:匹配前面字符任意次
    ?: 0或1次
    +: 1次或多次
    {m}:匹配m次
    {m,n}:至少m,至多n次
位置錨定:
^ :行首
$ :行尾
\<, \b :語首
\>, \b :語尾
分組:
    ()
后向引用: \1, \2, ...
? 或者:
    a|b
    C|cat: C或cat
    (C|c)at:Cat或ca
按列抽取文本
    cut [OPTION]... [FILE]...
    -d DELIMITER: 指明分隔符,默認tab
    -f FILEDS:
    #: 第#個字段
    #,#[,#]:離散的多個字段,例如1,3,6
    #-#:連續的多個字段, 例如1-6
    混合使用: 1-3,7
    -c 按字符切割
    --output-delimiter=STRING指定輸出分隔符
    顯示文件或STDIN數據的指定列
    cut -d: -f1 /etc/passwd
    cat /etc/passwd | cut -d: -f7
    cut -c2-5 /usr/share/dict/words
合并文件paste
    paste 合并兩個文件同行號的列到一行
    paste [OPTION]... [FILE]...
    -d 分隔符:指定分隔符,默認用TAB
    -s : 所有行合成一行顯示
    paste f1 f2
    paste -s f1 f2
分析文本的工具
    文本數據統計: wc
    整理文本: sort
    比較文件: diff和patch
收集文本統計數據
    計數單詞總數、行總數、字節總數和字符總數
    可以對文件或STDIN中的數據運行
    $ wc story.txt
    39 237 1901 story.txt
    行數 字數 字符數
    使用 -l 來只計數行數
    使用 -w 來只計數單詞總數
    使用 -c 來只計數字節總數
    使用 -m 來只計數字符總數
文本排序sort
    把整理過的文本顯示在STDOUT,不改變原始文件
    $ sort [options] file(s)
    常用選項
? -r 執行反方向(由上至下)整理
? -n 執行按數字大小整理
? -f 選項忽略( fold)字符串中的字符大小寫
? -u 選項(獨特, unique)刪除輸出中的重復行
? -t c 選項使用c做為字段界定符
? -k X 選項按照使用c字符分隔的X列來整理能夠使用多次
uniq
    uniq命令:從輸入中刪除重復的前后相接的行
    uniq [OPTION]... [FILE]...
    -c: 顯示每行重復出現的次數;
    -d: 僅顯示重復過的行;
    -u: 僅顯示不曾重復的行;
    連續且完全相同方為重復
? 常和sort 命令一起配合使用:
    sort userlist.txt | uniq -c
比較文件
    比較兩個文件之間的區別
    $ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no
---
> use_widgets = yes
? 注明第5行有區別(改變
復制對文件改變patch
    diff 命令的輸出被保存在一種叫做“補丁”的文件中
? 使用 -u 選項來輸出“統一的( unified)” diff格式文件,最適用于補丁文件。
? patch 命令復制在其它文件中進行的改變(要謹慎使用?。?
? 適用 -b 選項來自動備份改變了的文件
    $ diff -u foo.conf-broken foo.conf-works > foo.patch
    $ patch -b foo.conf-broken foo.patch

    

原創文章,作者:RecallWzc,如若轉載,請注明出處:http://www.www58058.com/31241

(0)
RecallWzcRecallWzc
上一篇 2016-08-08
下一篇 2016-08-08

相關推薦

  • rpm命令詳解及和yum之間的關系

        RPM 全名是“ RedHat Package Manager ”簡稱則為 RPM 顧名思義,當初這個軟件管理的機制是由 Red Hat 這家公司發展出來的。 RPM 是以一種數據庫記錄的方式來將你所需要的軟件安裝到你的 Linux 系統的一套管理機制。    &nbsp…

    Linux干貨 2016-08-21
  • 網絡管理實戰(子網劃分、單網卡多IP、多網卡單IP、Linux路由實現)

        1、某公司申請到一個C 類IP 地址,但要連接6 個的子公司,最大的一個子 公司有26 臺計算機,每個子公司在一個網段中,則子網掩碼應設為?          分析過程:C類地址標準的掩碼為24位,因為有6個子公…

    Linux干貨 2016-09-05
  • LAMP編譯安裝

    所謂的LAMP是指構建在Linux之上經典的一種web架構方式,其中L指的是Linux,A指的是Apache的httpd,M指的是Mysql或MariaDB,P指的是PHP,這種組合方式的基本工作模式是有httpd負責接收和相應用戶的請求,然后將需要處理的php頁面交由后端的php應用程序處理,而php應用程序處理php頁面時的數據存儲在Mysql數據庫中,…

    Linux干貨 2016-12-19
  • 郵件原理你真的造嗎

    一、前言     雖然現在QQ、微信等即時聊天工具原來越盛行,但是在企業與企業之間大部分還是會使用郵件系統進行信息交換。所以作為運維人員,更需要了解這個技術的原理。下面會慢慢介紹郵件的組件功能,將其組成部分。以及郵件的工作原理。     小貼士:郵件系統是一個比較復雜的系統,過程…

    Linux干貨 2015-08-17
  • RAID(重要)

    RAID   RAID(Redundent Array of Independent Disk):獨立的冗余磁盤陣列,目的是為了結合多個物理驅動器組成單個單元,提高了磁盤的性能或保證數據冗余。RAID能夠防止硬件的故障導致數據丟失,但是不能防止人為操作,軟件故障、惡意軟件感染等造成的數據丟失,因此不能替代備份。 分類有:硬件實現RAID(一是外接式磁盤陣列柜…

    Linux干貨 2016-08-30
欧美性久久久久