正則表達式基礎知識及grep、egrep詳解

RecallWzc ? 2016-08-08 16:05 ? Linux干貨

什么是正則表達式
    在計算機科學中，正則表達式是這樣解釋的：它是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。在很多文本編輯器或其他工具里，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字符串操作。對于系統管理員來講，正則表達式貫穿在我們的日常運維工作中，無論是查找某個文檔，亦或查詢某個日志文件分析其內容，都會用到正則表達式。

grep
    grep: Global search REgular expression and Print outthe line，是一款文本過濾（模式：pattern）工具。
    作用：文本搜索工具，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行；
    模式：由正則表達式字符及文本字符所編寫的過濾條件
?  grep [OPTIONS] PATTERN [FILE...]
    grep root /etc/passwd
    grep "$USER" /etc/passwd
    grep '$USER' /etc/passwd
    grep `whoami` /etc/passwd
grep命令選項
    --color=auto: 對匹配到的文本著色顯示；
? -v: 顯示不能夠被pattern匹配到的行；
? -i: 忽略字符大小寫
? -n： 顯示匹配的行號
? -c: 統計匹配的行數
? -o: 僅顯示匹配到的字符串；
? -q: 靜默模式，不輸出任何信息
? -A #： after, 后#行
? -B #: before, 前#行
? -C #： context, 前后各#行
? -e：實現多個選項間的邏輯or關系
    grep –e ‘cat ’ -e ‘dog’ file
? -w：整行匹配整個單詞
? -E：使用ERE

正則表達式
     REGEXP：由一類特殊字符及文本字符所編寫的模式，其中有些字符（元字符）不表示字符字面意義，而表示控制或通配的功能
程序支持： grep, vim, less,nginx等
分兩類：
    基本正則表達式： BRE
    擴展正則表達式： ERE
    grep -E, egrep
正則表達式引擎：
    采用不同算法，檢查處理正則表達式的軟件模塊
    PCRE（ Perl Compatible Regular Expressions）
? 元字符分類：字符匹配、匹配次數、位置錨定、分組
? man 7 regex

基本正則表達式元字符
字符匹配:
    . ： 匹配任意單個字符；
    [] ： 匹配指定范圍內的任意單個字符
    [^] ：匹配指定范圍外的任意單個字符
    [:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]、 [:punct:]、 [:space:]
匹配次數：用在要指定次數的字符后面，用于指定前面的字符要出現的次數
    *：匹配前面的字符任意次，包括0次
    貪婪模式：盡可能長的匹配
    .*：任意長度的任意字符
    \?：匹配其前面的字符0或1次
    \+：匹配其前面的字符至少1次
    \{m\}：匹配前面的字符m次
    \{m,n\}：匹配前面的字符至少m次，至多n次
    \{,n\}：匹配前面的字符至多n次
    \{m,\}：匹配前面的字符至少m次
位置錨定：定位出現的位置
    ^：行首錨定，用于模式的最左側
    $：行尾錨定，用于模式的最右側
    ^PATTERN$: 用于模式匹配整行
    ^$: 空行
    ^[[:space:]]*$ ：空白行
    \< 或 \b：詞首錨定，用于單詞模式的左側
    \> 或 \b：詞尾錨定；用于單詞模式的右側
    \<PATTERN\>：匹配整個單詞
分組： \(\)：將一個或多個字符捆綁在一起，當作一個整體進行處理，如： \(root\)\+
    分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中，這些變量的命名方式為: \1, \2, \3, ...
    \1: 從左側起，第一個左括號以及與之匹配右括號之間的模式所匹配到的字符；
    實例： \(string1\+\(string2\)*\)
    \1: string1\+\(string2\)*
    \2: string2
    后向引用：引用前面的分組括號中的模式所匹配字符(而非模式本身)

egrep及擴展的正則表達式
    egrep = grep -E
? egrep [OPTIONS] PATTERN [FILE...]
擴展正則表達式的元字符：
     字符匹配：
    . 任意單個字符
    [] 指定范圍的字符
    [^] 不在指定范圍的字符
次數匹配：
    *：匹配前面字符任意次
    ?: 0或1次
    +： 1次或多次
    {m}：匹配m次
    {m,n}：至少m，至多n次
位置錨定：
^ :行首
$ :行尾
\<, \b :語首
\>, \b :語尾
分組：
    ()
后向引用： \1, \2, ...
? 或者：
    a|b
    C|cat: C或cat
    (C|c)at:Cat或ca

按列抽取文本
    cut [OPTION]... [FILE]...
    -d DELIMITER: 指明分隔符，默認tab
    -f FILEDS:
    #: 第#個字段
    #,#[,#]：離散的多個字段，例如1,3,6
    #-#：連續的多個字段, 例如1-6
    混合使用： 1-3,7
    -c 按字符切割
    --output-delimiter=STRING指定輸出分隔符
    顯示文件或STDIN數據的指定列
    cut -d: -f1 /etc/passwd
    cat /etc/passwd | cut -d: -f7
    cut -c2-5 /usr/share/dict/words

合并文件paste
    paste 合并兩個文件同行號的列到一行
    paste [OPTION]... [FILE]...
    -d 分隔符:指定分隔符，默認用TAB
    -s : 所有行合成一行顯示
    paste f1 f2
    paste -s f1 f2

分析文本的工具
    文本數據統計： wc
    整理文本： sort
    比較文件： diff和patch

收集文本統計數據
    計數單詞總數、行總數、字節總數和字符總數
    可以對文件或STDIN中的數據運行
    $ wc story.txt
    39 237 1901 story.txt
    行數 字數 字符數
    使用 -l 來只計數行數
    使用 -w 來只計數單詞總數
    使用 -c 來只計數字節總數
    使用 -m 來只計數字符總數

文本排序sort
    把整理過的文本顯示在STDOUT，不改變原始文件
    $ sort [options] file(s)
    常用選項
? -r 執行反方向（由上至下）整理
? -n 執行按數字大小整理
? -f 選項忽略（ fold）字符串中的字符大小寫
? -u 選項（獨特， unique）刪除輸出中的重復行
? -t c 選項使用c做為字段界定符
? -k X 選項按照使用c字符分隔的X列來整理能夠使用多次

uniq
    uniq命令：從輸入中刪除重復的前后相接的行
    uniq [OPTION]... [FILE]...
    -c: 顯示每行重復出現的次數；
    -d: 僅顯示重復過的行；
    -u: 僅顯示不曾重復的行；
    連續且完全相同方為重復
? 常和sort 命令一起配合使用：
    sort userlist.txt | uniq -c

比較文件
    比較兩個文件之間的區別
    $ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no
---
> use_widgets = yes
? 注明第5行有區別（改變

復制對文件改變patch
    diff 命令的輸出被保存在一種叫做“補丁”的文件中
? 使用 -u 選項來輸出“統一的（ unified）” diff格式文件，最適用于補丁文件。
? patch 命令復制在其它文件中進行的改變（要謹慎使用?。?
? 適用 -b 選項來自動備份改變了的文件
    $ diff -u foo.conf-broken foo.conf-works > foo.patch
    $ patch -b foo.conf-broken foo.patch

原創文章，作者：RecallWzc，如若轉載，請注明出處：http://www.www58058.com/31241

linux正則表達式

贊 (0)

0

文本處理課后小練習

上一篇 2016-08-08 16:05

馬哥網絡21-第5周作業

下一篇 2016-08-08 16:07

Linux干貨

常用的MySQL數據庫備份

常用的MySQL數據庫備份方式前言為什么需要備份數據？數據的備份類型 MySQL備份數據的方式備份需要考慮的問題設計合適的備份策略實戰演練使用cp進行備份使用mysqldump+復制BINARY LOG備份使用lvm2快照備份數據使用Xtrabackup備份總結前言我們試著想一想, 在生產環境中什么最重要？如果我們服務器的硬件壞了可…

2015-06-13
Linux干貨

Nginx反向代理https，提供PhpMyAdmin

準備工作：主機1、雙網卡：外–172.16.252.187 內–192.168.42.140 主機2：192.168.42. 145 主機3：172.16.251.112 主機4:192.168.42.141 在主機2上：安裝httpd yum install…

2017-07-01
7.22_Linux入門和幫助文件的使用

Linux系統登錄的兩種方式 GUI：圖形界面 Graphic User Interface 默認在Linux下面有三種可用的圖形界面程序可選，分別為 1.gnome(c,圖形庫gtk) 2.kde(c++,圖形庫qt) 3.xface(輕量級桌面) 每一種圖形界面下面開發的軟件并不兼容，因為它們開發時候所用的開發語言也各不相同啟動方式：cli?！?/p>

Linux干貨 2016-08-04
linux 文件顏色的含義: 藍色代表目錄綠色代表可執行文件 &nbs…

Linux干貨 2016-12-05
Linux安全與加密基礎（二）

Linux安全與加密基礎（二）常見的加密算法 SSL: Openssl與CA認證 ssh服務 dropbear AIDE sudo gpg gpg亦可用于對稱加密與文件檢驗。文件完整性的兩種實施方式被安裝的文件 MD5單向散列 rpm –veri…

Linux干貨 2016-10-06
N21_第二周練習

1、Linux上的文件管理類命令都有哪些，其常用的使用方法及其相關示例演示。文件管理類命令：cp,mv.rm 復制命令：cp 格式： cp [OPTION]… [-T] SOURCE DEST cp [OPTION]… SOU…

Linux干貨 2016-07-16

欧美性久久久久