Linux中的文本處理工具

本章內容:

  一、各種文本工具來查看、分析,統計文本文件

  二、grep

  三、正則表達式

  四、擴展正則表達式

  五、Sed


具體內容如下:


一、抽取文本的工具:

     文件內容:lesscat

     文件截?。?/span>headtail

     按列抽?。?/span>cut

     按關鍵字抽?。?/span>grep


  1.文件查看命令cat, tac,rev

   cat [OPTION]… [FILE]…

       -E: 顯示行結束符$

       -T:顯示Tab鍵

wKiom1enBv7BTh_5AAAZoUMJ0zs211.png

      -v:顯示Windows的空格字符

wKiom1enB02ytBZ5AAARLysOr7Y342.png

      -A:顯示所有控制符

wKiom1enBMuQM1rgAAARt6anBOI366.png

     -n: 對顯示出的每一行進行編號 

wKioL1enBPuiD_1wAAAcq_qZtvU387.png

     -b:非空行編號

wKiom1enBRvzcrXbAAAV5vnDOwE861.png     

   -s:壓縮連續的空行成一行

wKioL1enBUGBN7eiAAATV3WUPNc368.png

    cat 也可以作為一個簡單的文本編輯器

wKiom1enB-eimISMAAEia6gXeNw291.png  

   rev命令,可以逆序顯示字符

wKiom1enCEjQgymuAAAezgqO_m8717.png


  2.分頁查看內容:more,less


    more [OPTIONS…] FILE…

        -d: 顯示翻頁及退出提示 (空格 是繼續看下一屏,q是退出)

         !command在看文件的時候可以執行命令

   less:一頁一頁地查看文件或STDIN輸出

   查看時有用的命令包括:

        /,?文本搜索文本

         n/N跳到下一個or 上一個匹配

         less命令是man命令使用的分頁器


  3.head,tail顯示文本前行或后行內容

    head

    head [OPTION]… [FILE]…

      -c #: 指定獲取前#字節

       -n #: 指定獲取前#行

       -#  指定行數

wKioL1enCNWwOr1jAAAkzQpXq9U710.png

    tail

    tail [OPTION]… [FILE]…

       -c #: 指定獲取后#字節

        -n #: 指定獲取后#行

        -# 同上

wKiom1enCQzyrZvrAAAV7xOleYA423.png

      -f: 跟蹤顯示文件新追加的內容,常用日志監控

wKioL1enCR6zVoWgAAImpqICppE677.png

   4.按列抽取文本cut和合并文件paste

    cut 顯示文件或STDIN數據的指定列

    cut [OPTION]… [FILE]…

      -d DELIMITER: 指明分隔符,默認tab

      -f FILEDS:

           #: 第#個字段

           #,#[,#]:離散的多個字段,例如1,3,6

           混合使用:1-3,7

wKiom1enCujjkWo4AAAhMDbXdX0571.png

    –output-delimiter=STRING指定輸出分隔符(也可以用tr命令轉換分隔符

wKioL1enCwii2IwcAAAYyHTHTR4578.png         

     -c按字符切割

        舉例:

       cut -d: -f1 /etc/passwd

          cat /etc/passwd|cut -d: -f7

          cut -c2-5 /usr/share/dict/words

    paste 合并兩個文件同行號的列到一行

    paste [OPTION]… [FILE]…

        -d 分隔符:指定分隔符,默認用TAB

        -s : 所有行合成一行顯示

     如:paste f1 f2

         paste -s f1 f2


  5.wc,sort ,diff和path 分析文本工具

 wc (word count)收集文本統計數據

      計數單詞總數、行總數、字節總數和字符總數

      可以對文件或STDIN中的數據運行,不跟任何選項,直接根文檔,則會把行數、次數、和字符數依次輸出。

    選項:

      使用-l來只計數行數

       使用-w來只計數單詞總數

       使用-c來只計數字節總數

       使用-m來只計數字符總數

wKiom1enDGWxLJNuAAAa-PckbOY620.png

  6.sort文本排序

   把整理過的文本對列進行排序,顯示在STDOUT,不改變原始文件。

     $sort [options] file(s)

   常用選項:

       -r執行反方向(由上至下)整理

       -n執行按數字大小整理

       -f選項忽略(fold)字符串中的字符大小寫

       -u選項(獨特,unique)刪除輸出中的重復行

       -t c選項使用c做為字段界定符

       -k X選項按照使用c字符分隔的X列來整理能夠使用多次

wKiom1enDYDDyhGGAAAy0CDCyyw929.png

  7.uniq命令:

   從輸入中刪除重復的前后相接的(相鄰的行)

    uniq[OPTION]… [FILE]…

      -c: 顯示每行重復出現的次數;

wKioL1enDi7BM0UeAAAIWmNw02Q238.png 

      

        -d: 僅顯示重復過的行;

        -u: 僅顯示不曾重復的行;

        連續且完全相同方為重復

   常和sort 命令一起配合使用:

    sort userlist.txt | uniq-c

wKioL1enDm_wnWb-AAAkm9pjG2Y079.png

  8.diff命令

  比較兩個文件之間的區別

    舉例如下:

     $diff foo.conf-brokenfoo. conf-works

      5c5

      <use_widgets=no

      —

      >use_widgets=yes

   注明第5行有區別(改變)


 9.patch 復制對文件的改變

   diff命令的輸出被保存在一種叫做“補丁”的文件中

    使用-u選項來輸出“統一的(unified)”diff格式文件,最適用于補丁文件。

   patch命令復制在其它文件中進行的改變(要謹慎使用 ?。?/strong>

   用-b選項來自動備份改變了的文件

wKioL1enD-vBSgZpAAI0LGWKcsg891.png

 

二、Linux上文本處理三劍客

    grep:文本過濾(模式:pattern)工具;

    grep, egrep, fgrep(不支持正則表達式搜索)

    sed:stream editor,文本編輯工具;

    awk:Linux上的實現gawk,文本報告生成器;

 

  1.grep

    grep: Global search REgularexpression and Print out the line.(全球搜索正則表達式,并打印成一行)

    作用:文本搜索工具,根據用戶指定的“模式”對目標文本逐行進行匹配檢查;打印匹配到的行;

    模式:由正則表達式字符及文本字符所編寫的過濾條件

wKioL1enFXqzshLvAAAj8LPkzdg050.png

     grep [OPTIONS] PATTERN [FILE…]

      grep root /etc/passwd

      grep "$USER" /etc/passwd

      grep '$USER' /etc/passwd

      grep `whoami` /etc/passwd

wKiom1enFgLzrEXwAAAihQ-S-cs285.png

  2.grep命令表達式:

     –color=auto: 對匹配到的文本著色顯示;

      -v: 顯示不能夠被pattern匹配到的行;

       -i: 忽略字符大小寫

wKiom1enFkqhoB99AAARoZ2Np1M917.png

      -n:顯示匹配的行號

wKioL1enFmnx5fuCAAAQIkpz0ao289.png

     -c: 統計匹配的行數

wKiom1enFo_yyLI_AAAUvf9MKIY047.png

      -o: 僅顯示匹配到的字符串;

wKioL1enFr7wLmwUAAALNegOQLE414.png

      -q: 靜默模式,不輸出任何信息

wKiom1enFuCTRXzOAAAl6qGgPeE013.png

      -A #:after, 后#行

wKioL1enFv2D4VKBAAAm27cQHqw005.png

      -B #: before, 前#行

      -C #:context, 前后各#行

      -e:實現多個選項間的邏輯or關系

         如:grep –e ‘cat ’ -e ‘dog’ file

wKiom1enF-WTCHYXAAAf4nsaX30269.png

      -w:整行匹配整個單詞

wKioL1enGAWiViK8AAAduCj0OX0073.png

      -E:使用ERE

 

三、正則表達式

   REGEXP:由一類特殊字符及文本字符所編寫的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能

   程序支持:grep, vim, less,nginx

   分兩類:

     基本正則表達式:BRE

     擴展正則表達式:ERE

      grep -E, egrep

   正則表達式引擎:

     采用不同算法,檢查處理正則表達式的軟件模塊

     PCRE(Perl Compatible Regular Expressions)

   元字符分類:字符匹配、匹配次數、位置錨定、分組

   man 7 regex


  1.基本正則表達式元字符

    字符匹配:

      . :匹配任意單個字符;

wKiom1enHcrRqhUxAAANe8ggU84204.png

       [] :匹配指定范圍內的任意單個字符

wKioL1enHf-BuWexAAAVr3BtNdQ340.png

       [^] :匹配指定范圍外的任意單個字符

wKiom1enHlPyH6NCAAAQwAlnNjY674.png

       [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、 

       [:punct:]、[:space:]

    匹配次數

     匹配次數:用在要指定次數的字符后面,用于指定前面的字符要出現的次數

         * 匹配前面的字符任意次,包括0

            貪婪模式:盡可能長的匹配

         .* :任意長度的任意字符

           \? :匹配其前面的字符01

          \+  :匹配其前面的字符至少1

          \{m\} :匹配前面的字符m

          \{m,n\}:匹配前面的字符至少m次,至多n

          \{,n\}:匹配前面的字符至多n

          \{m,\}:匹配前面的字符至少m次 

    位置錨定

      位置錨定:定位出現的位置

       ^:行首錨定,用于模式的最左側

          $:行尾錨定,用于模式的最右側

wKioL1enHubQfh44AAAtdqFRs8k264.png

         ^PATTERN$: 用于模式匹配整行

         ^$: 空行,不包含有空格的行

wKioL1enH0egspXqAAEWwREczjM325.png

         ^[[:space:]]*$ :空白行,包含有空格的行

wKiom1enH6jirLgsAAFxv_iAwYY509.png

         \< 或\b:詞首錨定,用于單詞模式的左側

wKioL1enH-6iL5baAAAQGiAIxFc107.png

         \> 或\b:詞尾錨定;用于單詞模式的右側

wKioL1enIALD56SSAAAVmBgV3qc191.png

         \<PATTERN\>:匹配整個單詞

wKiom1enICXBg_DIAAAUBcaaVDA026.png

    分組

     (1)分組:\(\):將一個或多個字符捆綁在一起,當作一個整體進行處理,如:\(root\)\+

    (2)分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中,這些變量的命名方式為: \1, \2, \3, …

    (3)\1: 從左側起,第一個左括號以及與之匹配右括號之間的模式所匹配到的字符;

       實例:\(string1\+\(string2\)*\)

        \1: string1\+\(string2\)*

        \2: string2

    (4)后向引用:引用前面的分組括號中的模式所匹配字符(而非模式本身)

wKiom1enINKz1-JqAAD3WOugbI4925.png

wKioL1enINLBW7CPAACaAHhi4AA264.png

   2.egrep和擴展的正則表達式

     egrep= grep -E

      egrep[OPTIONS] PATTERN [FILE…]

    擴展正則表達式的元字符

      字符匹配:

         . 代表任意單個字符

         [] 指定范圍的字符

         [^] 不在指定范圍的字符

      次數匹配:

        *:匹配前面字符任意次

         ?: 0或1次

         +:1次或多次

        {m}:匹配m次

        {m,n}:至少m,至多n次

      位置錨定:

        ^ :行首

         $ :行尾

        \<, \b:語首

        \>, \b:語尾

      分組:

       ()

        后向引用:\1, \2,

      或者:

        a|b

         C|cat: Ccat

        (C|c)at:Catcat


原創文章,作者:zhumengxiaotao,如若轉載,請注明出處:http://www.www58058.com/30751

(0)
zhumengxiaotaozhumengxiaotao
上一篇 2016-08-08
下一篇 2016-08-08

相關推薦

  • CentOS 系統啟動流程[轉載]

    Linux(CentOS)系統啟動過程大致按照如下順序: POST –> BootSequence(BIOS) –>Bootloader(MBR) –>Kernel(ramdisk)–>rootfs(readonly)–>switchroot–>/sb…

    Linux干貨 2017-01-28
  • sed用戶小結

    sed是一個很好的文件處理工具,本身是一個管道命令,主要是以行為單位進行處理,可以將數據行進行替換、刪除、新增、選取等特定工作,下面先了解一下sed的用法sed命令行格式為:         sed [-nefri] ‘command’ 輸入文本  …

    Linux干貨 2016-08-12
  • N25-第二周作業

    1、  Linux上的文件管理類命令都有那些,其常用的使用方法及其相關示例演示。 常用的管理類命令有:rm、mv、cp 1)         rm:remove rm [ OPTION ] FILE 常用選項:     &nbsp…

    Linux干貨 2016-12-13
  • 第五周作業

    1、顯示當前系統上root、fedora或user1用戶的默認shell; 答:#egrp ‘^(root|fedora|user1)’ /etc/passwd | cut -f1,7 -d: 2、找出/etc/rc.d/init.d/functions文件中某單詞后面跟一組小括號的行,形如:hello(); 答:#egrp -o &…

    Linux干貨 2017-02-25
  • M22 使用光盤修復Centos實驗初探

    實驗目的: 服務器由于文件丟失等原因造成無法啟動,可以使用光盤引導啟動服務器,然后對服務器進行修復。 實驗環境: VMware12安裝Centos6.8虛擬機 Centos6.8的光盤鏡像 實驗原理: 手動刪除虛擬機上的rpm程序文件,使用光盤鏡像恢復安裝rpm程序。 實驗過程: 1、     執行命令刪除rpm程序,…

    2017-03-06
  • linux 磁盤管理與文件掛載

        磁盤對于linux來說是至關重要的而且與它 的中心思想相關聯,一切皆文件,因此就把磁盤分為了好多類型, 如:塊設備,字符設備。對于每類磁盤的使用,我們對它進行了分區與規劃,這就用到我們的分區與查看工具 fdisk,理論上磁盤容量足夠時,可以建立任意數量的分區。  一.磁盤的管理與工具 1.  fdisk 強大的…

    2017-06-17
欧美性久久久久