Linux中的文本處理工具

zhumengxiaotao ? 2016-08-08 16:11 ? Linux干貨

本章內容：

一、各種文本工具來查看、分析，統計文本文件

二、grep

三、正則表達式

四、擴展正則表達式

五、Sed

具體內容如下：

一、抽取文本的工具：

文件內容:less和cat

文件截取：head和tail

按列抽?。?/span>cut

按關鍵字抽取：grep

1.文件查看命令：cat, tac,rev

cat [OPTION]… [FILE]…

-E: 顯示行結束符$

-T：顯示Tab鍵

-v：顯示Windows的空格字符

-A：顯示所有控制符

-n: 對顯示出的每一行進行編號

-b：非空行編號

-s：壓縮連續的空行成一行

cat 也可以作為一個簡單的文本編輯器

rev命令，可以逆序顯示字符

2.分頁查看內容：more，less

more [OPTIONS…] FILE…

-d: 顯示翻頁及退出提示（空格是繼續看下一屏，q是退出）

！command：在看文件的時候可以執行命令

less：一頁一頁地查看文件或STDIN輸出

查看時有用的命令包括：

/，？文本搜索文本

n/N跳到下一個or 上一個匹配

less命令是man命令使用的分頁器

3.head，tail顯示文本前行或后行內容

head

head [OPTION]… [FILE]…

-c #: 指定獲取前#字節

-n #: 指定獲取前#行

-# ： 指定行數

tail

tail [OPTION]… [FILE]…

-c #: 指定獲取后#字節

-n #: 指定獲取后#行

-# ：同上

-f: 跟蹤顯示文件新追加的內容,常用日志監控

4.按列抽取文本cut和合并文件paste

cut 顯示文件或STDIN數據的指定列

cut [OPTION]… [FILE]…

-d DELIMITER: 指明分隔符，默認tab

-f FILEDS:

#: 第#個字段

#,#[,#]：離散的多個字段，例如1,3,6

混合使用：1-3,7

–output-delimiter=STRING指定輸出分隔符（也可以用tr命令轉換分隔符）

-c按字符切割

舉例：

cut -d: -f1 /etc/passwd

cat /etc/passwd|cut -d: -f7

cut -c2-5 /usr/share/dict/words

paste 合并兩個文件同行號的列到一行

paste [OPTION]… [FILE]…

-d 分隔符:指定分隔符，默認用TAB

-s : 所有行合成一行顯示

如：paste f1 f2

paste -s f1 f2

5.wc，sort ，diff和path 分析文本工具

wc （word count）收集文本統計數據

計數單詞總數、行總數、字節總數和字符總數

可以對文件或STDIN中的數據運行，不跟任何選項，直接根文檔，則會把行數、次數、和字符數依次輸出。

選項：

使用-l來只計數行數

使用-w來只計數單詞總數

使用-c來只計數字節總數

使用-m來只計數字符總數

6.sort文本排序

把整理過的文本對列進行排序，顯示在STDOUT，不改變原始文件。

$sort [options] file(s)

常用選項：

-r執行反方向（由上至下）整理

-n執行按數字大小整理

-f選項忽略（fold）字符串中的字符大小寫

-u選項（獨特，unique）刪除輸出中的重復行

-t c選項使用c做為字段界定符

-k X選項按照使用c字符分隔的X列來整理能夠使用多次

7.uniq命令：

從輸入中刪除重復的前后相接的行（相鄰的行）

uniq[OPTION]… [FILE]…

-c: 顯示每行重復出現的次數；

-d: 僅顯示重復過的行；

-u: 僅顯示不曾重復的行；

連續且完全相同方為重復

常和sort 命令一起配合使用：

sort userlist.txt | uniq-c

8.diff命令

比較兩個文件之間的區別

舉例如下：

$diff foo.conf-brokenfoo. conf-works

5c5

<use_widgets=no

—

>use_widgets=yes

注明第5行有區別（改變）

9.patch 復制對文件的改變

diff命令的輸出被保存在一種叫做“補丁”的文件中

使用-u選項來輸出“統一的（unified）”diff格式文件，最適用于補丁文件。

patch命令復制在其它文件中進行的改變（要謹慎使用！）

用-b選項來自動備份改變了的文件

二、Linux上文本處理三劍客

grep：文本過濾(模式：pattern)工具;

grep, egrep, fgrep（不支持正則表達式搜索）

sed：stream editor，文本編輯工具；

awk：Linux上的實現gawk，文本報告生成器；

1.grep

grep: Global search REgularexpression and Print out the line.（全球搜索正則表達式，并打印成一行）

作用：文本搜索工具，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行；

模式：由正則表達式字符及文本字符所編寫的過濾條件

grep [OPTIONS] PATTERN [FILE…]

grep root /etc/passwd

grep "$USER" /etc/passwd

grep '$USER' /etc/passwd

grep `whoami` /etc/passwd

2.grep命令表達式：

–color=auto: 對匹配到的文本著色顯示；

-v: 顯示不能夠被pattern匹配到的行；

-i: 忽略字符大小寫

-n：顯示匹配的行號

-c: 統計匹配的行數

-o: 僅顯示匹配到的字符串；

-q: 靜默模式，不輸出任何信息

-A #：after, 后#行

-B #: before, 前#行

-C #：context, 前后各#行

-e：實現多個選項間的邏輯or關系

如：grep –e ‘cat ’ -e ‘dog’ file

-w：整行匹配整個單詞

-E：使用ERE

三、正則表達式

REGEXP：由一類特殊字符及文本字符所編寫的模式，其中有些字符（元字符）不表示字符字面意義，而表示控制或通配的功能

程序支持：grep, vim, less,nginx等

分兩類：

基本正則表達式：BRE

擴展正則表達式：ERE

grep -E, egrep

正則表達式引擎：

采用不同算法，檢查處理正則表達式的軟件模塊

PCRE（Perl Compatible Regular Expressions）

元字符分類：字符匹配、匹配次數、位置錨定、分組

man 7 regex

1.基本正則表達式元字符

字符匹配：

. ：匹配任意單個字符；

[] ：匹配指定范圍內的任意單個字符

[^] ：匹配指定范圍外的任意單個字符

[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、

[:punct:]、[:space:]

匹配次數

匹配次數：用在要指定次數的字符后面，用于指定前面的字符要出現的次數

* 匹配前面的字符任意次，包括0次

貪婪模式：盡可能長的匹配

.* ：任意長度的任意字符

\? ：匹配其前面的字符0或1次

\+ ：匹配其前面的字符至少1次

\{m\} ：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

位置錨定

位置錨定：定位出現的位置

^：行首錨定，用于模式的最左側

$：行尾錨定，用于模式的最右側

^PATTERN$: 用于模式匹配整行

^$: 空行，不包含有空格的行

^[[:space:]]*$ ：空白行，包含有空格的行

\< 或\b：詞首錨定，用于單詞模式的左側

\> 或\b：詞尾錨定；用于單詞模式的右側

\<PATTERN\>：匹配整個單詞

分組

（1）分組：\(\)：將一個或多個字符捆綁在一起，當作一個整體進行處理，如：\(root\)\+

（2）分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中，這些變量的命名方式為: \1, \2, \3, …

（3）\1: 從左側起，第一個左括號以及與之匹配右括號之間的模式所匹配到的字符；

實例：\(string1\+\(string2\)*\)

\1: string1\+\(string2\)*

\2: string2

（4）后向引用：引用前面的分組括號中的模式所匹配字符(而非模式本身)

2.egrep和擴展的正則表達式

egrep= grep -E

egrep[OPTIONS] PATTERN [FILE…]

擴展正則表達式的元字符

字符匹配：

. 代表任意單個字符

[] 指定范圍的字符

[^] 不在指定范圍的字符

次數匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置錨定：

^ :行首

$ :行尾

\<, \b:語首

\>, \b:語尾

分組：

()

后向引用：\1, \2, …

或者：

a|b

C|cat: C或cat

(C|c)at:Cat或cat

原創文章，作者：zhumengxiaotao，如若轉載，請注明出處：http://www.www58058.com/30751

贊 (0)

0

8月3號用戶權限作業

上一篇 2016-08-08 16:10

Linux的文本處理工具練習題

下一篇 2016-08-08 16:11

四.Linux博客-2016年7月26日ls、通配符、touch、cp、mv、rm、mkdir

格式說明：操作概念命令說明及舉例四.ls、通配符、touch、cp、mv、rm、mkdir du -sh /sys 查看文件、文件夾大小 /sys/class/scsi_host/host2/scan 在線掃盤（新加硬盤執行這個命令后才能發現） stat /etc/issue 更詳細的看數…

Linux干貨 2016-08-23
文件系統管理和掛載

磁盤結構設備類型：塊設備：block，存取單位“塊”，例如，磁盤字符設備：char，存取單位“字符”，鍵盤設備文件：關聯至一個設備驅動程序，進而能夠跟之對應硬件設備進行通信設備號碼：主設備號:major …

Linux干貨 2016-08-29
bash中的變量

對任何一門編程語言來說，最基礎的部分就是變量。那什么事變量呢？變量就是把一個已知的可以變動的值，賦給一個固定名字的，用固定的名字代表這個可變動的值。在bash中也不例外，跟大多數編程語言一樣，它也有一些自己的語法和規則 bash變量： 1.規則設置：變量和變量的值中間用=連接，=的兩…

Linux干貨 2016-08-15
bind-9.9.5編譯安裝

bind-9.9.5編譯安裝 §·bind-9.9.5編譯安裝大概步驟步驟一：下載源碼包bind-9.9.5 ；步驟二：按需求選擇模塊或功能 ./configure ； # ./configure –prefix=/usr/local/bind9 –sysconfdir=…

Linux干貨 2016-10-09
軟件包管理(rpm篇）

軟件包管理(rpm篇）靜態和動態鏈接鏈接主要作用是把各個模塊之間相互引用的部分處理好，使得各個模塊之間能夠正確地銜接，分為靜態鏈接和動態鏈接靜態鏈接把程序對應的依賴庫復制一份到包&nbsp…

Linux干貨 2017-04-24
創建一個簡易的Linux

目標：　　為CentOS 6添加一塊新硬件，提供兩個主分區；　　　　(1) 為硬盤新建兩個主分區；并為其安裝grub；　　　　(2) 為硬盤的第一個主分區提供內核和ramdisk文件；為第二個　分區提供rootfs；　　　　(3) 為rootfs提供bash、ls、cat程序及所依賴的庫文件；　　　　(4) 為grub提供配置文件；　　　　…

Linux干貨 2016-12-30

欧美性久久久久