0806文本處理工具

———- 文件查看工具 ———-

cat: cat [OPTION]… [FILE]… //查看文本文件內容,一般后面跟文件名(相對路徑),或者是文件名(絕對路徑)

-n 加行號

-b 加行號,不給空白行加行號

-s 壓縮空行,多個空行變一個空行

-T 顯示tab\space

-A 顯示所有控制符

-E 行尾$顯示

-v 處理Windows文本的M 和 ^ //在Linux中行尾是以$表示,而Windows文本中,行尾是以^M 表示

[root@localhost ~]# ll .bash
.bash_history  .bash_logout   .bash_profile  .bashrc        
[root@localhost ~]# ll .bashrc 
-rw-r--r--. 1 root root 176 Dec 28  2013 .bashrc
[[root@localhost ~]# cat -n .bashrc            //此處為相對路徑, 加 -n  每一行行首加行號
     1	# .bashrc
     2	
     3	# User specific aliases and functions
     4	
     5	alias rm='rm -i'
     6	alias cp='cp -i'
     7	alias mv='mv -i'
     8	
     9	# Source global definitions
    10	if [ -f /etc/bashrc ]; then
    11		. /etc/bashrc
    12	fi

tac tac [OPTION]… [FILE]… //tac也是一個文本查看功能,功能比較簡單,但顯示的文本是倒序顯示

[root@localhost ~]# tac .bashrc
fi
	. /etc/bashrc
if [ -f /etc/bashrc ]; then
# Source global definitions

alias mv='mv -i'
alias cp='cp -i'
alias rm='rm -i'

# User specific aliases and functions

# .bashrc

rev rev [options] [file …] //rev文本查看功能,但文本的每一行是都過來顯示的

[root@localhost ~]# rev .bashrc
crhsab. #

snoitcnuf dna sesaila cificeps resU #

'i- mr'=mr saila
'i- pc'=pc saila
'i- vm'=vm saila

snoitinifed labolg ecruoS #
neht ;] crhsab/cte/ f- [ fi
crhsab/cte/ .	
if

分頁查看文本工具

more: more [options] file […] //分頁查看(不可向上翻)文件

-d: 顯示翻頁及退出提示

! : ! command 可執行命令

less: //一頁一頁地查看文本,可以上下翻動,使用man手冊查看命令是,就是使用了less查看命令的幫助手冊

Enter鍵 :下拉一行

b 鍵 :向上翻一屏

space鍵 :向下翻一屏

d 鍵 :向下翻半屏

w 鍵 :向上翻半屏

輸入! :可以執行命令,再敲一下Enter鍵,繼續瀏覽文本

輸入/ :可以在文本中根據輸入的字符進行搜索

head : head [OPTION]… [FILE]… // 看文件前n行(默認前10行)

-n #|+# 前#行;若 -n -#顯示到文本尾部倒數第n+1行

-c # 顯示前#個字符數,若 -#,文本的最后#個字符不顯示出來

-v 在顯示的內容前加文本的名字

tail : tail [OPTION]… [FILE]… //看文件后10行

-n #|-# 后#行;若 -n +#顯示從文本頭部第#行開始顯示

-c # 指定獲取后#字節

-f 監控文件變化,缺點占用終端資源

& : 有更新就顯示,不占用終端資源,后臺運行

cut: cut OPTION… [FILE]… 按列抽取文本

-b 指明分隔符,默認tab

-f FILEDS:

#: 第#個字段

#,#[,#]：離散的多個字段，例如1,3,6

#-#：連續的多個字段, 例如1-6

混合使用： 1-3,7

-c 按字符分割

[root@localhost ~]# cat -n /etc/passwd | cut -d: -f1,3 | head    抽取/etc/passwd內容并顯示行號;以:為分隔符,選取第1和3列;只顯示前10行
     1  root:0
     2	bin:1
     3	daemon:2
     4	adm:3
     5	lp:4
     6	sync:5
     7	shutdown:6
     8	halt:7
     9	mail:8
    10	operator:11

paste : paste [OPTION]… [FILE]… 合并兩個文件同行號的列到一行

paste [OPTION]… [FILE]…

-d 分隔符:指定分隔符，默認用TAB

-s : 所有行合成一行顯示

paste f1 f2

paste -s f1 f2

———- 文本分析工具 ———-

wc :收集文本統計數據

wc [OPTION]… [FILE]…

wc [OPTION]… –files0-from=F

[root@localhost testdir]# wc /etc/passwd
  55   99    2732     /etc/passwd
  行數 字節數  字符數

使用 -l 來只計數行數

使用 -w 來只計數單詞總數

使用 -c 來只計數字節總數

使用 -m 來只計數字符總數

sort :文本排序

sort [OPTION]… [FILE]…

sort [OPTION]… –files0-from=F

-r 執行反方向（由上至下）整理

-n 執行按數字大小整理;默認是則是以第一個數字在ASCII表中的大小進行排序

-f 選項忽略（ fold）字符串中的字符大小寫

-u 選項（獨特， unique）刪除輸出中的重復行

-t c 選項使用c做為字段界定符與cut不同,cut以-d設置分隔符,-f指定列,要區分

-k X 選項按照使用c字符分隔的X列來整理能夠使用多次

[root@localhost ~]# sort -t: -k3 -n /etc/passwd |head       //以:為分隔符,選取第三列作數字大小(-n)進行排序;與cut不同,cut以-d設置分隔符,-f指定列,要區分
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

uniq :從輸入中刪除重復的前后相接的行 // 連續且完全相同方為重復

uniq [OPTION]… [FILE]…

-c: 顯示每行重復出現的次數；

-d: 僅顯示重復過的行；

-u: 僅顯示不曾重復的行；

常和sort 命令一起配合使用：

sort userlist.txt | uniq -c

———- Linux文本處理三劍客之 grep 正則表達式與擴展正則表達式 ———-

正則表達式:

grep : Global search REgular expression and Print out the line.作用：文本搜索工具，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行；

模式：由正則表達式字符及文本字符所編寫的過濾條件

grep [OPTIONS] PATTERN [FILE…]

[root@localhost ~]# grep root /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost ~]# grep "$USER" /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost ~]# grep `whoami` /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

grep命令選項:

–color=auto: 對匹配到的文本著色顯示；

-v: 顯示不能夠被pattern匹配到的行；

-i: 忽略字符大小寫

-n：顯示匹配的行號

-c: 統計匹配的行數

-o: 僅顯示匹配到的字符串；

-q: 靜默模式，不輸出任何信息

-A #： after, 后#行

-B #: before, 前#行

-C #： context, 前后各#行

-e：實現多個選項間的邏輯or關系

grep –e ‘cat ’ -e ‘dog’ file

-w：整行匹配整個單詞

-E：使用ERE

正則表達式:

REGEXP：由一類特殊字符及文本字符所編寫的模式，其中有些字符（元字符）不表示字符字面意義，而表示控制或通配的功能

? 程序支持： grep, vim, less,nginx等

? 分兩類：

基本正則表達式： BRE

擴展正則表達式： ERE

grep -E, egrep

? 正則表達式引擎：

采用不同算法，檢查處理正則表達式的軟件模塊

PCRE（ Perl Compatible Regular Expressions）

? 元字符分類：字符匹配、匹配次數、位置錨定、分組

? man 7 regex

grep中的通配符

字符匹配:

. ：匹配任意單個字符；

[] ：匹配指定范圍內的任意單個字符

[^] ：匹配指定范圍外的任意單個字符

[:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]

、 [:punct:]、 [:space:]

匹配次數：用在要指定次數的字符后面，用于指定前面的字符要出現的次數

*：匹配前面的字符任意次，包括0次(與文本通配不同,文件通配是匹配零個或者多個字符,此處為重復次數)

貪婪模式：盡可能長的匹配

.*：任意長度的任意字符

\?：匹配其前面的字符0或1次

\+：匹配其前面的字符至少1次

\{m\}：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

位置錨定：定位出現的位置

^：行首錨定，用于模式的最左側

$：行尾錨定，用于模式的最右側

^PATTERN$: 用于模式匹配整行

^$: 空行

^[[:space:]]*$ ：空白行

\< 或 \b：詞首錨定，用于單詞模式的左側

\> 或 \b：詞尾錨定；用于單詞模式的右側

\<PATTERN\>：匹配整個單詞

分組： ：將一個或多個字符捆綁在一起，當作一個整體進行處理，如： $root$\+

分組括號中的模式匹配到的內容會被正則表達式引擎記錄于內部的變量中，這些變量的命名方式為: \1, \2, \3, …

\1: 從左側起，第一個左括號以及與之匹配右括號之間的模式所匹配到的字符；

實例： $string1\+\(string2$*\)

\1: string1\+$string2$*

\2: string2

后向引用：引用前面的分組括號中的模式所匹配字符(而非模式本身)

擴展正則表達式:

egrep及擴展的正則表達式 : egrep = grep -E

? egrep [OPTIONS] PATTERN [FILE…]

字符匹配：

. 任意單個字符

[] 指定范圍的字符

[^] 不在指定范圍的字符

次數匹配：

*：匹配前面字符任意次

?: 0或1次

+： 1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置錨定：

^ :行首

$ :行尾

\<, \b :語首

\>, \b :語尾

分組：

()

后向引用： \1, \2, …

或者：

a|b

C|cat: C或cat

(C|c)at:Cat或cat

原創文章，作者：hunter，如若轉載，請注明出處：http://www.www58058.com/30059

相關推薦

zabbix報警信息提取

馬哥教育網絡21期+第五周練習博客

TCP/IP

debian8下安裝配置部署zabbix3.0

關于軟硬鏈接那些事兒

cnetos 6.7 內核編譯