信息論的熵

s19930811 ? 2016-03-27 22:19 ? Linux干貨, 系統運維

1. 前言

熵的概念最早起源于物理學，用于度量一個熱力學系統的無序程度。

在信息論里則叫信息量,即熵是對不確定性的度量。從控制論的角度來看，應叫不確定性。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。在信息世界，熵越高，則能傳輸越多的信息，熵越低，則意味著傳輸的信息越少。

當我們不知道某事物具體狀態，卻知道它有幾種可能性時，顯然，可能性種類愈多，不確定性愈大。不確定性愈大的事物，我們最后確定了、知道了，這就是說我們從中得到了愈多的信息，也就是信息量大。所以，熵、不確定性、信息量，這三者是同一個數值。

兩種可能性:最簡單的是只有兩種可能性，非此即彼，我們就以這種事物的信息量為單位，叫1比特（bit）。

4種可能性:用二分法，分為2組，我們要非此即彼地確定2次，才能確定其狀態，所以含有2比特信息量。

如果可能性數目有2的n次方（N=2^n）:那就是n比特，即信息量等于可能性數目N的‘以2為底的對數’：H=㏒₂（N）＝㏒（N）/㏒（2）。后一個等號說明，以2為底的對數㏒₂可用普通對數㏒（以10為底）來計算，即用N的普通對數除2的普通對數。N＝3種可能性時，信息量H＝㏒（3）/㏒（2）＝1.585。只要有函數型計算器，我們就可以進行以下簡單實例的驗算。

我們現在不是討論事物本身的信息量，而是討論描述事物的文字符號包含的信息量。先討論比較簡單的數字符號。

二進制數:二進制數只有2個符號：0和1。一位二進制數有2種可能性，其信息量是1比特。n位二進制數可記N=2^n個不相等的數，含有n比特信息，所以每位數字的信息量還是1。

十進制數:十進制數字有10個，每位數字的信息量是㏒(10)/ ㏒(2)=1/0.301=3.32。不難驗證所有十進制數，每位數字的信息量都是3.32，例如3位數共1000個，信息量是㏒(1000)/ ㏒(2)=3*3.32。而十六進制的每位數字的信息量是4。

事情好像很簡單，其實不然。試考慮還沒有發明數字的遠古人，他用刻畫來記數，用刻n畫的方法記數目n。10以內的數平均每個數要刻（1+10）/2＝5.5畫，每畫的平均信息量是3.32/5.5＝0.604，而100以內的數平均每個數（1+100）/2＝50.5畫，每畫的平均信息量只有6.64/50. 5＝0.132。因為古人刻的每一畫是沒有次序或位置的區別的，所以每一畫的信息量變化很大，數值則很小。次序或位置非常重要，羅馬字和我國古代的數碼，也是短畫，但要講究位置組合，每畫所含的信息量就大大提高了。注意，我們以后討論的文字信號，都是有次序的。

這樣，文字信號的信息量H是信號個數n的以2為底的對數： H=㏒(n)/ ㏒(2)。英文有 26個字母，每個字母的信息量H=㏒(26)/ ㏒(2)＝4.700。漢字個數不定，算1000個時等于3*3.32＝9.96，算作一萬、十萬時則分別為13.28、16.60。我們能隨意增加大量一輩子也用不到的漢字，來無限地增加每個漢字的信息量？這當然不合理。原來信息量不能無條件地按符號的個數來計算，只有各符號的可能性一樣，都等于1/n時才行。數字符號就滿足這樣的條件。事實上信息量應按符號的可能性（數學上叫概率大?。﹣碛嬎?，它是概率的負對數。對于二進制數，每個符號的概率都等于1/2，按負對數計算：－㏒(1/n)＝－（㏒(1)－㏒(n)）＝－（0－㏒(n)）＝㏒(n)。這就是我們前面使用的公式的來源。如果符號i的概率p_i不等于1/n，則H_i=－㏒(p_i)。因為各個符號的概率p_i不相等，對于總體來說，平均信息量就是它們的加權平均H=－∑p_i㏒(p_i)，這里累加符號∑表示對所有 i 進行累計。（以上式子除以㏒(2)，就可化為以比特為單位了）。

2. 熵的定義

如果有一枚理想的硬幣，其出現正面和反面的機會相等，則拋硬幣事件的熵等于其能夠達到的最大值。我們無法知道下一個硬幣拋擲的結果是什么，因此每一次拋硬幣都是不可預測的。因此，使用一枚正常硬幣進行若干次拋擲，這個事件的熵是一比特，因為結果不外乎兩個——正面或者反面，可以表示為0, 1編碼，而且兩個結果彼此之間相互獨立。若進行n次獨立實驗，則熵為n，因為可以用長度為n的比特流表示。^[1]但是如果一枚硬幣的兩面完全相同，那個這個系列拋硬幣事件的熵等于零，因為結果能被準確預測?，F實世界里，我們收集到的數據的熵介于上面兩種情況之間。

另一個稍微復雜的例子是假設一個隨機變量X，取三種可能值 $\begin{smallmatrix} x_1, x_2, x_3 \end{smallmatrix}$ ，概率分別為 $\begin{smallmatrix} \frac{1}{2}, \frac{1}{4}, \frac{1}{4} \end{smallmatrix}$ ，那么編碼平均比特長度是： $\begin{smallmatrix} \frac{1}{2} \times 1 + \frac{1}{4} \times 2 + \frac{1}{4} \times 2 = \frac{3}{2} \end{smallmatrix}$ 。其熵為3/2。

因此熵實際是對隨機變量的比特量和順次發生概率相乘再總和的數學期望。

熵在信息論中的定義推導過程如下：

信源的不確定性：信源發出的消息不肯定性越大，收信者獲取的信息量就越大。如果信源發送的消息是確切的，則對收信者來說沒有任何價值（沒有信息量）。衡量不確定性的方法就是考察信源X的概率空間。X包含的狀態越多，狀態Xi的概率pi越小，則不確定性越大，所含有的信息量越大。

不確定程度用H（X）表示，簡稱不確定度，用概率的倒數的對數來度量不肯定程度。一般寫成H(X) = log(1/p) = -log(p).

自信息量：一個事件（消息）本身所包含的信息量，由事件的不確定性決定的。

即隨機事件Xi發生概率為P(xi)，則隨機事件的自信息量定義為：

信息論的熵

表示事件Xi發生后能提供的信息量。事件不同，則他的信息量也不同，所以自信息量是一個隨機變量。不能用來表征整個信源的不肯定性。可以用平均自信息量來表征整個信源的不肯定性。

定義信息量為概率的負對數，是很合理的。試考慮一個兩種可能性的事物，僅當可能性相等時，不確定性最大，最后我們知道了某一可能性確實發生了，也得到最大的信息量。如果其中某一個可能性很大（另一個必然很?。?，不確定性就很小。如果可能性大到1，也就是必然要發生的，因為1的對數為0，我們從知道它的發生這件事得到的信息也為0。

（1）非負性

（2）隨機性是隨機變量

（3）單調性概率大自信息量小

（4）隨機事件的不確定性在數量上等于它的自信息量。

（5）單位

以2為底，記作lb，單位比特（bit）；

以e為底，記作ln，單位奈特（nat）；

以10為底，記作lg，單位哈脫來（hat）。

信息熵：隨機變量自信息量I(xi)的數學期望（平均自信息量），用H（X）表示，即為熵的定義：

信息論的熵

即一個值域為{x₁, …, x_n}的隨機變量 X 的熵值 H 定義為：

$H(X) = \operatorname{E}(I(X))$ ，

其中，E 代表了期望函數，而 I(X) 是 X 的信息量（又稱為信息本體）。I(X) 本身是個隨機變量。如果 p 代表了 X 的機率質量函數（probability mass function），則熵的公式可以表示為：

$H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}$

在這里 b 是對數所使用的底，通常是 2, 自然常數 e，或是10。當b = 2，熵的單位是bit；當b = e，熵的單位是 nat；而當 b = 10,熵的單位是 dit。

p_i = 0時，對于一些i值，對應的被加數0 log_b 0的值將會是0，這與極限一致。

$\lim_{p\to0+}p\log p = 0.$

3. 范例

如果有一個系統S內存在多個事件S = {E₁,…,E_n}，每個事件的機率分布 P = {p₁, …, p_n}，則每個事件本身的信息量為：

$I_e = -\log_2 {p_i}$ （對數以2為底，單位是比特(bit)）

$I_e = -\ln {p_i}$ （對數以 $e$ 為底，單位是納特/nats）

如英語有26個字母，假如每個字母在文章中出現次數平均的話，每個字母的訊息量為：

$I_e = -\log_2 {1\over 26} = 4.7$

而漢字常用的有2500個，假如每個漢字在文章中出現次數平均的話，每個漢字的信息量為：

$I_e = -\log_2 {1\over 2500} = 11.3$

實際上每個字母和每個漢字在文章中出現的次數并不平均，比方說較少見字母（如z）和罕用漢字就具有相對高的信息量。但上述計算提供了以下概念：使用書寫單元越多的文字，每個單元所包含的訊息量越大。

熵是整個系統的平均消息量，即：

$H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i$

這個平均消息量就是消息熵。因為和熱力學中描述熱力學熵的玻耳茲曼公式形式一樣，所以也稱為“熵”。

英語文本數據流的熵比較低，因為英語很容易讀懂，也就是說很容易被預測。即便我們不知道下一段英語文字是什么內容，但是我們能很容易地預測，比如，字母e總是比字母z多，或者qu字母組合的可能性總是超過q與任何其它字母的組合。如果未經壓縮，一段英文文本的每個字母需要8個比特來編碼，但是實際上英文文本的熵大概只有4.7比特。如果壓縮是無損的，即通過解壓縮可以百分之百地恢復初始的消息內容，那么壓縮后的消息攜帶的信息和未壓縮的原始消息是一樣的多。而壓縮后的消息可以通過較少的比特傳遞，因此壓縮消息的每個比特能攜帶更多的信息，也就是說壓縮信息的熵更加高。熵更高意味著比較難于預測壓縮消息攜帶的信息，原因在于壓縮消息里面沒有冗余，即每個比特的消息攜帶了一個比特的信息。香農的信息理論揭示了，任何無損壓縮技術不可能讓一比特的消息攜帶超過一比特的信息。消息的熵乘以消息的長度決定了消息可以攜帶多少信息。

如果兩個系統具有同樣大的消息量，如一篇用不同文字寫的同一文章，由于是所有元素消息量的加和，那么中文文章應用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應用總體數量少的字母印刷的文章要短。即使一個漢字占用兩個字母的空間，漢字印刷的文章也要比英文字母印刷的用紙少。

4. 信息增益

已經有了熵作為衡量訓練樣例集合純度的標準，現在可以定義屬性分類訓練數據的效力的度量標準。這個標準被稱為“信息增益（information gain）”。簡單的說，一個屬性的信息增益就是由于使用這個屬性分割樣例而導致的期望熵降低(或者說，樣本按照某屬性劃分時造成熵減少的期望)。在信息增益中，衡量標準是看特征能夠為分類系統帶來多少信息，帶來的信息越多，該特征越重要。對一個特征而言，系統有它和沒它時信息量將發生變化，而前后信息量的差值就是這個特征給系統帶來的信息量

更精確地講，一個屬性A相對樣例集合S的信息增益Gain(S,A)被定義為：

5. 熵的特性

1、熵均大于等于零，即， $H_s \ge 0$ 。
2、設N是系統S內的事件總數，則熵 $H_s \le log_2N$ 。當且僅當p1=p2=…=pn時，等號成立，此時系統S的熵最大。
3、聯合熵： $H(X,Y) \le H(X) + H(Y)$ ，當且僅當X，Y在統計學上相互獨立時等號成立。
4、條件熵： $H(X|Y) = H(X,Y) - H(Y) \le H(X)$ ，當且僅當X，Y在統計學上相互獨立時等號成立。

5. 拋硬幣的熵

拋硬幣的熵H(X)（即期望自信息），以比特度量，與之相對的是硬幣的公正度 Pr(X=1).

注意圖的最大值取決于分布；在這里，要傳達一個公正的拋硬幣結果至多需要1比特，但要傳達一個公正的拋骰子結果至多需要log2(6)比特。

轉自：http://blog.csdn.net/hguisu/article/details/27305435

原創文章，作者：s19930811，如若轉載，請注明出處：http://www.www58058.com/2608

二進制統計學，wikipedia，創始人，數學

贊 (0)

0

推薦-Centos的網絡配置命令和文件

上一篇 2016-03-27 22:16

利用 yum 查找某個命令屬于哪個包

下一篇 2016-03-27 22:21

Apc緩存Opcode

1、PHP執行 PHP的運行階段也分成三個階段： Parse。語法分析階段。 Compile。編譯產出opcode中間碼。 Execute。運行，動態運行進行輸出。 …

Linux干貨 2015-04-10
推薦-MySQL存儲日志并使用Loganalyzer作為前端展示

MySQL存儲日志并使用Loganalyzer作為前端展示 MySQL存儲日志并使用Loganalyzer作為前端展示為什么要使用日志本文目標實驗拓撲圖實驗環境實驗步驟 syslog主機上rsyslog設置 Server1主機上rsyslog設置 Web服務器配置總結為什么要使用日志在生產環境中我們可能需要一個較為完整的日志系統來查看運行中主…

Linux干貨 2016-03-30
腳本數組及yum軟件包管理器

一、數組變量：存儲單個元素的內存空間數組：存儲多個元素的連續的內存空間，相當于多個變量的集合。數組名和索引索引：編號從0開始，屬于數值索引注意：索引可支持使用自定義的格式，而不僅是數值格式，即為關聯索引，bash4.0版本之后開始支持。bash的數組支持稀疏格式（索引不連續） 1.定義數組聲明數組： declare …

Linux干貨 2016-08-25
Linux的基礎文件管理命令

Linux用于管理文件的一些基本常見的命令如下： ls：列出指定目錄下的清單 -a 顯示所有文件包括隱藏文件 -l 顯示文件的詳細信息 -d 查看目錄自身示例： cat: 可查看指定路徑下的文件文本 fi…

Linux干貨 2016-11-06
馬哥教育網絡班21期+第六周課程練習

第六周作業 1、復制/etc/rc.d/rc.sysinit文件至/tmp目錄，將/tmp/rc.sysinit文件中的以至少一個空白字符開頭的行的行首加#； cp /etc/rc.d/rc.sysinit /tmpvim /tmp/rc.sysinit # 命令模式下，輸入一下內容:%s@\(^[[:space:]]…

Linux干貨 2016-10-17
Linux干貨

CentOS 6 啟動流程

CentOS6啟動流程 1.加載BIOS的硬件信息，獲取第一個啟動設備 2.讀取第一個啟動設備MBR的引導加載程序(grub)的啟動信息 3.加載核心操作系統的核心信息，核心開始解壓縮，并嘗試驅動所有的硬件設備 4.核心執行init程序，并獲取默認的運行信息 5.init程序執行/etc/rc.d/rc.sysinit文件 6.啟動核心的外掛模塊 7.ini…

2017-09-01

欧美性久久久久