資訊理論檢視原始碼討論檢視歷史

信息論（英語：information theory）是應用數學、電機工程學和計算機科學的一個分支，涉及信息的量化、存儲和通信等。信息論是由克勞德·香農發展，用來找出信號處理與通信操作的基本限制，如數據壓縮、可靠的存儲和數據傳輸等。自創立以來，它已拓展應用到許多其他領域，包括統計推斷、自然語言處理、密碼學、神經生物學^[1]、進化論^[2]和分子編碼的功能^[3]、生態學的模式選擇^[4]、熱物理^[5]、量子計算、語言學、剽竊檢測^[6]、模式識別、異常檢測和其他形式的數據分析。^[7]

熵是信息的一個關鍵度量，通常用一條消息中需要存儲或傳輸一個符號的平均比特數來表示。熵衡量了預測隨機變量的值時涉及到的不確定度的量。例如，指定擲硬幣的結果（兩個等可能的結果）比指定擲股子的結果（六個等可能的結果）所提供的信息量更少（熵更少）。

信息論將信息的傳遞作為一種統計現象來考慮，給出了估算通信信道容量的方法。信息傳輸和信息壓縮是信息論研究中的兩大領域。這兩個方面又由信道編碼定理、信源－信道隔離定理相互聯繫。

信息論的基本內容的應用包括無損數據壓縮（如ZIP文件）、有損數據壓縮（如MP3和JPEG）、信道編碼（如數字用戶線路（DSL））。這個領域處在數學、統計學、計算機科學、物理學、神經科學和電機工程學的交叉點上。信息論對航海家深空探測任務的成敗，光盤的發明，手機的可行性，互聯網的發展，語言學和人類感知的研究，對黑洞的了解，和許多其他領域都影響深遠。信息論的重要子領域有信源編碼、信道編碼、算法複雜性理論、算法信息論、資訊理論安全性和信息度量。

簡述

信息論的主要內容可以類比人類最廣泛的交流手段——語言來闡述。

一種簡潔的語言（以英語為例）通常有兩個重要特點：首先，最常用的詞（比如"a"、"the"、"I"）應該比不太常用的詞（比如"benefit"、"generation"、"mediocre"）要短一些；其次，如果句子的某一部分被漏聽或者由於噪聲干擾（比如一輛車輛疾馳而過）而被誤聽，聽者應該仍然可以抓住句子的大概意思。而如果把電子通信系統比作一種語言的話，這種健壯性（robustness）是不可或缺的。將健壯性引入通信是通過信道編碼完成的。信源編碼和信道編碼是信息論的基本研究課題。

注意這些內容同消息的重要性之間是毫不相干的。例如，像「多謝；常來」這樣的客套話與像「救命」這樣的緊急請求在說起來、或者寫起來所花的時間是差不多的，然而明顯後者更重要，也更有實在意義。信息論卻不考慮一段消息的重要性或內在意義，因為這些是數據的質量的問題而不是數據量（數據的長度）和可讀性方面上的問題，後者只是由概率這一因素單獨決定的。

信息的度量

信息熵

美國數學家克勞德·香農被稱為「信息論之父」。人們通常將香農於1948年10月發表於《貝爾系統技術學報（：Bell System Technical Journal）》上的論文《通信的數學理論》作為現代信息論研究的開端。這一文章部分基於哈里·奈奎斯特和拉爾夫·哈特利（：Ralph Hartley）於1920年代先後發表的研究成果。在該文中，香農給出了信息熵的定義：

<math>H(X)=E[\log_2(X)] =\sum_{x\in\mathcal{X}}^{}p(x)\log_2(\frac{1}{p(x)})</math>

其中<math>\mathcal{X}</math>為有限個事件x的集合，<math>X</math>是定義在<math>\mathcal{X}</math>上的隨機變量。信息熵是隨機事件不確定性的度量。

信息熵與物理學中的熱力學熵有着緊密的聯繫:

其中S(X)為熱力學熵，H(X)為信息熵，<math>k_B</math>為波茲曼常數。事實上這個關係也就是廣義的波茲曼熵公式，或是在正則系綜內的熱力學熵表示式。如此可知，玻爾茲曼與吉布斯在統計物理學中對熵的工作，啟發了信息論的熵。

信息熵是信源編碼定理中，壓縮率的下限。當我們用少於信息熵的資訊量做編碼，那麽我們一定有資訊的損失。夏農在大數定律和漸進均分性（：Asymptotic equipartition property）的基礎上定義了典型集（：Typical set）和典型序列。典型集是典型序列的集合。因為一個獨立同分布的<math>X</math>序列屬於由<math>X</math>定義的典型集的機率大約為1，所以只需要將屬於典型集的無記憶<math>X</math>信源序列編為唯一可譯碼，其他序列隨意編碼，就可以達到幾乎無損失的壓縮。

例子

若S為一個三個面的股子,

P(面一)=1/5,

P(面二)=2/5,

P(面三)=2/5

<math> H(X)=\frac{1}{5}\log_2 (5)+\frac{2}{5}\log_2\left(\frac{5}{2}\right)+\frac{2}{5}\log_2\left(\frac{5}{2}\right) </math>

聯合熵(Joint Entropy)與條件熵(Conditional Entropy)

聯合熵由熵的定義出發，由聯合分布，我們有:

<math>H(X,Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(x,y)})</math>

條件熵，顧名思義，從條件機率p(y|x)做定義:

<math>H(Y|X)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(y|x)})</math>

因為由貝氏定理，我們有<math>p(x,y)=p(y|x)p(x)</math>，帶入聯合熵的定義，可以分離出條件熵，於是得到聯合熵與條件熵的關係式:

鏈式法則

我們可以再對聯合熵與條件熵的關係做推廣，假設現在有n個隨機變量<math>X_i, i=1,2,...,n</math>，重複分離出條件熵，我們有:

<math>\begin{align} H(X_1,X_2,...,X_n)&=H(X_1)+H(X_2,...,X_n|X_1)=H(X_1)+H(X_2|X_1)+H(X_3,...,X_n|X_1,X_2)\\

&=H(X_1)+\sum_{i=2}^{n}H(X_i|X_1,...,X_{i-1})\end{align}</math>

他的意義顯而易見，假如我們接收一段數列<math>\{X_1,X_2,...,X_n\}</math>，且先收到<math>X_1</math>，再來是<math>X_2</math>，依此類推。那麽收到<math>X_1</math>後總訊息量為<math>H(X_1)</math>，收到<math>X_2</math>後總訊息量為<math>H(X_1)+H(X_2|X_1)</math>，直到收到<math>X_n</math>後我們的總訊息量應為<math>H(X_1,...,X_n)</math>，於是這個接收過程中就給出了鏈式法則。

互信息

互信息（Mutual Information）是另一有用的信息度量，它是指兩個事件集合之間的相關性。兩個事件<math>X</math>和<math>Y</math>的互信息定義為：

其意義為，若我們想知道<math>Y</math>包含多少<math>X</math>的資訊，在尚未得到<math>Y</math>之前，我們的不確定性是<math>H(X)</math>，得到Y後，不確定性是<math>H(X|Y)</math>。所以一旦得到<math>Y</math>後，我們消除了<math>H(X)-H(X|Y)</math>的不確定量，這就是Y對X的資訊量。

如果<math>X,Y</math>互為獨立，則<math>H(X,Y)=H(X)+H(Y)</math>，於是<math>I(X;Y)=0</math>。

又因為<math>H(X|Y)\leq H(X)</math>，所以

<math>I(X;Y)\leq \min(H(X),H(Y))</math>，其中等號成立條件為Y=g(X)，g是一個对射函數

互信息與G檢驗（：G-test）以及皮爾森卡方检定有着密切的聯繫。

應用

信息論被廣泛應用在：

參考文獻

↑ F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek. Spikes: Exploring the Neural Code. The MIT press. 1997. ISBN 978-0262681087.
↑ cf. Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, Science 294:2310-2314
↑ Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, Thomas D. Schneider 網際網路檔案館的存檔，存檔日期2008-08-21., Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, Gene 215:1, 111-122
↑ Burnham, K. P. and Anderson D. R. (2002) Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science, New York) ISBN 978-0-387-95364-9.
↑ Jaynes, E. T. (1957) Information Theory and Statistical Mechanics, Phys. Rev. 106:620
↑ Charles H. Bennett, Ming Li, and Bin Ma (2003) Chain Letters and Evolutionary Histories, Scientific American 288:6, 76-81
↑ David R. Anderson. Some background on why people in the empirical sciences may want to better understand the information-theoretic methods (PDF). November 1, 2003 [2010-06-23]. （原始內容 (pdf)存檔於2011年7月23日）.

外部鏈接

香農論文：通信的數學理論

[1] F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek. Spikes: Exploring the Neural Code. The MIT press. 1997. ISBN 978-0262681087.

[2] . Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, Science 294:2310-2314

[3] Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, Thomas D. Schneider 網際網路檔案館的存檔，存檔日期2008-08-21., Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, Gene 215:1, 111-122

[4] Burnham, K. P. and Anderson D. R. (2002) Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science, New York) ISBN 978-0-387-95364-9.

[5] Jaynes, E. T. (1957) Information Theory and Statistical Mechanics, Phys. Rev. 106:620

[6] Charles H. Bennett, Ming Li, and Bin Ma (2003) Chain Letters and Evolutionary Histories, Scientific American 288:6, 76-81

[7] David R. Anderson. Some background on why people in the empirical sciences may want to better understand the information-theoretic methods (PDF). November 1, 2003 [2010-06-23]. （原始內容 (pdf)存檔於2011年7月23日）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]