资讯理论查看源代码讨论查看历史

信息论（英语：information theory）是应用数学、电机工程学和计算机科学的一个分支，涉及信息的量化、存储和通信等。信息论是由克劳德·香农发展，用来找出信号处理与通信操作的基本限制，如数据压缩、可靠的存储和数据传输等。自创立以来，它已拓展应用到许多其他领域，包括统计推断、自然语言处理、密码学、神经生物学^[1]、进化论^[2]和分子编码的功能^[3]、生态学的模式选择^[4]、热物理^[5]、量子计算、语言学、剽窃检测^[6]、模式识别、异常检测和其他形式的数据分析。^[7]

熵是信息的一个关键度量，通常用一条消息中需要存储或传输一个符号的平均比特数来表示。熵衡量了预测随机变量的值时涉及到的不确定度的量。例如，指定掷硬币的结果（两个等可能的结果）比指定掷股子的结果（六个等可能的结果）所提供的信息量更少（熵更少）。

信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源－信道隔离定理相互联系。

信息论的基本内容的应用包括无损数据压缩（如ZIP文件）、有损数据压缩（如MP3和JPEG）、信道编码（如数字用户线路（DSL））。这个领域处在数学、统计学、计算机科学、物理学、神经科学和电机工程学的交叉点上。信息论对航海家深空探测任务的成败，光盘的发明，手机的可行性，互联网的发展，语言学和人类感知的研究，对黑洞的了解，和许多其他领域都影响深远。信息论的重要子领域有信源编码、信道编码、算法复杂性理论、算法信息论、资讯理论安全性和信息度量。

简述

信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。

一种简洁的语言（以英语为例）通常有两个重要特点：首先，最常用的词（比如"a"、"the"、"I"）应该比不太常用的词（比如"benefit"、"generation"、"mediocre"）要短一些；其次，如果句子的某一部分被漏听或者由于噪声干扰（比如一辆车辆疾驰而过）而被误听，听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话，这种健壮性（robustness）是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。

注意这些内容同消息的重要性之间是毫不相干的。例如，像“多谢；常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的，然而明显后者更重要，也更有实在意义。信息论却不考虑一段消息的重要性或内在意义，因为这些是数据的质量的问题而不是数据量（数据的长度）和可读性方面上的问题，后者只是由概率这一因素单独决定的。

信息的度量

信息熵

美国数学家克劳德·香农被称为“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报（：Bell System Technical Journal）》上的论文《通信的数学理论》作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利（：Ralph Hartley）于1920年代先后发表的研究成果。在该文中，香农给出了信息熵的定义：

<math>H(X)=E[\log_2(X)] =\sum_{x\in\mathcal{X}}^{}p(x)\log_2(\frac{1}{p(x)})</math>

其中<math>\mathcal{X}</math>为有限个事件x的集合，<math>X</math>是定义在<math>\mathcal{X}</math>上的随机变量。信息熵是随机事件不确定性的度量。

信息熵与物理学中的热力学熵有着紧密的联系:

其中S(X)为热力学熵，H(X)为信息熵，<math>k_B</math>为波兹曼常数。事实上这个关系也就是广义的波兹曼熵公式，或是在正则系综内的热力学熵表示式。如此可知，玻尔兹曼与吉布斯在统计物理学中对熵的工作，启发了信息论的熵。

信息熵是信源编码定理中，压缩率的下限。当我们用少于信息熵的资讯量做编码，那麽我们一定有资讯的损失。夏农在大数定律和渐进均分性（：Asymptotic equipartition property）的基础上定义了典型集（：Typical set）和典型序列。典型集是典型序列的集合。因为一个独立同分布的<math>X</math>序列属于由<math>X</math>定义的典型集的机率大约为1，所以只需要将属于典型集的无记忆<math>X</math>信源序列编为唯一可译码，其他序列随意编码，就可以达到几乎无损失的压缩。

例子

若S为一个三个面的股子,

P(面一)=1/5,

P(面二)=2/5,

P(面三)=2/5

<math> H(X)=\frac{1}{5}\log_2 (5)+\frac{2}{5}\log_2\left(\frac{5}{2}\right)+\frac{2}{5}\log_2\left(\frac{5}{2}\right) </math>

联合熵(Joint Entropy)与条件熵(Conditional Entropy)

联合熵由熵的定义出发，由联合分布，我们有:

<math>H(X,Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(x,y)})</math>

条件熵，顾名思义，从条件机率p(y|x)做定义:

<math>H(Y|X)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(y|x)})</math>

因为由贝氏定理，我们有<math>p(x,y)=p(y|x)p(x)</math>，带入联合熵的定义，可以分离出条件熵，于是得到联合熵与条件熵的关系式:

链式法则

我们可以再对联合熵与条件熵的关系做推广，假设现在有n个随机变量<math>X_i, i=1,2,...,n</math>，重複分离出条件熵，我们有:

<math>\begin{align} H(X_1,X_2,...,X_n)&=H(X_1)+H(X_2,...,X_n|X_1)=H(X_1)+H(X_2|X_1)+H(X_3,...,X_n|X_1,X_2)\\

&=H(X_1)+\sum_{i=2}^{n}H(X_i|X_1,...,X_{i-1})\end{align}</math>

他的意义显而易见，假如我们接收一段数列<math>\{X_1,X_2,...,X_n\}</math>，且先收到<math>X_1</math>，再来是<math>X_2</math>，依此类推。那麽收到<math>X_1</math>后总讯息量为<math>H(X_1)</math>，收到<math>X_2</math>后总讯息量为<math>H(X_1)+H(X_2|X_1)</math>，直到收到<math>X_n</math>后我们的总讯息量应为<math>H(X_1,...,X_n)</math>，于是这个接收过程中就给出了链式法则。

互信息

互信息（Mutual Information）是另一有用的信息度量，它是指两个事件集合之间的相关性。两个事件<math>X</math>和<math>Y</math>的互信息定义为：

其意义为，若我们想知道<math>Y</math>包含多少<math>X</math>的资讯，在尚未得到<math>Y</math>之前，我们的不确定性是<math>H(X)</math>，得到Y后，不确定性是<math>H(X|Y)</math>。所以一旦得到<math>Y</math>后，我们消除了<math>H(X)-H(X|Y)</math>的不确定量，这就是Y对X的资讯量。

如果<math>X,Y</math>互为独立，则<math>H(X,Y)=H(X)+H(Y)</math>，于是<math>I(X;Y)=0</math>。

又因为<math>H(X|Y)\leq H(X)</math>，所以

<math>I(X;Y)\leq \min(H(X),H(Y))</math>，其中等号成立条件为Y=g(X)，g是一个双射函数

互信息与G检验（：G-test）以及皮尔森卡方检验有着密切的联系。

应用

信息论被广泛应用在：

参考文献

↑ F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek. Spikes: Exploring the Neural Code. The MIT press. 1997. ISBN 978-0262681087.
↑ cf. Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, Science 294:2310-2314
↑ Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, Thomas D. Schneider 互联网档案馆的存檔，存档日期2008-08-21., Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, Gene 215:1, 111-122
↑ Burnham, K. P. and Anderson D. R. (2002) Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science, New York) ISBN 978-0-387-95364-9.
↑ Jaynes, E. T. (1957) Information Theory and Statistical Mechanics, Phys. Rev. 106:620
↑ Charles H. Bennett, Ming Li, and Bin Ma (2003) Chain Letters and Evolutionary Histories, Scientific American 288:6, 76-81
↑ David R. Anderson. Some background on why people in the empirical sciences may want to better understand the information-theoretic methods (PDF). November 1, 2003 [2010-06-23]. （原始内容 (pdf)存档于2011年7月23日）.

外部链接

香农论文：通信的数学理论

[1] F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek. Spikes: Exploring the Neural Code. The MIT press. 1997. ISBN 978-0262681087.

[2] . Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, Science 294:2310-2314

[3] Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, Thomas D. Schneider 互联网档案馆的存檔，存档日期2008-08-21., Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, Gene 215:1, 111-122

[4] Burnham, K. P. and Anderson D. R. (2002) Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science, New York) ISBN 978-0-387-95364-9.

[5] Jaynes, E. T. (1957) Information Theory and Statistical Mechanics, Phys. Rev. 106:620

[6] Charles H. Bennett, Ming Li, and Bin Ma (2003) Chain Letters and Evolutionary Histories, Scientific American 288:6, 76-81

[7] David R. Anderson. Some background on why people in the empirical sciences may want to better understand the information-theoretic methods (PDF). November 1, 2003 [2010-06-23]. （原始内容 (pdf)存档于2011年7月23日）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]