最大熵原理檢視原始碼討論檢視歷史

最大熵原理
來自 X技術

中文名：最大熵原理外文名：principle of maximum entropy 提出時間：1957年提出者：E.T.Jaynes 參考文獻：《淺談最大熵原理和統計物理學》應用學科：通信

最大熵原理是一種選擇隨機變量統計特性最符合客觀情況的準則，也稱為最大信息原理。隨機量的概率分布是很難測定的，一般只能測得其各種均值（如數學期望、方差等）或已知某些限定條件下的值（如峰值、取值個數等），符合測得這些值的分布可有多種、以至無窮多種，通常，其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變量的分布，是一種有效的處理方法和準則。這種方法雖有一定的主觀性，但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子裡，這樣可以降低風險。在信息處理中，這個原理同樣適用。在數學上，這個原理稱為最大熵原理。^[1]

歷史背景

最大熵原理是在1957 年由E.T.Jaynes 提出的，其主要思想是，在只掌握關於未知分布的部分知識時，應該選取符合這些知識但熵值最大的概率分布。因為在這種情況下，符合已知知識的概率分布可能不止一個。我們知道，熵定義的實際上是一個隨機變量的不確定性，熵最大的時候，說明隨機變量最不確定，換句話說，也就是隨機變量最隨機，對其行為做準確預測最困難。

從這個意義上講，那麼最大熵原理的實質就是，在已知部分知識的前提下，關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷，這是我們可以作出的不偏不倚的選擇，任何其它的選擇都意味着我們增加了其它的約束和假設，這些約束和假設根據我們掌握的信息無法作出。可查看《淺談最大熵原理和統計物理學》——曾致遠(Richard Chih-Yuan Tseng)研究領域主要為古典信息論，量子信息論及理論統計熱物理學，臨界現象及非平衡熱力學等物理現象理論研究古典信息論在統計物理學中之意義及應用。

發展過程

早期的信息論其中心任務就是從理論上認識一個通信的設備（手段）的通信能力應當如何去計量以及分析該通信能力的規律性。但是信息論研究很快就發現利用信息熵最大再附加上一些約束，就可以得到例如著名的統計學中的高斯分布（即正態分布）。這件事提示我們高斯分布又多了一種論證的方法，也提示了把信息熵最大化是認識客觀事物的規律性的新角度。

把熵最大（對應我們的複雜程度最大）做為一種原則或者方法應用於各個科技領域的旗手是傑尼斯E.T.Jaynes 。他從1957年就在這個方向做了開創性的工作。他給出了利用最大熵方法定量求解問題的一般技術途徑；論證了統計力學中的一些著名的分布函數從信息熵最大的角度也可以得到證明。這不僅使信息論知識與統計物理知識實現了連通，也使熵概念和熵原理走出了熱力學的領域。

20世紀60年代Burg在時間序列的分析中提出了用信息熵最大求頻譜的技術。用這種方法得到的譜的準確性比過去的方法好，人們把它稱為最大熵譜。80年代這個方法在我國也得到了廣泛應用。40多年以來，儘管「利用最大熵的方法解決科技問題」在信息論的理論中不是主流，但是利用信息熵最大幫助解決很多科技問題已經形成了獨立的一股學術和技術力量，而且是碩果纍纍了。80年代以來在美國等地每年都召開一次討論最大熵方法應用的學術會議，並且有一冊會議文集出版。這成為他們的重要學術活動形式。

特點

最大熵方法的特點是在研究的問題中，儘量把問題與信息熵聯繫起來，再把信息熵最大做為一個有益的假設（原理），用於所研究的問題中。由於這個方法得到的結果或者公式往往（更）符合實際，它就推動這個知識在前進和曼延。我國學者（後來去了加拿大）吳乃龍、袁素雲在本領域有成就，而且也在所著的《最大熵方法》（湖南科學技術出版社1991年出版）一書中向國人就這個方法做了很全面的介紹。

把最複雜原理與信息論中的最大熵方法聯繫起來，既是自然的邏輯推論也顯示最複雜原理並不孤立。這樣，最大熵方法過去取得的一切成就都在幫助人們理解最複雜原理的合理性。而最複雜原理的引入也使人們擺脫對神秘的熵概念和熵原理的敬畏。在理解了最複雜原理來源於概率公理以後，我們終於明白，神秘的熵原理本質上僅是「高概率的事物容易出現」這個再樸素不過的公理的一個推論。

發展狀況

前段時間，Google 中國研究院的劉駿總監談到在網絡搜索排名中，用到的信息有上百種。更普遍地講，在自然語言處理中，我們常常知道各種各樣的但是又不完全確定的信息，我們需要用一個統一的模型將這些信息綜合起來。如何綜合得好，是一門很大的學問。

讓我們看一個拼音轉漢字的簡單的例子。假如輸入的拼音是"wang-xiao-bo"，利用語言模型，根據有限的上下文(比如前兩個詞)，我們能給出兩個最常見的名字「王小波」和「王曉波」。至於要確定是哪個名字就難了，即使利用較長的上下文也做不到。當然，我們知道如果通篇文章是介紹文學的，作家王小波的可能性就較大；而在討論兩岸關係時，台灣學者王曉波的可能性會較大。在上面的例子中，我們只需要綜合兩類不同的信息，即主題信息和上下文信息。雖然有不少湊合的辦法，比如：分成成千上萬種的不同的主題單獨處理，或者對每種信息的作用加權平均等等，但都不能準確而圓滿地解決問題，這樣好比以前我們談到的行星運動模型中的小圓套大圓打補丁的方法。在很多應用中，我們需要綜合幾十甚至上百種不同的信息，這種小圓套大圓的方法顯然行不通。

理論方法

離散情形

離散信源情況下，等概率信源的熵為最大值。

連續情形

連續信源在不同限制條件下的最大熵是不同的，在無限制的條件下，最大熵為無窮大。在具體應用中，只對連續信源的兩種情況感興趣，一是信源輸出幅度受限，即限峰功率情況；二是信源輸出平均功率受限。

在限峰功率情況下，對於定義域為有限的隨機變量X，當它是均勻分布時，具有最大熵。

在限平均功率情況下，對於相關矩陣一定的隨機變量X，當它是正態分布時具有最大熵。

最大熵原則、定理以及方法

參考資料

↑ 「熵」不起：從熵、最大熵原理到最大熵模型（一），科學空間

[1] 「熵」不起：從熵、最大熵原理到最大熵模型（一），科學空間

[1]