最大熵原理
最大熵原理 |
中文名:最大熵原理 外文名:principle of maximum entropy 提出時間:1957年 提出者:E.T.Jaynes 參考文獻:《淺談最大熵原理和統計物理學》 應用學科:通信 |
最大熵原理是一種選擇隨機變量統計特性最符合客觀情況的準則,也稱為最大信息原理。隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變量的分布,是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子裡,這樣可以降低風險。在信息處理中,這個原理同樣適用。在數學上,這個原理稱為最大熵原理。[1]
目錄
歷史背景
最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握關於未知分布的部分知識時,應該選取符合這些知識但熵值最大的概率分布。因為在這種情況下,符合已知知識的概率分布可能不止一個。我們知道,熵定義的實際上是一個隨機變量的不確定性,熵最大的時候,說明隨機變量最不確定,換句話說,也就是隨機變量最隨機,對其行為做準確預測最困難。
從這個意義上講,那麼最大熵原理的實質就是,在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷,這是我們可以作出的不偏不倚的選擇,任何其它的選擇都意味着我們增加了其它的約束和假設,這些約束和假設根據我們掌握的信息無法作出。可查看《淺談最大熵原理和統計物理學》——曾致遠(Richard Chih-Yuan Tseng)研究領域主要為古典信息論,量子信息論及理論統計熱物理學,臨界現象及非平衡熱力學等物理現象理論研究古典信息論在統計物理學中之意義及應用。
發展過程
早期的信息論其中心任務就是從理論上認識一個通信的設備(手段)的通信能力應當如何去計量以及分析該通信能力的規律性。但是信息論研究很快就發現利用信息熵最大再附加上一些約束,就可以得到例如著名的統計學中的高斯分布(即正態分布)。這件事提示我們高斯分布又多了一種論證的方法,也提示了把信息熵最大化是認識客觀事物的規律性的新角度。
把熵最大(對應我們的複雜程度最大)做為一種原則或者方法應用於各個科技領域的旗手是傑尼斯E.T.Jaynes 。他從1957年就在這個方向做了開創性的工作。他給出了利用最大熵方法定量求解問題的一般技術途徑;論證了統計力學中的一些著名的分布函數從信息熵最大的角度也可以得到證明。這不僅使信息論知識與統計物理知識實現了連通,也使熵概念和熵原理走出了熱力學的領域。
20世紀60年代Burg在時間序列的分析中提出了用信息熵最大求頻譜的技術。用這種方法得到的譜的準確性比過去的方法好,人們把它稱為最大熵譜。80年代這個方法在我國也得到了廣泛應用。40多年以來,儘管「利用最大熵的方法解決科技問題」在信息論的理論中不是主流,但是利用信息熵最大幫助解決很多科技問題已經形成了獨立的一股學術和技術力量,而且是碩果纍纍了。80年代以來在美國等地每年都召開一次討論最大熵方法應用的學術會議,並且有一冊會議文集出版。這成為他們的重要學術活動形式。
特點
最大熵方法的特點是在研究的問題中,儘量把問題與信息熵聯繫起來,再把信息熵最大做為一個有益的假設(原理),用於所研究的問題中。由於這個方法得到的結果或者公式往往(更)符合實際,它就推動這個知識在前進和曼延。我國學者(後來去了加拿大)吳乃龍、袁素雲在本領域有成就,而且也在所著的《最大熵方法》(湖南科學技術出版社1991年出版)一書中向國人就這個方法做了很全面的介紹。
把最複雜原理與信息論中的最大熵方法聯繫起來,既是自然的邏輯推論也顯示最複雜原理並不孤立。這樣,最大熵方法過去取得的一切成就都在幫助人們理解最複雜原理的合理性。而最複雜原理的引入也使人們擺脫對神秘的熵概念和熵原理的敬畏。在理解了最複雜原理來源於概率公理以後,我們終於明白,神秘的熵原理本質上僅是「高概率的事物容易出現」這個再樸素不過的公理的一個推論。
發展狀況
前段時間,Google 中國研究院的劉駿總監談到在網絡搜索排名中,用到的信息有上百種。更普遍地講,在自然語言處理中,我們常常知道各種各樣的但是又不完全確定的信息,我們需要用一個統一的模型將這些信息綜合起來。如何綜合得好,是一門很大的學問。
讓我們看一個拼音轉漢字的簡單的例子。假如輸入的拼音是"wang-xiao-bo",利用語言模型,根據有限的上下文(比如前兩個詞),我們能給出兩個最常見的名字「王小波」和「王曉波」。至於要確定是哪個名字就難了,即使利用較長的上下文也做不到。當然,我們知道如果通篇文章是介紹文學的,作家王小波的可能性就較大;而在討論兩岸關係時,台灣學者王曉波的可能性會較大。在上面的例子中,我們只需要綜合兩類不同的信息,即主題信息和上下文信息。雖然有不少湊合的辦法,比如:分成成千上萬種的不同的主題單獨處理,或者對每種信息的作用加權平均等等,但都不能準確而圓滿地解決問題,這樣好比以前我們談到的行星運動模型中的小圓套大圓打補丁的方法。在很多應用中,我們需要綜合幾十甚至上百種不同的信息,這種小圓套大圓的方法顯然行不通。
相關模型
最漂亮的辦法是最大熵(maximum entropy)模型,它相當於行星運動的橢圓模型。「最大熵」這個名詞聽起來很深奧,但是它的原理很簡單,我們每天都在用。說白了,就是要保留全部的不確定性,將風險降到最小。讓我們來看一個實際例子。
有一次,我去 AT&T 實驗室作關於最大熵模型的報告,我帶去了一個色子。我問聽眾「每個面朝上的概率分別是多少」,所有人都說是等概率,即各點的概率均為1/6。這種猜測當然是對的。我問聽眾們為什麼,得到的回答是一致的:對這個「一無所知」的色子,假定它每一個朝上概率均等是最安全的做法。(你不應該主觀假設它象韋小寶的色子一樣灌了鉛。)從投資的角度看,就是風險最小的做法。從信息論的角度講,就是保留了最大的不確定性,也就是說讓熵達到最大。接着,我又告訴聽眾,我的這個色子被我特殊處理過,已知四點朝上的概率是三分之一,在這種情況下,每個面朝上的概率是多少?這次,大部分人認為除去四點的概率是 1/3,其餘的均是 2/15,也就是說已知的條件(四點概率為 1/3)必須滿足,而對其餘各點的概率因為仍然無從知道,因此只好認為它們均等。注意,在猜測這兩種不同情況下的概率分布時,大家都沒有添加任何主觀的假設,諸如四點的反面一定是三點等等。(事實上,有的色子四點反面不是三點而是一點。)這種基於直覺的猜測之所以準確,是因為它恰好符合了最大熵原理。
最大熵原理指出,當我們需要對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。(不做主觀假設這點很重要。)在這種情況下,概率分布最均勻,預測的風險最小。因為這時概率分布的信息熵最大,所以人們稱這種模型叫「最大熵模型」。我們常說,不要把所有的雞蛋放在一個籃子裡,其實就是最大熵原理的一個樸素的說法,因為當我們遇到不確定性時,就要保留各種可能性。
回到我們剛才談到的拼音轉漢字的例子,我們已知兩種信息,
第一,根據語言模型,wang-xiao-bo 可以被轉換成王曉波和王小波;
第二,根據主題,王小波是作家,《黃金時代》的作者等等,而王曉波是台灣研究兩岸關係的學者。因此,我們就可以建立一個最大熵模型,同時滿足這兩種信息。匈牙利著名數學家、信息論最高獎香農獎得主希薩(Csiszar)證明,對任何一組不自相矛盾的信息,這個最大熵模型不僅存在,而且它們都有同一個非常簡單的形式 --指數函數。
理論方法
離散情形
離散信源情況下,等概率信源的熵為最大值。
連續情形
連續信源在不同限制條件下的最大熵是不同的,在無限制的條件下,最大熵為無窮大。在具體應用中,只對連續信源的兩種情況感興趣,一是信源輸出幅度受限,即限峰功率情況;二是信源輸出平均功率受限。
在限峰功率情況下,對於定義域為有限的隨機變量X,當它是均勻分布時,具有最大熵。
在限平均功率情況下,對於相關矩陣一定的隨機變量X,當它是正態分布時具有最大熵。
最大熵原則、定理以及方法
參考資料
- ↑ 「熵」不起:從熵、最大熵原理到最大熵模型(一),科學空間