開啟主選單

求真百科

字母頻率
圖片來自zhihu

字母頻率(frequency of letters; character frequencies),指的是各個字母在文本材料中出現的頻率。常被應用於密碼學,尤其是可破解古典密碼[1]頻率分析。在英語中最常見的字母是e。而在鉛字印刷時代,人們已根據經驗在Linotype排字機上將字母按常用與否排列成ETAOIN SHRDLU|ETAOIN SHRDLU|etaoin shrdlu cmfwyp vbgkjq xz 。還有,摩斯電碼中越常用的字母,其編碼符號就越短;而發出各字母的用時由快到慢順序是e it san hurdm wgvlfbk opjxcz yq數據壓縮技術中也有相似的方法,如霍夫曼編碼就是按來源符號出現的機率大小去編碼。

目錄

英語中的字母頻率

英語中的字母頻率如下: Beker, Henry; Piper, Fred. Cipher Systems: The Protection of Communications. Wiley-Interscience. 1982: 397.  Table also available from Lewand, Robert. Cryptological Mathematics. The Mathematical Association of America. 2000: 36 [2013-06-05]. ISBN 978-0-88385-719-9.  and 存檔副本. [2008-06-25]. (原始內容存檔於2008-07-08). 

介紹

有分析顯示字母頻率就像word frequencies|詞頻,不同作者或寫作主題的作品中往往各不相同。當為x射線(x-rays)撰文時,文章中就會有大量的字母X。而撰寫用x射線治療卡塔爾(Qatar)的斑馬(zebras)時,一般很少出現的字母X、Q和Z就會充斥文中。可從作者的字母使用頻率中看出他的某些寫作習慣。例如,海明威的寫作風格明顯不同於福克納。字母、雙字母組、trigram|三字母組、單詞頻率、單詞長度和句子長度,這些都可以經統計後用以證明或反駁某一作品是某作者所寫,甚至待鑑別作品與作者的寫作風格相近也可用這一方法。

只能靠分析大量有代表性的文本才可得出準確的字母平均頻率,而藉由現代計算機和龐大的文本語料庫,很容易完成這樣的統計工作。 列出了各種文本材料(新聞報告、宗教文本、科學文本和一般小說)的字母頻率順序,其中在一般小說類里,字母「h」與「i」的排位差異尤甚,由Linotype排字機的「etaoin shrdlu」變成了「etaohn isrdlu」。

Herbert Zim|赫伯特·S·基姆在他那部經典的密碼學入門著作 《密碼和隱密寫作》(Codes and Secret Writing)里提道:英文的字母頻率排列順序是ETAON RISHD LFCMU GYPWB VKJXQ Z,最常見的字母對是TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO,最常見的連寫字母對是LL EE SS OO TT FF RR NN PP CC

使用最多的前12個字母占了總使用次數的80%,使用最多的前8個字母則占了總使用次數的65%。數種rank functions|排名函數能很好地擬合字母頻率,而雙參數Cocho/Beta排名函數(two-parameter Cocho/Beta rank function)是當中的佼佼者。用另一種不能調節參數的排名函數也能不錯地擬合字母頻率分布,該函數也能擬合蛋白質序列中的氨基酸頻率。

使用VIC cipher|VIC暗號或其他基於縱橫棋盤格的暗號時,間諜常用助記符如「a sin to err」(最後的r不計)來記住最常用的8個字母。在密碼解謎遊戲cryptograms|cryptograms和單詞解謎遊戲如猜單詞遊戲Scrabble香蕉拼字遊戲和電視遊戲節目Wheel of Fortune (U.S. game show)|幸運輪中,須要運用字母頻率和頻率分析。在古典文學中,愛倫坡早在其著名小說《金甲蟲》描述了如何用英文字母頻率的知識去解開故事中的替換式密碼,找出船長基德埋藏寶藏的所在。

字母頻率在一些鍵盤布局的設計上舉足輕重。Blickensderfer typewriter#Layouts|Blickensderfer打字機在下排放置最常用的字母。德沃夏克鍵盤將最常用的字母放在最易輸入的中排,即除拇指外的八指所放之處。

參考文獻

  1. [文章網址 古典密碼學],來源,文章日期