求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

語音識別檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋

語音識別(speech recognition)技術,也被稱為自動語音識別(英語:Automatic Speech Recognition, ASR)、電腦語音識別(英語:Computer Speech Recognition)或是語音轉文本識別(英語:Speech To Text, STT),其目標是以電腦自動將人類的語音內容轉換為相應的文字。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。

語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等[1]。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。

語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

歷史

早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的「Radio Rex「玩具狗是最早的語音識別器,當這隻狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。

1960年代,人工神經網絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間規整Dynamic Time Warp技術。

語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬爾科夫模型的大詞彙量語音識別系統Sphinx。此後嚴格來說語音識別技術並沒有脫離HMM框架。

儘管多年來研究人員一直嘗試將「聽寫機」推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。

模型

目前,主流的大詞彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的語音識別系統由以下幾個基本模塊所構成:

信號處理及特徵提取模塊。該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以儘可能降低環境噪聲、信道、說話人等因素對特徵造成的影響。

聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模[2]

發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。

語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。

解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。

視頻

語音識別 相關視頻

人工智能——語音識別
語音識別技術了解

參考文獻