計算語言學檢視原始碼討論檢視歷史
計算語言學是全國科學技術名詞審定委員會審定、公布的科技術語。
漢字,中國古人智慧的結晶[1]。千百年間,它經歷了「甲金篆隸草楷行」的發展[2]。從記錄的工具到藝術的載體,它的身上,傾注了無數先人的心血。
名詞解釋
計算語言學(Computational Linguistics)指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,並在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的。
我們所說的語言分為自然語言與人工語言兩大類。自然語言是人類在自身發展的過程中形成的語言,是人與人之間傳遞信息的媒介。人工語言指的是人們為了某種目的而自行設計的語言。計算機語言(Computer Language)就是人工語言的一種,指用於在人與計算機之間傳遞信息的語言。
人與計算機之間交流信息要使用計算機語言。電腦每做的一次動作,一個步驟,實際上都是執行已經用計算機語言編好的程序。程序是計算機要執行的指令的集合,而程序全部都是用我們所掌握的語言來編寫的。人們要控制計算機,利用計算機來解決問題,就一定要通過計算機語言向計算機發出命令。我們把編寫程序的過程叫做程序設計,而計算機語言相應地稱為程序設計語言。
計算機語言都可以用來控制計算機來解決一些實際問題。這些問題可以是數值計算問題,其操作對象就是一些由符號構成的符號串;也可以是非數值計算問題如聲音、圖像處理問題,其操作對象就是聲音和圖像等。我們應知道各種計算機語言都不是萬能的,每種計算機語言都有自己的特點、優勢及運行環境,有自己的應用和操作對象。
產生背景
電子計算機問世不久,人們便考慮到它的非數值運算問題,並選中機器翻譯作為第一個非數值運算的課題。這個選擇可以說開闢了計算機非數值應用無比廣闊的領域,許多語言學理論和方法以及許多技術成果都是在它的基礎上或啟發下產生和解決的。例如,文字的輸入輸出設備、大存儲裝置、言語識別和文字識別等課題均在機器翻譯研究初期便已提出。但是由於機器翻譯是一種比較高級的人工智能,至今尚未能真正或廣泛付諸應用,而計算語言學的其他方面卻得到了很大發展。計算機情報檢索在60年代末期便已實現,通過衛星已可進行洲際檢索。利用計算機進行言語統計已成常事,在統計分析的基礎上編成了一大批正序、逆序詞表和頻率詞典,建立了各種語料庫,促進了計算風格學的誕生。同時還編制了大量索引和逐詞索引。大字符集的信息處理問題已得到一定解決,這為中文和其他東方語文的信息處理提供了方便條件。計算機輔助教學日趨成熟與普遍。作為人工智能一個重要分支的自然語言理解也已奠定了基礎,與此相聯繫的文字自動識別、言語識別和言語合成等項語言工程也在蓬勃開展。計算機在實驗語音學、方言研究、語法分析和詞典編纂等方面也得到了越來越廣泛的應用。
計算語言學之所以有這樣長足的發展,是由於社會的需要。當今世界處於新技術革命時代,一個以電子計算機為基本工具的現代化語言文字信息處理系統正在世界範圍內形成,這標誌着高度發展的信息化社會的到來。計算語言學正是為擔當這一歷史使命而誕生和發展的。
基本內容
計算語言學發展到今天,按其工作性質和複雜程度,可以歸結為以下3個方面:
①自動編排:這是計算機最擅長的工作,也是計算語言學中最成熟的部分。對各種語言素材進行統計、分類、排序,編輯各種詞表、索引和詞典,建立語料庫、術語數據庫等等,已經得到廣泛運用。由於這些技術已經相當成熟,因而已有現成的軟件包提供服務。
②自動分析:這是一種較複雜的語言自動處理。這種自動分析系統是根據事先存入計算機內的特定語言信息進行工作,目的在於得到預先規定的結論,例如讓計算機查詞典或進行語法測試,均屬此類。若結論有誤,就證明詞典或語法不夠完備,需要對原先的數據或規則加以修訂或補充。這類系統一般尚處於試驗研究階段 。
③自動研究:這是一種更複雜的語言自動處理。這種自動研究系統是根據計算機內存儲的一般語言信息進行工作,藉助統計、比較、類推等手段,得出自己推斷的結論。人工智能研究中的某些自然語言理解系統正在朝這方面努力,但目前還沒有比較成熟的研究成果。
分類
計算機語言的種類非常的多,總的來說可以分成機器語言、匯編語言、高級語言三大類。
成果
計算語言學可以說是計算機和語言學相結合的產物。這種結合已經得到豐碩的成果,除了上面說到的那些應用課題以外,還表現在對語言學理論和方法的影響上。語言的定義擴展了:語言已不僅是人類重要的交際工具,而且也是人機之間的交際工具。為了滿足計算機加工的要求,計算語言學最大的特點就是要求語言的形式化,因為只有形式化,才能算法化、自動化。根據這項要求,制定出一系列面向語言信息處理的自動分析方法,其中包括預示分析法、從屬分析法、中介成分體系、優選語義學、擴充轉移網絡、概念從屬論等等。這些自動分析方法,已在機器翻譯和自然語言理解的系統中得到應用,並證明有效。語言的形式化是分層進行的。語法的形式化相對來說比較簡單,人們已做了不少工作;語義的形式化則是一個複雜的問題,人們進行的工作還不多。而語義形式化問題解決得好壞,將大大影響語言自動加工的成效。因此,繼續發掘行之有效的形式結構分析方法和語義分析方法,研究它們之間的關係,以及探討它們在不同系統中各自使用的限度,這是計算語言學中的重點研究課題。
第五代計算機要求人們賦予它聽覺(識別口語)和更強的視覺(自動識別文字),賦予它說話能力(合成言語)和聽寫能力(語音打字),同時還要求人們賦予它理解自然語言並把某種(或多種)自然語言翻譯成另一種(或多種)自然語言的能力。這樣,計算語言學工作者又需要提供各種物理參數、語言概率性等方面的數據和各種應用軟件,以便同有關的專家、工程師一道共同解決為計算機增添「翅膀」這個重大課題,使之真正成為「萬能的智能機器」。
完成上述任務,必須靠整個語言學界的努力和合作。儘管面向機器的語言學有其獨特性,在許多方面都要另起爐灶,但是實踐證明:傳統語言學的基礎雄厚與否對解決一些新任務有很大關係,例如傳統的英漢對比語言學研究得好,就會給英漢機器翻譯提供很多方便。從這個意義上講,計算語言學只有很好地吸取傳統語言學的成果並加以改造,才能得到迅速發展。
熱點
值得一提的是,機器翻譯是人工智能的重要分支和最先應用領域。不過就已有的機譯成就來看,機譯系統的譯文質量離終極目標仍相差甚遠;而機譯質量是機譯系統成敗的關鍵。中國數學家、語言學家周海中教授曾在論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程序設計問題;單靠若干程序來做機譯系統,肯定無法提高機譯質量。另外在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到「信、達、雅」的程度是不可能的。
參考文獻
- ↑ 中國人中國字|看中國人專屬的浪漫和智慧!,搜狐,2022-10-12
- ↑ 了不起的中華文明:漢字發展史上的三次重大危機,搜狐,2020-09-18