中文信息處理檢視原始碼討論檢視歷史
中文信息處理是一個科技名詞。
中國漢字的發展成為維繫中華民族歷史發展進步的一條生動鮮明的脈絡[1],各個歷史時期所形成的各種字體,有着各自鮮明的藝術特徵,如篆書[2]古樸典雅,隸書靜中有動,草書風馳電掣、結構緊湊,楷書工整秀麗,行書易識好寫,實用性強,字體多樣。
名詞解釋
中文信息處理是指用計算機對中文的音、形、義等信息進行處理和加工。中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。信息處理技術在現代有廣泛的應用,從1980年代開始,中文信息處理進入了快速發展階段,並極大地提高了中文社會的信息處理效率。中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。
範圍
基於歷史、國家疆域、政治等各種問題,中文信息處理系統所需要處理的文字,有
時不僅包括簡體漢字、繁體漢字,也包括藏文、蒙文、壯文、維吾爾文等大量少數民族的文字,周邊國家的日本假名、諺文,還包括古漢語文字、西夏文、契丹文等各種不同的文字。中文信息處理可以從硬件及軟件兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。
範疇
基礎研究:漢字字頻統計、詞頻統計、漢語自動分詞、句法屬性研究、漢字編碼字符集
、通用漢字樣本庫、漢字屬性字典、語料庫等 輸入技術:中文輸入法、中文手寫輸入、中文語音輸入、文字識別等
輸出技術:漢字字模技術(字型庫)、漢字激光照排、漢語語音合成等
存儲技術:漢字庫標準等
轉換技術:繁簡轉換等
信息處理:中文情報檢索、中文文本校對、機器翻譯、自然語言理解、中文人機界面等
相關學科
語言文字學、計算機科學、模式識別、人工智能、心理學、數學、數理統計、控制論、神經計算、模型論、信息學、形式化理論、聲學等
歷史背景
電腦在1946年由IBM發明,當時的電腦主要用於計算。及至1960年代,商用電腦開始普及,電腦被用於處理大規模的數據,當中其一個重要項目是圖書館的目錄整理。在當時,美國國會圖書館及多家大學都有不少來自東亞的藏書。為了有效管理這批藏書,必須要有一套有效處理東亞文字的系統。這套系統包括了兩方面:其一是如何把東亞文字儲存在電腦內;其二是如何在電腦表示出東亞文字。
在過去,每一台電腦都有各自的數據表達方式,使電腦之間不能溝通。及至1960年代美國信息交換標準碼(ASCⅡ)的出現,電腦之間才可以互相溝通。不過,ASCⅡ並不能有效處理英文以外的文字。
最早可以處理中文的電腦,可以追溯到1970年。在當年舉辦的日本大阪萬國博覽會上,IBM公司公開了部分漢字處理系統的技術資料,到了1971年正式發表。當時公布的機種包括有「IBM 2345 漢字印刷機」丶「IBM 029 漢字穿孔機」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也爭相開發,包括有富士通的JEF(Japanese processing Extended Facility)丶NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型電腦。到了1979年5月,NEC發表了可使用漢字ROM的私人電腦PC-8000系列;到了1982年10月,更開發出有名的16位元的PC-9801私人電腦,能處理漢字的電腦在日本漸漸普及。在七十年代末期,更出現一種專門用作編輯文件的文書處理器,可看成為一種擁有特定功能的小型電腦,八十年代中後期再演化成手提方式,並可打印出漢字。至於輸入方式,由1978年9月26日東芝發售「JW-10」起,「假名漢字變換」成為主流的漢字輸入法;即以日文拼音的方式,配合人工智能,輸入漢字詞彙。在還沒有真正的中文電腦前,中國大陸部分學者依靠入口日本的電腦來處理中文。
1973年,新華社派出考察團到日本,參觀了日本共同社丶日立丶日本電氣丶松下及東芝等公司。他們看到共同社採用磁芯技術解決了2000左右漢字和片假名的存儲問題,並發現工作人員使用大鍵盤方式輸入稿件。他們回國後,提出了採用電腦技術改善新華社收發編印四方面,並由中國四機部(民用機械丶核工業和核武器丶航空及電子工業)與北京市科技局邀請了富士通等公司到中國進行技術座談會。後來,四機部提出研製漢字信息處理系統。在1974年8月,中國開始了748工程,包括了用計算機來處理中文字,展開了各種研究工作,後來到1980年公布了GB2312-80漢字編碼的國家標準,1983年中國科學院研究Unix中文化,1985年推出了Unix中文版。
中國台灣省方面,早期美國空軍研究部門,曾經與IBM公司合作研發中文電腦,斥資了六千萬、歷時十年,研究電腦處理中文字的方法,結論是電腦不能處理中文。而當時美國的圖書館開始電腦化,一批中文書有待編入目錄。另外,多家公司也開發了終端機式的中文系統,包括有王安丶工技院(中華一號到中華三號)及神通等。這些機器多數採用大鍵盤的輸入方式,有數十至數百個鍵。到了1976年,中文電腦之父朱邦復發明了一套形意檢字法,並在1978年改進為倉頡輸入法,以英文鍵盤輸入中文。在1979年,朱邦復提出以圖形功能及從顯示器的英文字符產生器入手,研發中文電腦,並由宏碁公司出產。之後,在原有英文操作系統上外掛中文系統的方法大行其道,多套中文軟件相繼推出,包括有國喬丶倚天及仲鼎等。
中文信息處理至今經歷了兩次高潮:1980年代中期到1990年代中期之前,核心內容是漢字的計算機處理問題;經過幾年的發展低潮之後,1990年代末,中文信息處理的重點轉向語音識別、語音合成和語義處理方面。
漢字之難——被打字機拋棄的時代:在二十世紀上半葉,英文打字機的普及極大的提高了文字資料的錄入速度。而由於漢字的複雜性,使中文打字機遲遲未能設計出來,再加之基礎漢字的學習難度大、時間長,連魯迅都喊出「漢字不滅,中國必亡」。之後,雖然設計出中文打字機,但要配備數千個鉛字組成的大字盤,昂貴的機器成本和複雜的使用技術決定它不能普及到大眾使用。毛澤東對此也深感無奈,發出了中文「要走世界共同的拼音文字道路」的慨嘆。這些局限於歷史條件所限而做出的言論,在中文信息處理技術發展後期仍然被經常(斷章取義的)提及。
1984年的《參考消息》有這樣的記載:「法新社洛杉磯8月5日電 新華社派了22名記者,4名攝影記者和4名技術人員在奧運會採訪和工作。在全世界報道奧運會的7000名記者中,只有中國人用手寫他們的報道」……此時只有中國人仍然用手寫從事着創作。
漢字成了被打字機拋棄的「落後文明」,直到二十世紀八十年代PC技術推廣下,中文PC系統問世,中文信息輸入的問題,才有了初步解決。漢字的拉丁化問題:漢字拉丁化,是給漢字進行注音的方法,從而易於中西方交流,或者代替漢字。有些人以為將漢字改造為字母文字,希望以此在短期內大幅增加中國人民的識字率。
緣起:中西方的交流很早就有了,而不同的文化交流需要語言的溝通,漢字拉丁化可以實現西方人對中國的了解。近代以前,漢字的拉丁化基本由西方人進行。近代中國遭受了一系列的變故,徹底打破了中國固有的文化自豪感。中國近代的一些思想家認為中國古代的一些歷史遺留阻礙了中國的發展,包括孔子思想、禮教等,其中也包括漢字。
漢字由於其字數眾多,學習比較費勁,而且由於師承不同,字的具體寫法也有不同。近代科學大量引入中國,漢字在這些概念面前變得不夠使用,又由於新文化運動影響,漢字改革遂成為主流的社會思想。其中劉半農、魯迅等提倡尤甚。
過程:最早的漢字拉丁化的實踐來自於中西方的交流,若要介紹中國的一些地名、人名或其他固有名詞到西方,必會涉及漢字拉丁化的問題。明清西方傳教士為了學習漢字和傳教的需要,開始系統用拉丁字母給漢字注音。1605年天主教耶穌會士、意大利人利瑪竇(Matteo Ricci)的《西字奇蹟》具有開創性的系統化意義。1626年耶穌會士金尼閣出版的《西儒耳目資》是最早用音素給漢字注音的字彙,所用的拼音方案是利瑪竇方案的修正。1867年,在英國使館任中文秘書的威妥瑪(Thomas F. Wade)出版了一部《語言自邇集》,創立了一個拉丁化的威妥瑪拼音,使用時間很長,對漢字的拉丁化起了重要作用,以後的方案都有參考。
1918年中華民國教育部公布第一套法定的37個民族字母形式的注音字母方案,特點是採用符號表示聲調,這雖然不是一種直接的拉丁化方案,但用符號表示聲調的方法卻延續到漢語拼音方案。
1928年中華民國教育部公布第一套法定的拉丁化拼音方案-國語羅馬字(簡稱國羅),特點是用字母的拼法來表示漢語的聲調,實際上由於流傳時間較短,時間起到的作用不大。1958年,中華人民共和國公布的第二套法定的拉丁化漢語拼音方案,使用了26個拉丁字母,用符號表示聲調,但是這種符號不易在西式打字機上實現。1980年代,漢語的信息化進入日程,形成「萬碼奔騰」的局面,漢語拼音方案作為重要的拼音輸入方法得到使用,使漢語較能同信息化接軌。
參考文獻
- ↑ 字母文字的演變脈絡:世界所有國家的字母文字都是同出一源,搜狐,2020-09-11
- ↑ 字體的演變:篆書,搜狐,2020-07-09