檢視中文信息处理的原始碼

{| class="wikitable" align="right"
|-
|<center><img src=http://5b0988e595225.cdn.sohucs.com/images/20190123/cc6d715fc321402b90b5f71ec98a8047.jpeg width="350"></center>
<small>[https://www.sohu.com/a/290919045_473283 来自 搜狐网 的图片]</small>
|}

'''中文信息处理'''是一个科技名词。

中国汉字的发展成为维系[[中华]]民族历史发展进步的一条生动鲜明的脉络<ref>[https://www.sohu.com/na/417629917_120378093 字母文字的演变脉络：世界所有国家的字母文字都是同出一源]，搜狐，2020-09-11</ref>，各个历史时期所形成的各种字体，有着各自鲜明的艺术特征，如篆书<ref>[https://www.sohu.com/na/406626057_120643884 字体的演变：篆书]，搜狐，2020-07-09</ref>古朴典雅，隶书静中有动，[[草书]]风驰电掣、结构紧凑，楷书工整秀丽，行书易识好写，实用性强，字体多样。

==名词解释==

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言[[信息]]处理的一个分支，是一门与[[计算机]][[科学]]、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用，从1980年代开始，中文信息处理进入了快速发展阶段，并极大地提高了中文社会的信息处理效率。中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

范围

基于历史、国家疆域、政治等各种问题，中文信息处理系统所需要处理的文字，有

时不仅包括简体汉字、繁体汉字，也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字，周边国家的日本假名、谚文，还包括古汉语文字、西夏文、契丹文等各种不同的文字。中文信息处理可以从硬件及软件两方面去看，以下详述中文信息处理的发展历史、现况及未来发展等多方面的面貌。

范畴

基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集

、通用汉字样本库、汉字属性字典、语料库等 输入技术：中文输入法、中文手写输入、中文语音输入、文字识别等

输出技术：汉字字模技术（字型库）、汉字激光照排、汉语语音合成等

存储技术：汉字库标准等

转换技术：繁简转换等

信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面等

相关学科

语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等

历史背景

电脑在1946年由IBM发明，当时的电脑主要用于计算。及至1960年代，商用电脑开始普及，电脑被用于处理大规模的数据，当中其一个重要项目是图书馆的目录整理。在当时，美国国会图书馆及多家大学都有不少来自东亚的藏书。为了有效管理这批藏书，必须要有一套有效处理东亚文字的系统。这套系统包括了两方面：其一是如何把东亚文字储存在电脑内；其二是如何在电脑表示出东亚文字。

在过去，每一台电脑都有各自的数据表达方式，使电脑之间不能沟通。及至1960年代美国信息交换标准码(ASCⅡ）的出现，电脑之间才可以互相沟通。不过，ASCⅡ并不能有效处理英文以外的文字。

最早可以处理中文的电脑，可以追溯到1970年。在当年举办的日本大阪万国博览会上，IBM公司公开了部分汉字处理系统的技术资料，到了1971年正式发表。当时公布的机种包括有「IBM 2345 汉字印刷机」丶「IBM 029 汉字穿孔机」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後，日本本土公司也争相开发，包括有富士通的JEF（Japanese processing Extended Facility）丶NEC的JIPS（Japanese Information Processing System）及日立的KEIS（Kanji processing Extended Information System）等，全是大型电脑。到了1979年5月，NEC发表了可使用汉字ROM的私人电脑PC-8000系列；到了1982年10月，更开发出有名的16位元的PC-9801私人电脑，能处理汉字的电脑在日本渐渐普及。在七十年代末期，更出现一种专门用作编辑文件的文书处理器，可看成为一种拥有特定功能的小型电脑，八十年代中後期再演化成手提方式，并可打印出汉字。至於输入方式，由1978年9月26日东芝发售「JW-10」起，「假名汉字变换」成为主流的汉字输入法；即以日文拼音的方式，配合人工智能，输入汉字词汇。在还没有真正的中文电脑前，中国大陆部分学者依靠入口日本的电脑来处理中文。

1973年，新华社派出考察团到日本，参观了日本共同社丶日立丶日本电气丶松下及东芝等公司。他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题，并发现工作人员使用大键盘方式输入稿件。他们回国後，提出了采用电脑技术改善新华社收发编印四方面，并由中国四机部（民用机械丶核工业和核武器丶航空及电子工业）与北京市科技局邀请了富士通等公司到中国进行技术座谈会。後来，四机部提出研制汉字信息处理系统。在1974年8月，中国开始了748工程，包括了用计算机来处理中文字，展开了各种研究工作，后来到1980年公布了GB2312-80汉字编码的国家标准，1983年中国科学院研究Unix中文化，1985年推出了Unix中文版。

中国台湾省方面，早期美国空军研究部门，曾经与IBM公司合作研发中文电脑，斥资了六千万、历时十年，研究电脑处理中文字的方法，结论是电脑不能处理中文。而当时美国的图书馆开始电脑化，一批中文书有待编入目录。另外，多家公司也开发了终端机式的中文系统，包括有王安丶工技院（中华一号到中华三号）及神通等。这些机器多数采用大键盘的输入方式，有数十至数百个键。到了1976年，中文电脑之父朱邦复发明了一套形意检字法，并在1978年改进为仓颉输入法，以英文键盘输入中文。在1979年，朱邦复提出以图形功能及从显示器的英文字符产生器入手，研发中文电脑，并由宏碁公司出产。之後，在原有英文操作系统上外挂中文系统的方法大行其道，多套中文软件相继推出，包括有国乔丶倚天及仲鼎等。

中文信息处理至今经历了两次高潮：1980年代中期到1990年代中期之前，核心内容是汉字的计算机处理问题；经过几年的发展低潮之后，1990年代末，中文信息处理的重点转向语音识别、语音合成和语义处理方面。

汉字之难——被打字机抛弃的时代：在二十世纪上半叶，英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性，使中文打字机迟迟未能设计出来，再加之基础汉字的学习难度大、时间长，连鲁迅都喊出“汉字不灭，中国必亡”。之后，虽然设计出中文打字机，但要配备数千个铅字组成的大字盘，昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈，发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论，在中文信息处理技术发展后期仍然被经常(断章取义的）提及。

1984年的《参考消息》有这样的记载：“法新社洛杉矶8月5日电 新华社派了22名记者，4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中，只有中国人用手写他们的报道”……此时只有中国人仍然用手写从事着创作。

汉字成了被打字机抛弃的“落后文明”，直到二十世纪八十年代PC技术推广下，中文PC系统问世，中文信息输入的问题，才有了初步解决。汉字的拉丁化问题：汉字拉丁化，是给汉字进行注音的方法，从而易于中西方交流，或者代替汉字。有些人以为将汉字改造为字母文字，希望以此在短期内大幅增加中国人民的识字率。

缘起：中西方的交流很早就有了，而不同的文化交流需要语言的沟通，汉字拉丁化可以实现西方人对中国的了解。近代以前，汉字的拉丁化基本由西方人进行。近代中国遭受了一系列的变故，彻底打破了中国固有的文化自豪感。中国近代的一些思想家认为中国古代的一些历史遗留阻碍了中国的发展，包括孔子思想、礼教等，其中也包括汉字。

汉字由于其字数众多，学习比较费劲，而且由于师承不同，字的具体写法也有不同。近代科学大量引入中国，汉字在这些概念面前变得不够使用，又由于新文化运动影响，汉字改革遂成为主流的社会思想。其中刘半农、鲁迅等提倡尤甚。

过程：最早的汉字拉丁化的实践来自于中西方的交流，若要介绍中国的一些地名、人名或其他固有名词到西方，必会涉及汉字拉丁化的问题。明清西方传教士为了学习汉字和传教的需要，开始系统用拉丁字母给汉字注音。1605年天主教耶稣会士、意大利人利玛窦（Matteo Ricci）的《西字奇迹》具有开创性的系统化意义。1626年耶稣会士金尼阁出版的《西儒耳目资》是最早用音素给汉字注音的字汇，所用的拼音方案是利玛窦方案的修正。1867年，在英国使馆任中文秘书的威妥玛（Thomas F. Wade）出版了一部《语言自迩集》，创立了一个拉丁化的威妥玛拼音，使用时间很长，对汉字的拉丁化起了重要作用，以后的方案都有参考。

1918年中华民国教育部公布第一套法定的37个民族字母形式的注音字母方案，特点是采用符号表示声调，这虽然不是一种直接的拉丁化方案，但用符号表示声调的方法却延续到汉语拼音方案。

1928年中华民国教育部公布第一套法定的拉丁化拼音方案-国语罗马字（简称国罗），特点是用字母的拼法来表示汉语的声调，实际上由于流传时间较短，时间起到的作用不大。1958年，中华人民共和国公布的第二套法定的拉丁化汉语拼音方案，使用了26个拉丁字母，用符号表示声调，但是这种符号不易在西式打字机上实现。1980年代，汉语的信息化进入日程，形成“万码奔腾”的局面，汉语拼音方案作为重要的拼音输入方法得到使用，使汉语较能同信息化接轨。

==参考文献==
[[Category:800 語言學總論]]