70,961
次編輯
變更
Unicode
,無編輯摘要
'''Unicode'''(中文:万国码、国际码、统一码、单一码)是[[计算机科学]]领域里的一项业界[[标准]]。它对世界上大部分的[[文字]]系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
Unicode 伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。当前最新的版本为2020年3月公布的13.0.0 <ref>[http://finance.sina.com.cn/wm/2020-03-14/doc-iimxxstf8949460.shtml Unicode发布13.0版本,收录4939个生僻字],新浪网,2020-03-14</ref> ,已经收录超过13万个字符(第十万个字符在2005年获采纳)。Unicode涵盖的[[数据]]除了[[视觉]]上的字形、编码方法、标准的字符编码外,还包含了字符特性,如大小写字母。
Unicode发展由非营利机构统一码联盟负责,该机构致力于让 Unicode 方案取代既有的字符编码方案。因为既有的方案往往[[空间]]非常有限,亦不适用于多语环境。
在文字处理方面,统一码为每一个字符而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即[[数字]])来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页[[浏览器]]或是文字处理器。
当前,几乎所有电脑系统都支持基本[[拉丁字母]],并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256个字符保留给 ISO 8859-1 所定义的字符,使既有的西欧语系文字的转换不需特别考量;并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换 <ref>[https://wiki.jikexueyuan.com/project/java-chinese-garbled-solution/coding-details.html 编码详情 - Java 中文乱码解决之道],极客学院Wiki,2018-11-28</ref> ,而不会丢失任何[[信息]]。举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
在表示一个 Unicode 的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种[[平面]]([[英语]]:Basic Multilingual Plane,简写 BMP。又称为“零号平面”、plane 0)里的所有字符,要用四个数字(即两个byte,共16 bits,例如 U+4AE0,共支持六万多个字符);在零号平面以外的字符则需要使用五个或六个数字。旧版的 Unicode 标准使用相近的标记方法,但却有些微小差异:在 Unicode 3.0 里使用“U-”然后紧接着八个数字,而“U+”则必须随后紧接着四个数字。
<center>{{#iDisplay:m3048w8w4bq|560|390|qq}}</center>
==参考文献==
[[Category:312 電腦科學]]