變更

Unicode

增加 344 位元組, 4 年前

無編輯摘要

'''Unicode'''（中文：万国码、国际码、统一码、单一码）是[[计算机科学]]领域里的一项业界[[标准]]。它对世界上大部分的[[文字]]系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。

Unicode 伴随着通用字符集的标准而发展，同时也以书本的形式对外发表。Unicode 至今仍在不断增修，每个新版本都加入更多新的字符。当前最新的版本为2020年3月公布的13.0.0 <ref>[http://finance.sina.com.cn/wm/2020-03-14/doc-iimxxstf8949460.shtml Unicode发布13.0版本,收录4939个生僻字]，新浪网，2020-03-14</ref> ，已经收录超过13万个字符（第十万个字符在2005年获采纳）。Unicode涵盖的[[数据]]除了[[视觉]]上的字形、编码方法、标准的字符编码外，还包含了字符特性，如大小写字母。

Unicode发展由非营利机构统一码联盟负责，该机构致力于让 Unicode 方案取代既有的字符编码方案。因为既有的方案往往[[空间]]非常有限，亦不适用于多语环境。

在文字处理方面，统一码为每一个字符而非字形定义唯一的代码（即一个整数）。换句话说，统一码以一种抽象的方式（即[[数字]]）来处理字符，并将视觉上的演绎工作（例如字体大小、外观形状、字体形态、文体等）留给其他软件来处理，例如网页[[浏览器]]或是文字处理器。

当前，几乎所有电脑系统都支持基本[[拉丁字母]]，并各自支持不同的其他编码方式。Unicode为了和它们相互兼容，其首256个字符保留给 ISO 8859-1 所定义的字符，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字符重复编到不同的字符码中去，使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换 <ref>[https://wiki.jikexueyuan.com/project/java-chinese-garbled-solution/coding-details.html 编码详情 - Java 中文乱码解决之道]，极客学院Wiki，2018-11-28</ref> ，而不会丢失任何[[信息]]。举例来说，全角格式区段包含了主要的拉丁字母的全角格式，在中文、日文、以及韩文字形当中，这些字符以全角的方式来呈现，而不以常见的半角形式显示，这对竖排文字和等宽排列文字有重要作用。

在表示一个 Unicode 的字符时，通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种[[平面]]（[[英语]]：Basic Multilingual Plane，简写 BMP。又称为“零号平面”、plane 0）里的所有字符，要用四个数字（即两个byte，共16 bits，例如 U+4AE0，共支持六万多个字符）；在零号平面以外的字符则需要使用五个或六个数字。旧版的 Unicode 标准使用相近的标记方法，但却有些微小差异：在 Unicode 3.0 里使用“U-”然后紧接着八个数字，而“U+”则必须随后紧接着四个数字。

<center>{{#iDisplay:m3048w8w4bq|560|390|qq}}</center>

==参考文献==

[[Category:312 電腦科學]]

流年似水

70,961

次編輯