70,961
次編輯
變更
Unicode
,無編輯摘要
'''Unicode 伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。当前最新的版本为2020年3月公布的13.0.0,已经收录超过13万个字符 ''' ( 第十 中文: 万 个字符在2005年获采纳)。Unicode涵盖的数据除了视觉上的字形 国码、国际码 、 编 统一 码 方法 、 单一码)是[[计算机科学]]领域里的一项业界[[ 标准 ]]。它对世界上大部分 的 [[文 字 符 ]]系统进行了整理、 编码 外 , 还包含了字符特性,如大小写 使得电脑可以用更为简单的方式来呈现和处理文 字 母 。
Unicode 伴随着通用字符集的标准而 发展 由非营利机构统一码联盟负责 , 该机构致力于让 Unicode 同时也以书本的形式对外发表。Unicode 方案取代既有 至今仍在不断增修,每个新版本都加入更多新的字符。当前最新 的 版本为2020年3月公布的13.0.0,已经收录超过13万个 字符 (第十万个字符在2005年获采纳)。Unicode涵盖的[[数据]]除了[[视觉]]上的字形、 编码方 案。因为既有 法、标准 的 方案往往空间非常有限 字符编码外,还包含了字符特性 , 亦不适用于多语环境 如大小写字母 。
Unicode发展由非营利机构统一码联盟负责,该机构致力于让 Unicode 方案取代既有的字符编码方案。因为既有的方案往往[[空间]]非常有限,亦不适用于多语环境。 Unicode备受认可,并广泛地应用于电脑软件的国际化与本地化过程。有很多新 [[ 科技 ]] ,如可扩展置标语言(Extensible Markup Language,简称:XML)、Java编程语言以及现代的操作系统,都采用Unicode编码。
==起源与发展==
Unicode是为了解决传统的字符编码方案的局限而产生的,例如ISO 8859-1所定义的字符虽然在不同的 [[ 国家 ]] 中广泛地使用,可是在不同国家间却经常出现不兼容的情况。很多传统的编码方式都有一个共同的问题,即容许 [[ 电脑 ]] 处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多 [[ 语言 ]] 环境(指可同时处理多种语言混合的情况)。
Unicode 编码包含了不同写法的字,如“ɑ/a”、“強/强”、“戶/户/戸”。然而在 [[ 汉字 ]] 方面引起了一字多形的认定争议(详见中日韩统一表意文字主题)。
在文字处理方面,统一码为每一个字符而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即 [[ 数字 ]] )来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页 [[ 浏览器 ]] 或是文字处理器。
当前,几乎所有电脑系统都支持基本 [[ 拉丁字母 ]] ,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其 首 256 首256 个字符保留给 ISO 8859-1 所定义的字符,使既有的西欧语系文字的转换不需特别考量;并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会丢失任何 [[ 信息 ]] 。举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
在表示一个 Unicode 的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种 [[ 平面 ]] ( [[ 英语 ]] :Basic Multilingual Plane,简写 BMP。又称为“零号平面”、plane 0)里的所有字符,要用四个数字(即两个byte,共16 bits,例如 U+4AE0,共支持六万多个字符);在零号平面以外的字符则需要使用五个或六个数字。旧版的 Unicode 标准使用相近的标记方法,但却有些微小差异:在 Unicode 3.0 里使用“U-”然后紧接着八个数字,而“U+”则必须随后紧接着四个数字。
==视频==