汉明码查看源代码讨论查看历史

来自孔夫子旧书网的图片

汉明码是中国科技名词。

世界上所有的国家中，只有我们中国的文化^[1]是始终没有间断过的传承下来，也只有 “汉字”是世界上唯一的古代一直演变过来没有间断过的文字形式^[2]。

名词解释

汉明码（Hamming Code），是在电信领域的一种线性调试码，以发明者理查德·卫斯里·汉明的名字命名。汉明码在传输的消息流中插入验证码，当计算机存储或移动数据时，可能会产生数据位错误，以侦测并更正单一比特错误。由于汉明编码简单，它们被广泛应用于内存（RAM）。

人们在汉明码出现之前使用过多种检查错误的编码方式，但是没有一个可以在和汉明码在相同空间消耗的情况下，得到相等的效果。

1940年，汉明于贝尔实验室（Bell Labs）工作，运用贝尔模型V（Bell Model V）电脑，一个周期时间在几秒钟内的机电继电器机器。输入端是依靠打孔卡（Punched Card），这不免有些读取错误。在平日，特殊代码将发现错误并闪灯（flash lights），使得操作者能够纠正这个错误。在周末和下班期间，在没有操作者的情况下，机器只会简单地转移到下一个工作。汉明在周末工作，他对于不可靠的读卡机发生错误后，总是必须重新开始项目变得愈来愈沮丧。在接下来的几年中，他为了解决调试的问题，开发了功能日益强大的调试算法。在1950年，他发表了今日所称的汉明码。现在汉明码有着广泛的应用。

校验

与其他的错误校验码类似，汉明码也利用了奇偶校验位的概念，通过在数据位后面增加一些比特，可以验证数据的有效性。利用一个以上的校验位，汉明码不仅可以验证数据是否有效，还能在数据出错的情况下指明错误位置。

纠错

在接收端通过纠错译码自动纠正传输中的差错来实现码纠错功能，称为前向纠错FEC。在数据链路中存在大量噪音时，FEC可以增加数据吞吐量。通过在传输码列中加入冗余位(也称纠错位)可以实现前向纠错。但这种方法比简单重传协议的成本要高。汉明码利用奇偶块机制降低了前向纠错的成本。

校验方法

如果一条信息中包含更多用于纠错的位，且通过妥善安排这些纠错位使得不同的出错位产生不同的错误结果，那么我们就可以找出出错位了。在一个7位的信息中，单个位出错有7种可能，因此3个错误控制位就足以确定是否出错及哪一位出错了。

汉明码SECDED（single error correction, double error detection）版本另外加入一检测比特，可以侦测两个或以下同时发生的比特错误，并能够更正单一比特的错误。因此，当发送端与接收端的比特样式的汉明距离（Hamming distance）小于或等于1时（仅有1 bit发生错误），可实现可靠的通信。相对的，简单的奇偶检验码除了不能纠正错误之外，也只能侦测出奇数个的错误。

下列通用算法可以为任意位数字产生一个可以纠错一位的汉明码：

1.从1开始给数字的数据位（从左向右）标上序号, 1，2，3，4，5...

2.将这些数据位的位置序号转换为二进制，1, 10, 11, 100, 101,等。

3.数据位的位置序号中所有为二的幂次方的位（编号1，2，4，8，等，即数据位位置序号的二进制表示中只有一个1）是校验位

4.所有其它位置的数据位（数据位位置序号的二进制表示中至少2个是1）是数据位

5.每一位的数据包含在特定的两个或两个以上的校验位中，这些校验位取决于这些数据位的位置数值的二进制表示

(1) 校验位1覆盖了所有数据位位置序号的二进制表示倒数第一位是1的数据：1（校验位自身，这里都是二进制，下同），11，101，111，1001，等

(2) 校验位2覆盖了所有数据位位置序号的二进制表示倒数第二位是1的数据：10（校验位自身），11，110，111，1010，1011，等

(3) 校验位4覆盖了所有数据位位置序号的二进制表示倒数第三位是1的数据：100（校验位自身），101，110，111，1100，1101，1110，1111，等

(4) 校验位8覆盖了所有数据位位置序号的二进制表示倒数第四位是1的数据：1000（校验位自身），1001，1010，1011，1100，1101，1110，1111，等

(5) 简而言之，所有校验位覆盖了数据位置和该校验位位置的二进制与的值不为0的数。

采用奇校验还是偶校验都是可行的。偶校验从数学的角度看更简单一些，但在实践中并没有区别。校验位一般的规律可以如下表示：

观察上表可发现一个比较直观的规律：第i个检验位是第2^(i-1)位，从该位开始，检验2^(i-1)位，跳过2^(i-1)位……依次类推。例如上表中第3个检验位p4从第2^(3-1)=4位开始，检验4、5、6、7共4位，然后跳过8、9、10、11共4位，再检验12、13、14、15共4位…… [1]

编码原理

奇偶校验是一种添加一个奇偶位用来指示之前的数据中包含有奇数还是偶数个1的检验方式。如果在传输的过程中，有奇数个位发生了改变，那么这个错误将被检测出来（注意奇偶位本身也可能改变）。一般来说，如果数据中包含有奇数个1的话，则将奇偶位设定为1；反之，如果数据中有偶数个1的话，则将奇偶位设定为0。换句话说，原始数据和奇偶位组成的新数据中，将总共包含偶数个1. 奇偶校验并不总是有效，如果数据中有偶数个位发生变化，则奇偶位仍将是正确的，因此不能检测出错误。而且，即使奇偶校验检测出了错误，它也不能指出哪一位出现了错误，从而难以进行更正。数据必须整体丢弃并且重新传输。在一个噪音较大的媒介中，成功传输数据可能需要很长时间甚至不可能完成。虽然奇偶校验的效果不佳，但是由于他只需要一位额外的空间开销，因此这是开销最小的检测方式。并且，如果知道了发生错误的位，奇偶校验还可以恢复数据。如果一条信息中包含更多用于纠错的位，且通过妥善安排这些纠错位使得不同的出错位产生不同的错误结果，那么我们就可以找出出错位了。在一个7位的信息中，单个数据位出错有7种可能，因此3个错误控制位就足以确定是否出错及哪一位出错了。

参考文献

↑ 汉字与中华文化，搜狐，2017-06-14
↑ 探究世界上唯一没有间断的古老文字系统：汉文字，搜狐，2017-06-15

[1] 汉字与中华文化，搜狐，2017-06-14

[2] 探究世界上唯一没有间断的古老文字系统：汉文字，搜狐，2017-06-15

[1]

[2]

汉明码查看源代码讨论查看历史

目录

名词解释

参考文献