Code Point

Yurii谈开发

浅谈编码

在《学到不会忘》中我提到，为了写《正则指引》，专门抽了些时间学习Unicode，也因此明白了很多与编码有关的问题，只是最后没有全部写进《正则指引》中，以免离题。不过，这并不妨碍专门用一篇文章来讲解编码问题。其实所谓编码问题，不外乎若干概念，弄明白了这些概念，编码问题就可以迎刃而解了，所以这里按照概念来展开讲解。字符和字符集字符，就是我们日常使用的各种文字，比如中文的你、我、他，英文的A、B、C，日文的に、ほ、ん、ご，都是字符。手写可以用到的字符几乎是无限的，但在计算机中，必须事先约定好字符的范围，也就是穷举出所有“可以使用”的字符。这个范围，就是通常说的“字符集”（Character Set）。 ISO8859-1是开发中常见的字符集（MySQL默认就采用这种字符集），它支持的语言有英语、德语、法语等，也即包含了英语、德语、法语中的字符。GBK是另一种常见的字符集，它源自GB2312字符集，GB表示“国标”，GB2312即是国家标准，它的另一个名字是CP936（Code Page 936），以前在Linux下播放MP3，如果发现ID3标签乱码，设定为CP936就可以解决。因为制定较早，GB2312只包含6763个汉字，并不足够覆盖日常的使用，所以诞生了GBK，其中的K表示“扩展”。有意思的是，GBK是微软制定的字符集，而不是“国标”，只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为“技术规范指导性文件”。除此以外，港台地区以前使用Big5字符集，曾经在Dos下玩过港台游戏的朋友应该还记得“大五码”这个名字。与字符相关的另一个概念是字形（glyph），它是字符显示出来的样子，同一个字符可以有好几种写法，每种写法其实对应一种字形。下面举例列出了“高”字的几种字形（资料来自Wiki）。编码与码值在计算机内部，所有的数据都是编码保存的，字符也不例外。因此，每一种字符集不但约定了可以使用的文字的范围，而且为每一个字符确定了唯一的代码，称为码值（Code Point，也叫“代码点”）。在ISO8859-1字符集中，A的码值是41（十六进制），=的码值是3d（十六进制）；在GBK字符集中，发的码值是b7 a1（十六进制），罚的码制是b7 a2（十六进制）。因为单个字节只能表示最多256个字符，而中文字符超过256个，所以GBK编码选用2个字节表示单个字符，相应的，其码值也是4位十六进制数值。我们说的“GBK编码”、“ISO8859-1编码”，其实既指其对应的字符集，又指其对应的码值规定。通常，两者是一体的，但是在Unicode编码中的情况，却不是这样。 Unicode 随着计算机和互联网的发展，各自为战的字符集很快就遇到了问题：如果我需要在一篇文章中同时使用中文和日文字符，该怎么办呢？设定为日文编码（常用的为Shift-JIS、EUC-JP）则不能涵盖中文字符，设定为中文编码则必须放弃日文字符，所以需要一种统一的、可以覆盖各种语言的字符集，于是Unicode字符集应运而生了。 Unicode的最初想法是用2个字节（16位，65536个码值）来表示世界上所有的语言，所以它的字符集称为UCS-2（2 byte…

14 years ago