浅谈编码

本文由Yurii原创，转载请注明来源： Life Sailor

在《学到不会忘》中我提到，为了写《正则指引》，专门抽了些时间学习Unicode，也因此明白了很多与编码有关的问题，只是最后没有全部写进《正则指引》中，以免离题。不过，这并不妨碍专门用一篇文章来讲解编码问题。

其实所谓编码问题，不外乎若干概念，弄明白了这些概念，编码问题就可以迎刃而解了，所以这里按照概念来展开讲解。

字符和字符集

字符，就是我们日常使用的各种文字，比如中文的你、我、他，英文的A、B、C，日文的に、ほ、ん、ご，都是字符。手写可以用到的字符几乎是无限的，但在计算机中，必须事先约定好字符的范围，也就是穷举出所有“可以使用”的字符。这个范围，就是通常说的“字符集”（Character Set）。

ISO8859-1是开发中常见的字符集（MySQL默认就采用这种字符集），它支持的语言有英语、德语、法语等，也即包含了英语、德语、法语中的字符。GBK是另一种常见的字符集，它源自GB2312字符集，GB表示“国标”，GB2312即是国家标准，它的另一个名字是CP936（Code Page 936），以前在Linux下播放MP3，如果发现ID3标签乱码，设定为CP936就可以解决。因为制定较早，GB2312只包含6763个汉字，并不足够覆盖日常的使用，所以诞生了GBK，其中的K表示“扩展”。有意思的是，GBK是微软制定的字符集，而不是“国标”，只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为“技术规范指导性文件”。除此以外，港台地区以前使用Big5字符集，曾经在Dos下玩过港台游戏的朋友应该还记得“大五码”这个名字。

与字符相关的另一个概念是字形（glyph），它是字符显示出来的样子，同一个字符可以有好几种写法，每种写法其实对应一种字形。下面举例列出了“高”字的几种字形（资料来自Wiki）。

编码与码值

在计算机内部，所有的数据都是编码保存的，字符也不例外。因此，每一种字符集不但约定了可以使用的文字的范围，而且为每一个字符确定了唯一的代码，称为码值（Code Point，也叫“代码点”）。

在ISO8859-1字符集中，A的码值是41（十六进制），=的码值是3d（十六进制）；在GBK字符集中，发的码值是b7 a1（十六进制），罚的码制是b7 a2（十六进制）。因为单个字节只能表示最多256个字符，而中文字符超过256个，所以GBK编码选用2个字节表示单个字符，相应的，其码值也是4位十六进制数值。

我们说的“GBK编码”、“ISO8859-1编码”，其实既指其对应的字符集，又指其对应的码值规定。通常，两者是一体的，但是在Unicode编码中的情况，却不是这样。

Unicode

随着计算机和互联网的发展，各自为战的字符集很快就遇到了问题：如果我需要在一篇文章中同时使用中文和日文字符，该怎么办呢？设定为日文编码（常用的为Shift-JIS、EUC-JP）则不能涵盖中文字符，设定为中文编码则必须放弃日文字符，所以需要一种统一的、可以覆盖各种语言的字符集，于是Unicode字符集应运而生了。

Unicode的最初想法是用2个字节（16位，65536个码值）来表示世界上所有的语言，所以它的字符集称为UCS-2（2 byte Universal Character Set）。用2个字节表示一个字符，就会带来字节序问题：在传输和存储时，到底是先传输高位字节（big endian），还是低位字节（little endian）呢？这个问题Unicode也没有确切的答案，所以设定了BOM（byte order mark，字节序标识）来解决。BOM对应的码值是fe ff，无论fe ff，还是ff fe，在Unicode中都没有实际的意义，所以不会造成干扰。在读取使用了BOM的文件时，先读取头两个字节，如果是ff fe，就是little endian，如果是fe ff，就是big endian；如果文件的开头两个字节既不是fe ff，也不是ff fe，默认采用big endian。如果你用Windows的记事本创建Unicode编码的文件，文件头就会包含little endian的BOM，其它一些文本编辑工具则不会。如果用程序解析包含BOM的XML文件，可能遇到非法字符的错误，必须先截去开头的BOM信息。

最早制定Unicode规范时，大家乐观认为觉得65536个字符就可以覆盖地球上所有语言中的字符了，这种今天看来草率的乐观，导致了不少后果。

第一，因为东亚文字（主要是中、日、韩三种语言的文字）字符非常多，为了节省码值，就将三种语言中字形类似的字符映射到同一码值，这种做法称为UniHan（统一汉字，在Unicode规范中，也称为“东亚文字(East Asian)”），比如中文（包括大陆、香港、台湾）和韩文及日文的“骨”、“直”等字，虽然写出来的字形（glyph）有微小差别，但码值是相同的。这样的好处是节省了码值，而且某些跨语言搜索可以直接进行，比如搜索日文关于“直角”的资料，直接输入“直角”即可。这样的坏处是，不能依靠码值判断到底属于中日韩语言中的哪一种（三种语言中的常用字符大都属于CJK_Unified_Ideography这个书写系统），而且，对于码值相同但字形不同的字符，到底选择哪个字形来显示，还应当参考locale设定（使用过Linux的人大都会记得zh-CN.UTF-8这样的locale设定，它可以影响到”直“、”骨“之类的字形选择）。

网络上有不少资料说，匹配中文字符的正则表达式是[\x4e00-\x9fa5]，也有资料说是[\x4e00-\x9fff]。从原理上看，它们都是用字符组表示某个范围，起始码值都是4e 00，结束码值却有不同，这是为什么呢？仔细阅读UniHan规范可知，其实它们的原理都是使用CJK_Unified_Ideography书写系统（Script，这是一种Unicode属性，下面会详细讲到）中的文字，在1992年提交给IRG（International Rapporteur Group）的字符只排到9f a5。在这之后，制定更新版本的Unicode规范时都进行了扩展，新增了字符。不过从根本上说，4e00-9fff是预留给东亚文字的码值范围，所以使用[\x4e00-\x9fff]是更好的选择。具体信息可以参考 UniHan规范。

如果要“完整地”匹配所有的中文（东亚文字），还必须考虑Unicode各版本中增补的CJK统一表意字符，从CJK Unified Ideographs Extension A、CJK Unified Ideographs Extension B一直到最新的CJK Unified Ideographs Extension E，具体细节可以参考Wiki上的说明。

第二，用2个字节表示单个字符并不合适。对ASCII字符来说，用单个字节就可以表示，2个字节造成了大量的浪费；另一方面，65536个字符并不够表示世界上的所有字符，所以Unicode规范进行了扩编，截止本文写作时止，最新的Unicode 6.1.0规范包含110116个字符，所需的字节当然超过2个（16位）。针对这种问题，Unicode字符提供了不同的字符编码方式（Character Encoding Scheme），可以这么理解：字符的码值是一回事，在存储和传输时，具体落实为几个字节，如何表示，又是另一回事，码值的具体表示形式，就由字符编码方式来规定。常见的Unicode字符编码方式有：UTF-8，UTF-16等，其中的UTF是UCS Transformation Format的缩写，明确表示它是一种传输格式，所以我们可以说“Unicode字符集”，也可以说“Unicode编码”，还可以说“UTF-8编码”、“UTF-16编码”，但不能说“UTF-8字符集”、“UTF-16字符集”。

UTF-8是一种变长编码，第一个字节的最高位如果是0，则表示这个字符用单个字节表示，否则，从这一位开始向后数，有多少个连续的1，这个字符就用多少个字节表示。于是，英文字符只需要1个字节就可以表示，而中文字符一般需要3个字节来表示。比如发字，其码值为53 d1，但UTF-8文字编码方式下表示为e5 8f 91。

如果我们拿到一段文本，不知道它到底是GBK编码还是UTF-8编码，就可以依据UTF-8编码的这个特征进行判断。不过我之前试验过一个取巧（但不那么保险）的办法：因为中文里的“的”字出现非常频繁，而当时要判断的文本一般都不短，所以直接查找文本中是否出现了GBK的“的”字或UTF-8的“的”字，也可以判断出来。

UTF-16则是一种定长编码，每个字符都采用2个字节，16位来表示。发的UTF-16编码方式下表示为53 d1。相比UTF-8，它的字符长度固定，本来是一种好处。但是因为Unicode字符集已经超过了65536个字符，所以UTF-16已经没有什么优势了，对超过16位的Unicode字符，UTF-16必须补充另外两个字节来表示，多出来的这两个字节称为代理对（Surrogate Pair）。

Java在诞生时就有”先见之明“地选择了UTF-16作为内部文字编码方式，每个字符在JVM内部都使用16位来表示，所以Java中的char是long类型，也就是16位整数。但是随着Unicode字符集中的字符超过65536个，Java原来的字符串处理API就无能为力了。为弥补这个问题，Java 5.0另外提供了CodePoint相应的方法，比如计算CodePoint个数的codePointCount()，取代之前的length()，以及获取某个CodePoint的codePointAt()方法，取代之前的charAt()方法。另外，在进行跨语言通讯（比如调用Web Service）时，往往必须显式指定输入输出的文字编码方式为UTF-16，否则有可能遭遇乱码。

既然Unicode包含了几乎所有的字符，这些字符的分类管理当然也更复杂。比如，针对某个字符，必须能知道它属于哪种语言；再比如，还需要知道某个字符到底是空白字符，还是标点字符，还是文字字符——ASCII编码中的字符可以分为控制字符、字母字符、标点字符等等，各个分类所包含字符的码值是位于连续区间的，所以直接指定码值范围即可（参加下面的ASCII码表），但是在Unicode中，不同语言的标点字符，其码值必然不是连续的，必须要有办法表示这些分类。要满足这些需求，就必须依靠Unicode属性。

Unicode属性

Unicode不但包含了更多的字符，多种编码方式，还提供了非常有用的功能，即Unicode字符集中的每个字符，都具有好几种属性，它们从不同的方面描述这个字符的某个特征。最常见的属性有：Unicode Property、Unicode Block、Unicode Script，以下分别简要介绍。

Unicode Property的记法类似\p{L}、\p{P}，按照字符的功能分类Unicode字符，而每个Unicode字符只能属于一个Unicode Property。不妨这么理解Unicode Property：它并不按照字符所属的语言来划分Unicode字符，而是按照字符的功能来划分，比如\p{Z}表示任意的空白字符或不可见的分隔符；\p{P}表示任何标点字符，等等。遇到中英文混排、全角半角同时出现的情况，我们就可以用\p{Z}匹配所有的空白字符（不关心到底是全角空格还是半角空格），用\p{P}匹配所有的标点字符（而不用关心逗号到底是中文逗号还是英文逗号），不用费心细节。

Unicode Block则不同于Unicode Property，它按照编码区间划分Unicode字符，每个Unicode Block中的字符编码都是落在同一个连续区间的。因为Unicode编码表中，某种语言的字符通常是落在同一区间的，所以它也可以粗略表示某类语言的字符，比如\p{InHebrew}表示希伯莱语字符，\p{InCJK_Unified_Ideographs}表示兼容CJK（中文、日文、韩文）统一表意字符。如果你细心观察，会发现Unicod Block的名字虽然类似某种语言的名字，但都有“In”（Java风格）或者“Is”（.NET风格）前缀，这表明它其实对应的还是“落在某个区间的Unicode字符”。

Unicode Script按照字符所属的书写系统来划分Unicode字符，比如\p{Greek}表示希腊语字符，\p{Han}表示汉语（中文字符）。它的写法类似Unicode Block，只是名字的开头没有“Is”或者“In”。

以上三种属性互相独立，之间没有层叠关系，可以用下面这幅图简要说明。

在处理字符串时，如果可以用到这几种属性，就会非常方便。如今流行的语言中，大都可以通过内建的正则表达式来获得这几种属性，并进行相应的处理。但是，语言对Unicode属性的支持并没有硬性的标准，所以造成不同语言的支持程度各有不同。一般地说，支持Unicode Property的语言有.NET、Java、PHP、Ruby（限1.9以上版本）；支持Unicode Block的语言有.NET、Java；支持Unicode Script的语言有PHP和Ruby（限1.9以上版本）。具体的使用方法，可以参考Regex Tutorial的专题页面，也可以阅读《正则指引》第7章。

From Life Sailor, post 浅谈编码

Yurii

Next 正则学习问答 »

Previous « 说说我理解的职业开发人员

View Comments

Moody says:

2012-06-23 at 20:15

余老师又出精品了。最后一段Unicode 属性稍显突兀。要是能先引入问题和应用场景再介绍就更容易理解啦。
- Yurii says:
  
  2012-06-23 at 21:09
  
  “精品”谈不上，写着玩玩，给大家当个参考。
  你的意见很好，我已经补充了一些内容:)
Sword-Breaker says:

2012-06-24 at 01:46

之前觉得[\x4e00-\x9fa5]对中文肯定是不全的，后来只看到iteye上的某个帖子有提过这类问题，还列了几个url...今天看了才知道原来wiki上都有说明...
葛灿辉 says:

2012-06-24 at 23:31

逻辑清楚、生动有趣，读起来赏心悦目。谢谢楼主的好文章！
ukessi says:

2012-06-25 at 09:46

在读取使用了BOM的文件时，先读取头两个字节，如果是ff fe，就是little endian，如果是ff fe，就是big endian；

-------

笔误？big endian应该是fe ff
- Yurii says:
  
  2012-06-25 at 12:37
  
  多谢指正，已经修改了。
sotoman says:

2012-06-26 at 09:26

谢谢分享。btw:能否对于一些零宽的字符简单介绍下，包括产生的原因，适用场景：）
sotoman says:

2012-06-26 at 10:20

还有个问题想请教下，假设我有一段100字节的文字，我用某种编码转换成汉字后，再用同样的编码转换为字节，是否还是 100 呢？谢谢

（假设 100 个字节末尾不是半字的情况）
- Yurii says:
  
  2012-06-26 at 10:48
  
  如果是100字节，更应该叫“文本”或者“数据”，而不是“文字”吧。
  理论上说转换是可逆的，也就是说回去仍然是100字节，但实际情况不见得如此，编码转换的过程比较复杂，遇到无法转换的字符可能中止或者忽略，这样再转换回去就不能保证100字节了。
tanglei says:

2012-06-28 at 21:33

既然来过了，肯定就得留个名。o(∩_∩)o 哈哈

再次面临孩子不想去打冰球的问题

之前我写了一篇《坚持了两年之后，小朋友突然不想去打冰球了…》，本来是无心之作，没想到收到了很多留言，我自己也获益不少。本来，我以为解决了小朋友的问题，此事就这样过去了。没想到的是，暑假过后，冰球训练重开，他又老调重弹：“我不去了，我不想打冰球了……”。这可叫我如何是好？听到他嘟嘟囔囔说这一切的时候，我心里百感交集。成年人的生活里总是有忙不完的事情，对应的，也希望一切井井有条、按部就班。因此，这样“意外”的变数，总是第一时间让人心生无奈和烦恼：天哪，怎么会这样呢？为什么会这样呢？不过，基于之前的经验，借鉴大家的留言，这次我显然更有心理准备一些，起码不会慌乱。之前我写过，如果父母多阅读一些高质量的育儿专著，有助于把自己的期望水平“降”到合适的程度，就不会那么焦虑甚至抓狂。 (more…)

8 months ago

一家之言

Michael，一个打冰球的好孩子

认识Michael很偶然，但我也很幸运，因为我见证了一个“打冰球的好孩子”的成长。最早认识Michael是在冰球队的夏季体能训练上。那时候这群孩子还只有六岁左右，每次训练都是家长送来，在旁边观看陪伴，再接回家。但是，我很快发现有个孩子不一样，家长送他来就回家，他靠自己换好全身装备，训练完自己洗澡更衣，再由家长接回去。看起来，他好像完全没有其他孩子那种“害怕独处”的感觉。于是我问他：“小朋友，你这么勇敢，你叫什么名字呀？” 他说：Michael。我尝试复述他的名字，好几遍都不成功，因为我总听成“米歇”，最后他耐着性子慢慢说，我仔细听才发现最后还有个音节，嘴要更扁一点，舌头往上垫，才可以念出来，类似“米歇-厄尔”。其实这个名字写出来大家都认识，英文里读作“迈克尔”，无奈德语的发音规则很严格，字母i不会像英文那样有两种读音，结尾的el又一定要发音，所以就成了“米歇-埃尔”。 (more…)

8 months ago

一家之言

冰球训练四年的收获和感悟

偶然刷到一篇文章，说的是“贵族家长”群体给小朋友安排的活动：冰球、马术…… 我有点诧异，原来“冰球”也被贴上了“身份”的标签。想想自家小朋友的情况：赶上打折花了400多欧元买的全套护具，80元买的二手冰球包，每个月60欧元的俱乐部费用……想了想，似乎很难和“贵族”联系起来。只不过，他已经坚持打冰球到了第四年，我们的生活确实有不小的变化。写下来，既是对自己有个交代，也可以作为“贵族运动”的现身说法。因为在我看来，如果非要说它是“贵族”运动，也只能“贵”在高（时间）投入、高产出而已。细细想来，我们的生活，已经被冰球深深的影响了。 (more…)

9 months ago

一家之言

亲历德国小学的死亡威胁事件【续】

一很多人关心，我们父子给M写了道歉信之后，对方是否有回应。答案是：到目前为止，还没有任何回应。不过比较特殊的是，写完信之后德国小学就开始放秋假，学生不用去学校，既然见不到，也就不可能收到任何回应。老实说，我觉得对方父母是有点反应过度的。这些年我的一条深刻经验是，如果出现分歧、矛盾，越早、在越低的层面直接面对，就越容易解决。许多小的矛盾之所以越闹越大甚至无法收场，往往都是经过了很多演绎、传话，而没有在一开始就开诚布公地面对。试想，如果自己的孩子收到写着“我要杀了你”的信件，哪怕一开始很惊慌甚至愤怒，但仔细想一想，毕竟还有很多信息是未知的——比如对方是谁，平时言行如何，为何要写这样的信…… 更好的办法或许是先去直接寻求这些问题的答案，而不是直接把信交给家长委员会，走“公事公办”的路子。我当然承认，“公事公办”无可厚非，对方家长也有这样的权利——所谓权利，就是“有资格做对方不喜欢的事情，人家还拿你没办法”。既然有这样的权利，就需要尊重。所以，“严于律己，宽于待人”的确是与人相处的重要法则：我不会选择这么做，但我能理解和尊重你这么做的权利。也有人问，那将来你遇到M的父母，会不会紧张？答案是：不会。 (more…)

9 months ago

一家之言

亲历德国小学的死亡威胁事件

一收到S老师邮件的时候，我刚刚胆战心惊地做完第一次德语技术分享，还在享受着同事们的鼓励。猛然间就收到一封邮件：“您的孩子在学校参与了一起性质严重的事件，您必须来学校面谈，请从以下时间段中选择……” 什么？“性质严重的事件”？我揉了揉眼睛，确认自己没有看错。再把这段文字贴到谷歌翻译里，确认自己没有理解错。我没有看错，也没有理解错，就是“性质严重的事件”。好吧，既然“性质严重”，那谈话肯定是越早越好，最早的日期是第三天。我紧赶慢赶，回信确认了最早可能的谈话时间，虽然德国人通常都不期待能这么快收到回复。去接他回来的路上，我发现他一切正常，完全看不出任何异样。于是，我也没有表现出任何异样，只是依照惯例，问他当天发生了什么，在学校开心不开心。得到肯定的答复之后，我心生疑惑，看起来和“性质严重”完全不搭边。那会是什么事情呢？我又问他，有没有和同学吵架、打架，是不是被人欺负了不敢说。但是，答案全都是“没有”。我满心怀疑，又按捺不住，直接问：“既然一切都挺好，为什么S老师给我发信，说让我来学校跟她谈话呢？”我担心“性质严重”会吓到他，故意隐去了这个词。他的满面春风在那瞬间凝固了，喃喃低语道：“好吧，原来是那件事，我还以为她不会跟你说。” (more…)

9 months ago

一家之言

写在加入乐团一周年

在2024年之前，我从来没想过自己有一天还可以加入乐团，甚至参加音乐会演奏。我只是个普通中年人，在之前文章里说过，上世纪八十年代随大流弹了十年手风琴，考过六级（当时最高八级）之后就彻底放弃了。直到二十多年后，在上海工作时才重新开始弹琴，当时有幸跟夏老师学了两年，打开了感官，懂得了音乐的世界远远比考级要广阔和美妙。再往后，就是自己看Youtube学习了一些乐理知识。因为德国几乎每个城市都有很多音乐学校，2023年末，我给本市的音乐学校写信，询问是否可以参加手风琴课程。通过回信我才知道，原来不只是“每个城市都有很多音乐学校”，而且“每个城市都有很多乐团”，哪怕是手风琴乐团。就这样，阴差阳错的，2024年初，经过简单的试奏，我加入了本市的手风琴乐团。虽然我是乐团新人，仍然有很多要学习的，但是一年下来，确实有不少感受。如果读者朋友也对音乐感兴趣，或者想让孩子学习音乐，也许我的感受可以提供一些参考。 (more…)

9 months ago

浅谈编码

字符和字符集

编码与码值

Unicode

Unicode属性

View Comments

Related Post

Recent Posts

再次面临孩子不想去打冰球的问题

Michael，一个打冰球的好孩子

冰球训练四年的收获和感悟

亲历德国小学的死亡威胁事件【续】

亲历德国小学的死亡威胁事件

写在加入乐团一周年