《精通正则表达式》勘误

因为工作不够细致，最终版本的《精通正则表达式》还存在如下问题，只能以勘误形式发布作为补救了，请各位读者见谅。
如果大家在阅读中发现其他问题，欢迎来信指出。
[email protected]

Update：2009年2月24日，新发布了Excel版本的勘误列表，包括了之前收集的所有勘误，并给出了印次信息，更方便阅读和修改，本勘误列表不再更新，请大家下载Excel版本的勘误列表：MRE_errata.xls

推荐序

vi页，第1行， “那它就被成为阳春应用”，应该修改为“那它就被称为阳春应用”；

前言

Ⅱ页，倒数第3段，“读这本书以前，我以为自己了解正则表达式，但现在我才真正了解”应修改为“读这本书以前，我以为自己了解正则表达式，但现在我才真正弄明白”

Ⅱ页，倒数第2段，“在其它任何地方都难以找到这样丰富的细节”应修改为“在其它任何地方都难以找到这样完整而详尽的资料”

Ⅴ页，第1段，“来开发引擎的能力，并避免其中的缺陷”应修改为“来发掘引擎的能力，绕开引擎的缺陷”

Ⅵ页，第1段，“[…]表示一对方括号，之间的内容无关紧要；而[…]表示一对方括号，其中包含三个句点”应修改为“[…]表示其间内容无关紧要的一对方括号，而[…]表示包含三个句点的方括号”

第1章

2页，倒数第2段，“但是它不一定能代表正则表达式在平时解决的那些“不值一提”（uninteresting）的问题。这里的“不值一提”是指这类问题并不能成为谈资，可是不解决它们，你就没法继续干活”应修改为“但是正则表达式在平时还用来解决那些“讨人厌（uninteresting）”的问题。说“讨人厌”，是因为它们不适合跟外人吹嘘，可是不解决它们，你就没法继续干活”

3页，第12行，“^(From|Sbuject):”应修改为“^(From|Subject):”

6页，标题“正则表达式的思维框架”应修改为“理解正则表达式的结构”

9页，倒数第3段，“在搜索HTML代码的头文件时这非常有用”应修改为“在搜索HTML Header时这非常有用”

12页，注4中“作为一个小孩子，那时候我感觉非常受伤”应修改为“当时我还是个孩子，很伤心”

14页，第4段，“匹配一行的起始位置，然后匹配「^From」、「Subject」或「Date」中的任意一个”应修改为“匹配一行的起始位置，然后匹配「From」、「Subject」或「Date」中的任意一个”

15页，第3段，“我使用-i参数的频率很高”应修改为“我经常使用-i参数”

15页，倒数第4段，“>”字符不应该是黑体

17页，倒数第3段，“无论u是否出现，匹配都是成功的”应修改为“无论u是否出现，匹配都会成功”

18页，倒数第3段，“因为它们限定了所作用元素的匹配次数”应修改为“因为它们限定了所作用元素的重现次数”

19页，第2段，“一个字符组是一个“元素”（unit），所以它可以直接加加号、星号等，而不需要用括号”应修改为“一个字符组就是一个“元素”（unit），可以对它直接使用加号、星号等，而不需要括号”

19页，倒数第1段，“每个量词都规定了匹配成功至少需要的次数下限，以及尝试匹配的次数上限”应修改为“每个量词都规定了匹配成功至少需要的重现次数下限，以及尝试匹配的重现次数上限”

20页，表1-2中：“可以不出现，也可以只出现一次”修改为“可以出现，也可以只重现一次”；“可以出现无数次，也可以不出现”修改为“可以重现无穷多次，也可以不出现”； “可以出现无数次，但至少要出现一次”修改为“可以重现无穷多次，但至少要出现一次”

21页，倒数第2段，“这并不是正则表达式的错误”应修改为“正则表达式对此无能为力”

27 页，第1段，“而且说“如果你写一个正则”，“巧妙的正则”（budding regexers），甚至是“正则化”（regexification）”修改为“而且说“如果你写一个正则”，“巧妙的正则”（budding regexers），甚至是“正则化”（regexification）听起来更顺一些。我说的“正则引擎（regex engine）”指的是程序中实际执行匹配尝试的那个部分”

第2章

37页，第1段，“它们都非常不同于“传统”的语言，例如C和Pascal”应修改为“它们截然不同于C和Pascal之类“传统”的语言”

37页，第13行，“print “celsuius C is … #返回摄氏和华氏温度” 应修改为 “print “celsuius C is … #输出摄氏和华氏温度”

38页，倒数第1段，“运算符==用来测试两个数字是否相等”修改为“运算符==用来测试两个数值是否相等”

40 页，第1段，“我不想在本章中讨论Perl的细节，但是我告诉你用printf（“格式化输出（print formatted）”）可以解决这个问题”修改为“我不想在本章中讨论Perl的细节，不过我还是想说，printf（“格式化输出（print formatted）”）可以解决这个问题”

40页，第3段，“Perl通常情况下不区分整数和浮点数”修改为“Perl一般不区分整数和浮点数”

41页，倒数第1段，“我们发现，这个图让我们很容易地决定匹配之后应该干什么”修改为“看了这张图，我们很容易就能决定匹配之后应该干什么”

46页，补充内容的最后1段，“尽管因为第4章将会解释其原因，字符组的效率通常还是会高一点”修改为“不过根据第4章解释的原因，字符组的效率通常要高一些”

56页，倒数第2行，“^From: (\s+) \”修改为“^From: (\S+) \”（S的大小写不同）

57页，第3行，“^From: (\s+) \”修改为“^From: (\S+) \”（S的大小写不同）

67页，第3段下面，正则表达式“$text =~ s/(\d)(?=(\d\d\d)+(?!\d)/$1,/g”应修改为“$text =~ s/(\d)(?=(\d\d\d)+(?!\d))/$1,/g”，少了一个括号

70页，第2段，所以整个正则表达式的意义就不再是“寻找空行及只包含空白字符的行”，而是“寻找连续、空行和只包括空白字符的行的结合”
应修改为
所以整个正则表达式的意义就不再是“寻找空行或只包含空白字符的行”，而是“寻找空行和只包含空白字符的行的结合”

76页，倒数第2段，“此外，我们的匹配主机名的正则表达式只存在一个“主源（main source）””应修改为“此外，我们的匹配主机名的正则表达式只存在一个“源头（main source）”，”

第78页
示例2-3中第4标注
{\e[7m$1\e[m$2\e[7m$3\e[m ] igx;
应修改为
{\e[7m$1\e[m$2\e[7m$3\e[m } igx;

第3章

89页，第1段，“不支持字符组中的\w（完全不支持\d和\s）”应修改为“在字符组中无法使用\w（\d和\s在任何地方都无法使用）”

92页，倒数第2段，“在极端的情况下，反向引用的“行为”有意义吗？”应修改为“在极端的情况下，反向引用还能正常工作吗？”

93页，第12行，”┌(July|Jul)┘和┌$July\|Jul$┘能够取得同样的匹配结果…“应修改为”┌(Jul|July)┘和┌$July\|Jul$┘能够取得同样的匹配结果…“

95页，标题“函数式处理的例子”应修改为“程序式处理的例子”

95页，倒数第1段，“不过，Java也提供了一些函数式处理的……”应修改为“不过，Java也提供了一些程序式处理的……”

95页，Pattern r = Pattern.compile(“^Sujbcet:(.*)”,Pattern.CASE_INSENSITIVE);
其中的Sujbcet应写为Subject

96页，第2段，“Sun的package同时提供了程序式和面向对象式的处理方式是常见的做法”应修改为“Sun的package同时提供了程序式和面向对象式的处理方式，这是种常见的做法”

96页，倒数第六行，”出现NULL（而且可以用点号来匹配）。“应修改为”出现NUL（而且可以用点号来匹配）。“

111页，第1段，“常见的例子是大写的ß是两个字符的组合“SS”。这种情况只有Perl能够正确处理”应修改为“常见的例子是，大写的ß由两个字符“SS”组合而成。这种情况只有Perl能够正确处理”

114页，“字符组及相关结构”中，“字符组缩略表示法”应修改为“字符组简记法”

119页，第2行，”范围内的所有字符…(例如，[0-9]与[908176354]是一样的。)…“应修改为”范围内的所有字符…(例如，[0-9]与[9081763542]是一样的。)…“

130页，3-11表名“脚本语言中的行锚点”应修改为“若干语言中的行锚点”

131页，第1段，“如果结合上面那一点”应修改为“结合第一点”

132页，第3段，“但是这段程序的执行单位不是一次表达式而是一次匹配”应修改为“但是，循环的单位不是单个的表达式，而以一组表达式的匹配”

134页，“中间一级不过是“语法（syntactic sugar）”，表达方式更美观而已，”应修改为“中间一级不过是用起来更方便而已（syntactic sugar）”

第4章

152页，倒数第1段，括号内，“抑制自己的天性”应修改为“克制自己的本能”

156 页，第3段，“也就是说“不到最后关头不能分胜负（It’s not over until the fat lady sings）”，但这段话又不符合本段的语境”
应修改为
“也就是说“不到最后关头不能分胜负（It’s not over until the fat lady sings）””

156页第3段第2行
原文：即使某个字表达式能够匹配
应改为：即使某个子表达式能够匹配

160页文字部分的第5行
原文：字符串的b之前（也就是当前的位置）匹配
应该为：字符串的c之前（也就是当前的位置）匹配

172页，第2段，“就可以命令正则引擎不必检查它们：「^(?>\w+)」”应修改为“就可以命令正则引擎不必检查它们：「^(?>\w+):」”

172页，最后一段，最后一个正则表达式(\.\d\d[1-9]?+)^\d+，应该修改为(\.\d\d[1-9]?+)\d+

173页，第一段，第2个正则表达式(?>M)+应修改为(?>M+)。

第5章

188页文字部分的第4段第2行结尾
原文：也不比担心
应该为：也不必担心

189页，倒数第9行，”我们也把能把匹配三位数的多选分支放在最前面，这样…”应修改为”我们就把能把匹配三位数的多选分支放在最前面，这样…”

191页，代码段中的注释大小写错误，“#利用正则表达式检测wholePath”应修改为“#利用正则表达式检测WholePath”

193页，第6行，”算式中的括号。我们…想到┌\bfoo$[^])*$┘，但这行不通。”应修改为”算式中的括号。我们…想到┌\bfoo$[^)]*$┘，但这行不通。”

194页，第5行，”┌\[^()]*($[^()]*$[^()]*)*\)┘“应修改为”┌$[^()]*(\([^()]*$[^()]*)*\)┘”

195页，倒数第1段，“虽然这个表达式比最开始的好得多”应修改为“虽然这个表达式比开头那个好一些”

197页，第3段，“所以，我们得用别的办法来解决”应修改为“所以，得想点别的办法”

197页，第4段，“仔细想想我们想要匹配的位于开始分隔符和结束分隔符之间的文本”应修改为“仔细想想要匹配的位于开始分隔符和结束分隔符之间的文本”

197页，倒数第3段，“如果回溯会导致不期望，与多选结构有关的匹配结果”应修改为“如果回溯会导致不期望的、与多选结构有关的匹配结果”

199页，第5段，“这个正则表达式曾被用作降解忽略优先量词的绝佳例子”应修改为“这个正则表达式曾被用作讲解忽略优先量词的绝佳例子”

199页，倒数第2段，“但它并不正确（其实这三个表达式都不正确）”应修改为“但它并没有错（其实这三个表达式都没有错）”

203页，标题“检查HTTP URL”应修改为“校验HTTP URL”，目录中也应同样修改

205页，代码段注释中，“零个或多个据点分隔的部分”应修改为“零个或多个点号分隔的部分”

210页最后一行
原文：导致逆序环视（？！44）失败
应改为：导致否定顺序环视（？！44）失败

第6章

225页，第2段，“对于没有转义字符的字符串来说，这样会一次读入整个字符串”应修改为“不包含转义字符的字符串，会被一次读入”

228页，倒数第3行，”从最后保存的状态开始回溯，在“…anise”处开始尝试…”应修改为”从最后保存的状态开始回溯，在“…anese”处开始尝试…”

233页，倒数第1段，“所以，对这个例子来说，多选结构要比字符组快22倍左右”应修改为“所以，对这个例子来说，字符组比多选结构快22倍左右”

234页，第4段，“新增的开销大约花费了5s的时间”应修改为“新增的开销大约是5秒”

234页正文部分第2行
原文：现在，测试字符串只是上面的长度的1/1000，而测试需要进行1000次。
应该为：现在，测试字符串只是上面的长度的1/1000，而测试需要进行1000000次。

246页，第1段，“也能够减少传动装置真正应用正则表达式的位置”应修改为“也能减少传动装置真正应用正则表达式的次数”

262页，倒数第12行，”举例来说，如果目标…，那么使用的自表达式就是…“应修改为”举例来说，如果目标…，那么使用的正则表达式就是…”

265页，第12行，”┌(\{[^}]*\)| +)*┘(它永远不会终止)。或许…“应修改为”┌(\{[^}]*\}| +)*┘(它永远不会终止)。或许…”

265页，第13行，表格中的”Special”应修改为”special”

265页，第14行，“ ┌\{[^]}*\}}”应修改为” ┌\{[^}]*\}┘”

265页，第15行，“ 我们得到┌\{[^]}*\)┘*”应修改为” 我们得到┌\{[^}]*\)*”

266页，第3行，“┌ *(\{[^]}*\} *)*┘”应修改为“┌ *(\{[^}]*\} *)*┘”

266页，倒数第2行，“每次[^\\”]+的匹配终止…”应修改为“每次┌[^\\”]+┘的匹配终止…”

266页，第3段，“你就能把这几条推广开来”应修改为“就能把这几条推广开来”

266页，倒数第4段，“事实上，如果点号不能匹配换行符”应修改为“事实上，如果点号能够匹配换行符”

269页，第1段，“不会在匹配时陷入徒劳的尝试”应修改为“无法匹配时会陷入徒劳的尝试”

271页，倒数第3行，”现在处理$field…”应修改为“#现在处理$field…”

274页上数第4行
原文：紧跟在x之后的斜线
改正：[^x]/ 是紧跟在不是x的字母后面的斜线

第7章

293页，倒数第1段，“动态作用域会临时“保护”全局变量”应修改为“动态作用域会把全局变量临时“遮蔽”起来”

296页，倒数第2段，“为方便起见，我们也可以给本地变量赋一个值 local($SomeVar)，这等于把undef赋值给$SomeVar”应修改为“为方便起见，我们也可以给 local($SomeVar)赋值，这等于给$SomeVar明确赋值，而不是使用undef”

299页，第3段，“分散在散落的 local、子程序和本地变量引用之间的复杂交互”应修改为“分布在散落的 local、子程序和本地变量引用之间的复杂交互”

300页，正文第1段，“你可以期望$ 的起点是开始尝试位置的文本,但它每次都是从整个字符串的开始位置开始的”应修改为“你可能认为$ 的起点是开始尝试位置的文本，其实它每次都是从整个字符串的开始位置开始的”

301页，倒数第1段，“明确设定的$1 等变量中，闭括号在最后”应修改为“明确设定的$1 等变量中，闭括号在最后的那对括号”

308页，标题“指定目标运算元”应修改为“指定匹配目标运算元”

326页，第2段，“split 没有返回的部分或全部的文本”应修改为“通常情况下split不会返回的部分或全部的文本”

327页，标题“嵌套代码结构”应修改为“内嵌代码结构”

356页，第1段，“不包含捕获型括号的正则表达式可以不必保存拷贝”应修改为“不包含捕获型括号的正则表达式可以不必保存副本”

361页，第4段，“这很适合检查单个的正则表达式的编译方法”应修改为“这很适合检查单个正则表达式的编译过程”

第8章

365页，第5行，“sjava.util.regex一经发布就给人留下了深刻印象”应修改为“java.util.regex一经发布就给人留下了深刻印象”

367页，倒数第7行，”\0octal要求开头为0，后接1到3位十进制数字。”应修改为”\0octal要求开头为0，后接1到3位八进制数字。”

368页，表头，”表8-3:java.util.regex 中Match和Regex的方法”应修改为”表8-3:java.util.regex 中Match和Regex的模式”

368页，表8-3，“Patern.UNIX_LINES”应修改为“Pattern.UNIX_LINES”，”Pattern.CANNON_EQ”应修改为”Pattern.CANON_EQ”

368页，表8-3倒数第3行，“对Unicode字符进行不区分大小写的匹配”应修改为“对非ASCII字符进行不区分大小写的匹配”

369页，倒数第4段，“Unicode block的支持要求使用‘In’前缀”应修改为“Unicode区块的支持必须使用‘In’前缀”

371页，第2段，“就我个人来说，更喜欢简称前两个为“pattern”和“matcher””应修改为“我自己更喜欢把前两者简称为“pattern”和“matcher””

371页，第16行，”IllegalAgumentException”应修改为“IllegalArgumentException”

371页，倒数第4行，”结果是‘matched [1st] from 12 to 15.’。在本章的所有例子…”应修改为“结果是‘matched [1st] from 11 to 14.’。在本章的所有例子…”

373页，第1行，“调用Patern.compile可能抛出两种类型的异常:如果…”应修改为“调用Pattern.compile可能抛出两种类型的异常:如果…”

374页，第13行，”…和hasTran-sparentBounds方法来修改和查询…”应修改为”…和hasTransparentBounds方法来修改和查询…”

374页，倒数第6段，“当前pattern的捕获型括号的数目”应修改为“当前pattern中捕获型括号的数目”

377页倒数第7行
原文：int end()
次方法返回整个匹配的终点的绝对偏移值
改为：此方法返回整个匹配的终点的绝对偏移值

377页，函数“String gropu(int num)”应修改为“String group(int num)”

377页，倒数第5行，“MatcheResult toMatchResult()”应修改为“MatchResult toMatchResult()”

377页，倒数第2行，“如果前一次匹配不成功，或者…调用 toMatcheResult”应修改为“如果前一次匹配不成功，或者…调用 toMatchResult”

378页，第5行
String regex = “(?x) ^(https?):// ([^/:]+) (?:(\\ d+))?”;
应修改为
String regex = “(?x) ^(https?):// ([^/:]+) (?::(\\ d+))?”;

378页倒数第3行，“string.replaceAll(regex,replacement)”应修改为“String.replaceAll(regex,replacement)”

388页，最后一段，“即检索范围不等于整个目标字符串”应修改为“即使检索范围不等于整个目标字符串也是如此”

389页，标题“构建扫描程序”应修改为“构建扫描程序的方法”

401页，倒数第6行，”不断创建-回收 Mather”应修改为“不断创建-回收 Matcher”

第9章

410页，第5段，“即用即编译（On-The-Fly Compilation）”应修改为“直接编译（On-The-Fly Compilation）”

410页，倒数第2段，“来进行“即用即编译”的编译”应修改为“来进行“直接编译”的编译”

432页，标题“支持函数”应修改为“辅助函数”

432页，倒数第4段，“还有一些静态的支持函数”应修改为“还有一些静态辅助函数”

438页，倒数第3段，“尽管涌出并不大”应修改为“尽管用处并不大”

第10章

442页，第3段，“十进制转义只能接受两到三位八位数值”应修改为“八进制转义只能接受两到三位八进制数字”

445页，倒数第5段，“第448也给出了一个“不好”的原因”应修改为“第448页给出了一个“不好”的理由”

455页，第3段，“这就是默认的配列方式”应修改为“这就是默认的排列方式”

459页，第3段，“这个简单的例子把HTML中的bold tag全部转换为大写”应修改为“这个简单的例子在HTML中的所有大写单词两端加上bold tag”

459页，倒数第4段，“下面这个扩展的例子把bold tag里的单词变为小写”应修改为“下面这个扩展的例子在添加bold tag的同时把单词转换为小写”

460页的表格，第三行开头应该为“数组数组”，第四行开头应该为“字符串数组”

2 Comments