经过各位读者和出版社的辛苦努力,《正则指引》终于上市了,以下是主要的购买链接:
亚马逊:http://www.amazon.cn/%E6%AD%A3%E5%88%99%E6%8C%87%E5%BC%95-%E4%BD%99%E6%99%9F/dp/B007X6O6J0/
当当:http://product.dangdang.com/product.aspx?product_id=22702127
京东:http://book.360buy.com/10972570.html
China-Pub:http://product.china-pub.com/199266
有趣的是,预售阶段就登上了京东的24小时分类畅销榜,感谢大家的厚爱。
From Life Sailor, post 《正则指引》上市了
家长应当和儿童,尤其是低龄儿童谈论“空气动力学”吗? 我的答案曾经是非常肯定的:不应当。不要说儿童,就是成年人也不见得理解这些抽象的概念,与儿童谈论这些名词,只会让人望而生畏。身为父母,我们应当做的是,以孩子能理解的、感兴趣的方式谈论相关的具体问题,但绝对不要提这些大词。 不过世界的奇妙就在于,父母对教育并没有绝对的权威,总是需要根据实际情况来修正自己的观点。在“空气动力学”的问题上,我就吃到了教训。 那是一个下午,家里小朋友在iPad上看完他最喜欢的Blippi(这个节目我之前介绍过,对80后父母来说,Blippi可以理解为“带你见识各种新鲜玩意的董浩叔叔”),忽然抬起头来问我:“爸爸,你知道什么是aerodynamics吗?” “什么?你问我知不知道什么是aerodynamics?”我的下巴都要掉下来了。“空气动力学”这种词还是上中学时,身为军迷的我们在《航空知识》上知道的。再往后英语好一些,能看原版科普视频了,才知道“空气动力学”的原文就是aerodynamics。可是,我家这个还没上小学的家伙,竟然就能真诚地瞪大眼睛,一本正经地问我“知不知道什么是aerodynamics”。 (more…)
我本来是不应该认识孟老师的。 2001年,我在寝室夜谈里第一次听到孟老师的名字。当时有同学说“公共选修课的《法学概论》讲得真好,那个老师叫孟繁超”,开始我不怎么在意,慢慢才发现这么说的人还不少。那个年月网上的资料正丰富,出版管制也不那么严格,刚进大学不久的我正自由自在地看得过瘾,心想“大学里的法学概论讲再好,能讲些什么,还不是教科书上老一套”,所以这种课,不听也罢。 但生活就在这么奇妙。那年冬天,有天中午我吃过饭正准备午睡,忽然有人敲门问“计算机系有位叫余晟的同学在这里吗?” 大中午的谁会来找我?我正好奇这个问题,门一推开就有同学喊“孟老师,孟老师来了”。 那是我第一次见到孟老师,中年人,国字脸,身材高大,打扮很精神,披在身后的深色大衣让我一下子想起电影里的斗篷。他笑眯眯地说“你是余晟?听同学说你搞电脑很厉害,我家的电脑坏了,想请你去看看。” (more…)
中国人大概都对历史有一些特别的偏好。对我们普通人来说,历史首先是文化的象征,一个人“懂历史”,基本等于这个人“有文化”;历史也是民族自豪感的来源,哪怕考古上仍然存在争议,但是“五千年文明”的说法是普通人都耳熟能详的。 不过等我长大之后才发现,这种偏好大概还有更深层次的原因,那就是历史看起来有种道德的意味,因为我们从小就熟悉“以史为鉴”的智慧,也熟悉各种“历史的选择”:每当我们对现实感到失望、困惑的时候,我们经常去历史——而不是先贤的智慧中——中寻找解答。找到曾经发生的类似的故事,就可以预言未来的结局。 于是乎,失望也好、困惑也罢,总归会有光明的未来,历史总会给我们支撑的信念。 我曾经很相信,熟谙历史是种智慧,而且是深层次的智慧。但是看得越多、经历得越多,我就越觉得,这很难称之为“智慧”。 为什么? (more…)
“无人出租车要来了”。以百度“萝卜快跑”为代表的无人出租车,眼看就要在国内多个城市成规模运营。 熟悉IT的人都知道,IT的独特优势就在于“大规模扩展时边际成本极低”。在软件时代,微软开发的Windows,多卖一份的成本只是多刻录一张光盘而已。在无人驾驶时代,从10辆车到10万辆车的成本,也遵循同样的规律。换句话说,一旦模式“跑通”了,就可以迅速大规模铺开。无人出租车的大规模应用,也是“指日可待”了。 只不过,新技术这一次似乎没有那么激动人心,反而引起了很多争议——无人驾驶出租车大规模推广,会不会影响广大出租车、网约车车主的收入甚至生计?如果是,这样的技术进步,真的是我们所需要、所期待的吗?对于这个问题,不同的人有相差迥异的答案。 按照我的观察,许多人对此是相当乐观的。理由在于,“技术的每一次飞跃发展,虽然有阵痛,最终都创造了更多的新岗位”。既如此,无人出租车短期“看似”抢了许多人的饭碗,但也只是短期的“阵痛”而已。看看历史,纺织机的发明,蒸汽机的改良,汽车的诞生,无不证明了“阵痛说”的正确性。 坦白说,这种观点我是怀疑的。 (more…)
因为小朋友放暑假,近期带小朋友回国待了几个礼拜。最深的感受就是标题所说的:松弛一点,愉快一点。 我第一次突出意识到这点,是在上海下飞机乘地铁。当时我们乘的直梯就要关门,远远看见有个年轻小伙子跑过来,我连忙按住开门按钮,并招呼他”别着急,慢慢来“,等他进了轿厢才关门。本来我以为大家起码会打个招呼,露个笑脸,因为我已经习惯如此,但完全出乎我意料的是,他进来之后对我们完全视若不见,自顾自掏出手机,盯着看得入迷。 我继而发现,不管是在电梯里,站台上,还是车厢里,虽然四下里都是广播”请扶好站稳,抓好扶手,不要看手机“,但是似乎人人都盯着自己的手机。年轻人在打手机游戏,年纪大一点的在滑各种小视频,还有不少人在聊天软件里打字如飞……对着屏幕的表情都很生动,可是一旦抬起头来,似乎马上又换了个人。 后来又有一次,我乘地铁的时候,因为比较拥挤,一个小伙子倒退时踩了我一脚,他大概意识到了,很快把脚挪开,脸上闪过一丝不安,马上又恢复正常,我也没有计较。不幸的是,过了十来分钟,他又踩了我一脚,同样是先有一点不安,很快又恢复正常。 这次我忍不了了,于是我开口告诉他:“小伙子,你已经踩了我两脚了。” (more…)
前几天,国内朋友发来一条消息,原来是乌克兰F-16坠落,飞行员丧生的新闻。我本来以为他要讨论此事的真假和原委,他真正的问题却完全出乎我的意料: 新闻里说,飞行员叫阿列克谢·“月鱼”·梅斯,对应原文是Alexei “Moonfish” Mes,为什么会有人把“月鱼”写在自己的名字里,而且还打引号。 之前看新闻,乌克兰还有一个著名的飞行员叫安德烈·“果汁”·皮尔希科夫(Andrii “Juice” Pishchykov),怎么“果汁”也是正式的名字? 未必Moonfish和Juice之类,还有什么特别的含义吗?…… 这堆问题看的我有点想笑,因为自己以前也很苦恼外国人的名字,只有在国外长期生活,才逐渐搞清楚这其中的名堂。所以,除了解答朋友的问题,我也把自己的解释写下来,搞清楚两个最不容易理解的点,就不会对外国人名有那么多问题了。 (more…)
View Comments
余老师,我说一些前面没有被指出的错误吧!
引子:第 IV 页的 re.search 和 re.findall 两个函数中的 pattern 和 string 都写反了
P3:例 1-3 中关于 Python 的说明一行"能匹配则返回 RegexObject",应该是"Match object"
P5:第二段中第三行中“请参考第 241 页”,应该是“21 页”吧
P34:例 3-3 中的第二个 re.search 中 re.search(idCardRegex, "1101018001017016") != None 的结果应该为 False,因为给定的数字是 16 位的,而非 15 位
P38:第二段结尾部分中,邮箱的用户名不可能为空吧?所以 {0,64} 最好改为 {1,64},同理还有第 39 的相关部分;还有 38 页的前一部分用 [\w.]{0,64} 来匹配用户名,但是到了 38 页的最后一段和 39 页的例子当中,却变成了 [-\w.]{0,64},多了一个 '-',我记得邮箱中好像不允许出现 '-' 的
P40:第一行代码 re.search(idCard, "1101018001017016") != None 的结果应为 False
P41:表中最后一行对分钟的匹配 (0?[1-9]|[0-5]\d|60) 中间出现了重复,改成 (0?[1-9]|[1-5]\d|60) 估计更好一点
P41:最后一段,“仔细分析 tag 中可能出现 > 它只可能作为属性...”该句中"它"前面应该加一个逗号
抱歉回复晚了。
非常感谢你的细心回复,这些地方确实是我弄错了,惭愧,我已经把它们全部收录到勘误列表中了。
如果你看到其他错误,请继续告诉我。
另外,希望这本书对你有用。
刚才的回复中,
“P40:第一行代码 re.search(idCard, “1101018001017016″) != None 的结果应为 False”
应该改为“P40:第一行代码 re.search(idCardRegex, “1101018001017016″) != None 的结果应为 False“,一不小心写错了。。。
老师您好,在《精通正则表达式》P162 页中有个测试,就是[0-9]* 这个正则表达式是否会保存 a ▲1234 num这个状态的问题。我测试了一下,我使用ab[0-9]*123cd依然能够匹配ab123cd,这也就说明它是会保存该状态的,但是在P164页的答案中却说不会保存?麻烦您解释下
你好,这里书上说的是没错的。
用[0-9]*匹配a1234,其结果是可以匹配,但匹配的字符串是空,实际上就是a之前的空字符串,整个匹配到这里就结束了,不会继续试探,所以不存在状态a ▲1234 num。
用ab[0-9]*123cd能匹配ab123cd,前面新增了ab,所以[0-9]*开始匹配时,是从1开始的;如果你需要类比,则应当用ab[0-9]*123cd匹配aba123cd,这样看得很明显:)
余老师您好,73页表达式匹配hostname中疑似发现一个错误。
原文:
(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))((?!-)[-a-zA-Z0-9]{1,63}\.)*((?!-)[-a-zA-Z0-9]){1,63}
我认为第二段的(?!-)[-a-zA-Z0-9]不应再加上括号,否则环视(?!-)对每次[-a-zA-Z0-9]匹配都生效,所以不能匹配形如foo-bar的hostname
正确的应该是
(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))((?!-)[-a-zA-Z0-9]{1,63}\.)*(?!-)[-a-zA-Z0-9]{1,63}
望确认。
你说的没错,感谢指出,我已经收录到勘误列表里了。
补充
64页中间一段中
\Z和\的主要区别在于:
应该是
\Z和\z的主要区别
是的,这里确实是我写错了,非常感谢你指出,我已经收录到勘误列表里面了。
老师,麻烦您回答下23楼的问题,谢谢
已经回答了:)
余老师,最近有发现了一些小错误,可能与上面的某个重复,T_T。
P43,中间部分,“正则表达式是(jeff|jefferey)还是(Jeffrey|jeff),结果是...”这一句如果要与下面例子对应的话,应该改为“正则表达式是(jeff|jeffrey)还是(jeffrey|jeff),结果是...”。
P49,倒数第二行中的表达式“”前少了一个“/”,应该改为""。
P55,3.4节最后一段,“为了使代码简洁和易于”,后面好像少了一些内容。
P56,例3-36中,第二行与第一行重复,第三行的“# => True”应该删掉;该页的倒数第三行的正则表达式中,"{2"之后少了一个"}",应该为"{2}"。
P60,例4-2的结果不对,应该为“tomorrow I will wear in brown standing in row 10 next to the rowdy guy”。
P62,例4-3的第一行正则表达式中,“last line”前面多了一个”\r“。
P63,例4-4第一行中,“ast line”前面少了一个“l”。
P71,例子4-17下面一段,“其中(?!\一种组合”,读起来有点不知所云。
P75,例4-21中的(?!=ab)应为(?<=ab)。
P78,中间的例子(原本编号应为例 4-23)没有编号,这就造成了P79中第一段最后一行“具体的例子可见例4-24”和该页最后一段的“代码见例4-25”指向错误。
P87,第二段下面的正则表达式结尾少了一个“$”;例5-6中的“# enable multiline and extended mode”去掉“multiline mode”;下一行的“# start of whoe regex”应为“# start of whole regex”,同理还有P88页的开头。
P88,表格下面那一段的第一行“例5-6同时指定了...”应为“例5-5同时指定了...”。
P90,例5-7中最后一句的执行结果部分,后两个词各多一个“B”。
P91,例5-8下面一段第二行“\1不在区分大小写模式...”应为“\1不在不区分大小写模式...”,第三行“\1处在区分大小写模式...”应为“\1处在不区分大小写模式...”。
P98,表6-7下面那一段的倒数第二行,"b)"实为"c)"。
P101,例6-9的最后一行,“re.search(r"[()", "(") != None”应为“re.search(r"[(]", "(") != None”;下面段落的倒数第三行,“它可以匹配除^、a、b之外的任何字符”,应该是“它可以匹配的字符是^、a、b”。
P102,6.2.1节的例子中的最后一行,正则表达式周围没有包含在两个分割符内,一般取分割符为"/"。
P107,表6-10的第三个正则表达式“(ab)+”应该是“a+(bc)”。
P116,例7-9下面的一段的最后一行,“\s匹配\S不能匹配的字符”虽然说法没错,但是如果与前面对应的话,改成“\S匹配\s不能匹配的字符”好一点。
P118,例7-12下一段的第二行,"\b\regex\b"应为"\bregex\b"。
P119,倒数第二段的参考页应该是253页,倒数第一段的参考页好像应该是234页。
P120,第一段的参考页好像应该是第6页,而不是105页。
P135,脚注1中的页面引用出了问题,我感觉应该是144页。
P136,最后一行,“需要关注只是”,改成“需要关注的是”好一点。
P144,第三段的否定逆序环视写错了,应为“?<!”,书上写成了“?!<”。
P147,表格中关于 Python 的部分,Python 中没有 re.find 这个函数,我感觉您的意思好像是再说 re.findall,而后面的“逐步进行”应该为“一次性进行”。
P148,例9-3的题目写错了,应该是“函数式处理...”。
P163,例9-14的第二行中的正则表达式好像多了一个"."。
P165,例9-16中的正则表达式感觉还是不能拿来判断闰年,因为同为闰年或者非闰年时,为返回不同的结果;我觉得改为
"return int(str) % 400 == 0 or (re.search(r"\A\d{2}(?!00)([02468][048]|[13579][26])\Z", str))"
可能会好一点;但该表达式也不是通用的,因为它不能判断五位或以上位数表示的年份,我尝试用多选分支写了个判断闰年的通用表达式,但是非常复杂,感觉失去了使用正则表达式的意义。
P239,最后一段的否定逆序环视写错了,应为"(?<!...)"。
P245,第一段的 re.searh 应该全部为 re.match,最后一句的执行结果为 False。
P247,倒数第二个正则表达式的执行结果“One TWO THREE”应为“One Two Three”。
Hello,非常感谢你指出的问题,我已经全部收录到勘误列表里去了。
在本书繁体版要面世之前,可以解决这么多的错漏,真是高兴又惭愧。
P49,我刚刚说的有点问题:倒数第二行中的表达式“”前少了一个“/”,应该改为“”。
不过,虽然有点小错误,这本书深入浅出,看完后还是受益匪浅的,谢谢余老师。
哇,原来上一句是被blog自动给拦截了,T_T。总之就是P49页的倒数第二行的正则表达式有点小问题,余老师应该可以看到。
同理,P60的html标签也被转义了,不过老师应该能发现错误。
余老师您好,以下是我根据您博客中最新的勘误表修改后发现书中的一些问题。
下面是从excel中复制出来的,格式有些乱。
页数 页内位置 修改前 修改后 说明
15 1.8节第二段第二行 Per Perl
48 例3-22上两行 原生字符串(P93) - 应为P9或者P96
56 例3-36 - - 前两行相同
61 第二段第二行 具体情况(P59) - 应为后边Unicode处某内容
65 例4-10第三行 lin1 line1
65 例4-10该页倒数第三行 lin1 line1
68 4.3第二段第一行 ][^>]*> ]*> 保持和第二章勘误的修改一致
69 图4-2上数第二段 - - 最后一个单引号格式与前面的不统一
69 图4-2上数一段 - - 最后一个单引号格式与前面的不统一
69 图4-2中间的表达式 ('[^']*' "[^"]*" [^'">])+ ('[^']*'|"[^"]*"|[^'">])+ 中间的表达式缺少了|
70 图4-3 - - 第二行和第四行的匹配位置反了
110 注释1 - - 书中标注的是第一行的ASCII编码后边,注释内容是Unicode编码,应该改为第二行Unicode编码后
118 最后一行 表7-4举列列出 表7-4举例列出
141 第5段最后一句 所以下面几种讨论“不超过63个字符”部分的匹配 - 但是下面讨论的是不出现两个连续的点号的匹配
143 第二段第二行 精确是则要保证正则表达式 精确则是要保证正则表达式
147 表格下第二段第一句 如果使用函数式正则表达式采用的是面向对象式处理 如果正则表达式采用的是面向对象式处理 应该没有“使用函数式”几个字
150 第二组列表下一段第三行 。, 。 最后有一个。和一个,相连
150 第三组列表(1) (?=\A.{6, 12}\z) (?=\A.{6,12}\z) {6,12}中间多了个空格
154 第一行 同时需要留下的部分 同时留下需要的部分
157 代码下面一段第二行 deletgate delegate
158 倒数第二行 将它设定为一个小于n的正数,则会进行n-1次切分(只有Python是例外,它会切分n次),返回数组的最后元素包含了“正则表达式第n-1次匹配右侧的所有文本” - 这里第一次用的n是指最多能切分的次数,而后边的n是指设定的切分次数,前后n的含义不统一
162 9.4.1第三行 如果只需要查找;同样, 这中间应该少了部分内容
162 9.4.1第三行 如果只需要判断字符串开头以某个固定字串开头,以某个固定字串结尾 如果只需要判断字符串以某个固定字串开头,以某个固定字串结尾 应当去掉“字符串开头”中的“开头”两字
234 第一段最后一行 因此\d也可以直接写成字符串\\d 因此\d也可以直接写成字符串\d 多出了一个字体错误的\
235 表格中的忽略优先量词 ?* ?+ *? +?
240 第一段代码后两行 - - 注释中的#格式有误
245 14.3.6标题 re.findall(pattern, sting[, flags]) re.findall(pattern, string[, flags])
247 倒数第二行代码 - - 回调函数toUpper在上文中没有出现
勘误12行 页数 25 35
勘误14行 页数 31 35
勘误17行 页内位置 第2段 第1段
勘误54行 页内位置 5.4倒数第3行 5.4倒数第3段
勘误54行 修改前 例5-6同时制定了两种模式 例5-6同时指定了两种模式
勘误57行 页内位置 例5-8下面第1段第2行 例5-8下面第1段第3行
勘误62行 页内位置 例6-9下面一行的倒数第3行 例6-9下面一段的倒数第3行
这本书写得很好,以前对正则表达式总是一知半解的,每次用都要现查,学的一点都不彻底,这回很多东西都弄明白了,感谢余老师。
Hello,感谢指出。
你能直接在Excel中标注,然后发给我吗?我给你发邮件了。