Categories: 没想好放哪

《正则指引》上市了

本文由Yurii原创,转载请注明来源: Life Sailor

本文链接 《正则指引》上市了


经过各位读者和出版社的辛苦努力,《正则指引》终于上市了,以下是主要的购买链接:

亚马逊:http://www.amazon.cn/%E6%AD%A3%E5%88%99%E6%8C%87%E5%BC%95-%E4%BD%99%E6%99%9F/dp/B007X6O6J0/

当当:http://product.dangdang.com/product.aspx?product_id=22702127

京东:http://book.360buy.com/10972570.html

China-Pub:http://product.china-pub.com/199266

有趣的是,预售阶段就登上了京东的24小时分类畅销榜,感谢大家的厚爱。

 

 

 

Yurii

View Comments

  • 余老师,我说一些前面没有被指出的错误吧!
    引子:第 IV 页的 re.search 和 re.findall 两个函数中的 pattern 和 string 都写反了
    P3:例 1-3 中关于 Python 的说明一行"能匹配则返回 RegexObject",应该是"Match object"
    P5:第二段中第三行中“请参考第 241 页”,应该是“21 页”吧
    P34:例 3-3 中的第二个 re.search 中 re.search(idCardRegex, "1101018001017016") != None 的结果应该为 False,因为给定的数字是 16 位的,而非 15 位
    P38:第二段结尾部分中,邮箱的用户名不可能为空吧?所以 {0,64} 最好改为 {1,64},同理还有第 39 的相关部分;还有 38 页的前一部分用 [\w.]{0,64} 来匹配用户名,但是到了 38 页的最后一段和 39 页的例子当中,却变成了 [-\w.]{0,64},多了一个 '-',我记得邮箱中好像不允许出现 '-' 的
    P40:第一行代码 re.search(idCard, "1101018001017016") != None 的结果应为 False
    P41:表中最后一行对分钟的匹配 (0?[1-9]|[0-5]\d|60) 中间出现了重复,改成 (0?[1-9]|[1-5]\d|60) 估计更好一点
    P41:最后一段,“仔细分析 tag 中可能出现 > 它只可能作为属性...”该句中"它"前面应该加一个逗号

    • 抱歉回复晚了。
      非常感谢你的细心回复,这些地方确实是我弄错了,惭愧,我已经把它们全部收录到勘误列表中了。
      如果你看到其他错误,请继续告诉我。
      另外,希望这本书对你有用。

  • 刚才的回复中,
    “P40:第一行代码 re.search(idCard, “1101018001017016″) != None 的结果应为 False”
    应该改为“P40:第一行代码 re.search(idCardRegex, “1101018001017016″) != None 的结果应为 False“,一不小心写错了。。。

  • 老师您好,在《精通正则表达式》P162 页中有个测试,就是[0-9]* 这个正则表达式是否会保存 a ▲1234 num这个状态的问题。我测试了一下,我使用ab[0-9]*123cd依然能够匹配ab123cd,这也就说明它是会保存该状态的,但是在P164页的答案中却说不会保存?麻烦您解释下

    • 你好,这里书上说的是没错的。
      用[0-9]*匹配a1234,其结果是可以匹配,但匹配的字符串是空,实际上就是a之前的空字符串,整个匹配到这里就结束了,不会继续试探,所以不存在状态a ▲1234 num。
      用ab[0-9]*123cd能匹配ab123cd,前面新增了ab,所以[0-9]*开始匹配时,是从1开始的;如果你需要类比,则应当用ab[0-9]*123cd匹配aba123cd,这样看得很明显:)

  • 余老师您好,73页表达式匹配hostname中疑似发现一个错误。
    原文:
    (?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))((?!-)[-a-zA-Z0-9]{1,63}\.)*((?!-)[-a-zA-Z0-9]){1,63}

    我认为第二段的(?!-)[-a-zA-Z0-9]不应再加上括号,否则环视(?!-)对每次[-a-zA-Z0-9]匹配都生效,所以不能匹配形如foo-bar的hostname

    正确的应该是
    (?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))((?!-)[-a-zA-Z0-9]{1,63}\.)*(?!-)[-a-zA-Z0-9]{1,63}
    望确认。

    • 你说的没错,感谢指出,我已经收录到勘误列表里了。

  • 补充
    64页中间一段中
    \Z和\的主要区别在于:
    应该是
    \Z和\z的主要区别

    • 是的,这里确实是我写错了,非常感谢你指出,我已经收录到勘误列表里面了。

  • 余老师,最近有发现了一些小错误,可能与上面的某个重复,T_T。
    P43,中间部分,“正则表达式是(jeff|jefferey)还是(Jeffrey|jeff),结果是...”这一句如果要与下面例子对应的话,应该改为“正则表达式是(jeff|jeffrey)还是(jeffrey|jeff),结果是...”。
    P49,倒数第二行中的表达式“”前少了一个“/”,应该改为""。
    P55,3.4节最后一段,“为了使代码简洁和易于”,后面好像少了一些内容。
    P56,例3-36中,第二行与第一行重复,第三行的“# => True”应该删掉;该页的倒数第三行的正则表达式中,"{2"之后少了一个"}",应该为"{2}"。
    P60,例4-2的结果不对,应该为“tomorrow I will wear in brown standing in row 10 next to the rowdy guy”。
    P62,例4-3的第一行正则表达式中,“last line”前面多了一个”\r“。
    P63,例4-4第一行中,“ast line”前面少了一个“l”。
    P71,例子4-17下面一段,“其中(?!\一种组合”,读起来有点不知所云。
    P75,例4-21中的(?!=ab)应为(?<=ab)。
    P78,中间的例子(原本编号应为例 4-23)没有编号,这就造成了P79中第一段最后一行“具体的例子可见例4-24”和该页最后一段的“代码见例4-25”指向错误。
    P87,第二段下面的正则表达式结尾少了一个“$”;例5-6中的“# enable multiline and extended mode”去掉“multiline mode”;下一行的“# start of whoe regex”应为“# start of whole regex”,同理还有P88页的开头。
    P88,表格下面那一段的第一行“例5-6同时指定了...”应为“例5-5同时指定了...”。
    P90,例5-7中最后一句的执行结果部分,后两个词各多一个“B”。
    P91,例5-8下面一段第二行“\1不在区分大小写模式...”应为“\1不在不区分大小写模式...”,第三行“\1处在区分大小写模式...”应为“\1处在不区分大小写模式...”。
    P98,表6-7下面那一段的倒数第二行,"b)"实为"c)"。
    P101,例6-9的最后一行,“re.search(r"[()", "(") != None”应为“re.search(r"[(]", "(") != None”;下面段落的倒数第三行,“它可以匹配除^、a、b之外的任何字符”,应该是“它可以匹配的字符是^、a、b”。
    P102,6.2.1节的例子中的最后一行,正则表达式周围没有包含在两个分割符内,一般取分割符为"/"。
    P107,表6-10的第三个正则表达式“(ab)+”应该是“a+(bc)”。
    P116,例7-9下面的一段的最后一行,“\s匹配\S不能匹配的字符”虽然说法没错,但是如果与前面对应的话,改成“\S匹配\s不能匹配的字符”好一点。
    P118,例7-12下一段的第二行,"\b\regex\b"应为"\bregex\b"。
    P119,倒数第二段的参考页应该是253页,倒数第一段的参考页好像应该是234页。
    P120,第一段的参考页好像应该是第6页,而不是105页。
    P135,脚注1中的页面引用出了问题,我感觉应该是144页。
    P136,最后一行,“需要关注只是”,改成“需要关注的是”好一点。
    P144,第三段的否定逆序环视写错了,应为“?<!”,书上写成了“?!<”。
    P147,表格中关于 Python 的部分,Python 中没有 re.find 这个函数,我感觉您的意思好像是再说 re.findall,而后面的“逐步进行”应该为“一次性进行”。
    P148,例9-3的题目写错了,应该是“函数式处理...”。
    P163,例9-14的第二行中的正则表达式好像多了一个"."。
    P165,例9-16中的正则表达式感觉还是不能拿来判断闰年,因为同为闰年或者非闰年时,为返回不同的结果;我觉得改为
    "return int(str) % 400 == 0 or (re.search(r"\A\d{2}(?!00)([02468][048]|[13579][26])\Z", str))"
    可能会好一点;但该表达式也不是通用的,因为它不能判断五位或以上位数表示的年份,我尝试用多选分支写了个判断闰年的通用表达式,但是非常复杂,感觉失去了使用正则表达式的意义。
    P239,最后一段的否定逆序环视写错了,应为"(?<!...)"。
    P245,第一段的 re.searh 应该全部为 re.match,最后一句的执行结果为 False。
    P247,倒数第二个正则表达式的执行结果“One TWO THREE”应为“One Two Three”。

    • Hello,非常感谢你指出的问题,我已经全部收录到勘误列表里去了。
      在本书繁体版要面世之前,可以解决这么多的错漏,真是高兴又惭愧。

  • P49,我刚刚说的有点问题:倒数第二行中的表达式“”前少了一个“/”,应该改为“”。
    不过,虽然有点小错误,这本书深入浅出,看完后还是受益匪浅的,谢谢余老师。

  • 哇,原来上一句是被blog自动给拦截了,T_T。总之就是P49页的倒数第二行的正则表达式有点小问题,余老师应该可以看到。

    • 同理,P60的html标签也被转义了,不过老师应该能发现错误。

  • 余老师您好,以下是我根据您博客中最新的勘误表修改后发现书中的一些问题。

    下面是从excel中复制出来的,格式有些乱。

    页数 页内位置 修改前 修改后 说明
    15 1.8节第二段第二行 Per Perl
    48 例3-22上两行 原生字符串(P93) - 应为P9或者P96
    56 例3-36 - - 前两行相同
    61 第二段第二行 具体情况(P59) - 应为后边Unicode处某内容
    65 例4-10第三行 lin1 line1
    65 例4-10该页倒数第三行 lin1 line1
    68 4.3第二段第一行 ][^>]*> ]*> 保持和第二章勘误的修改一致
    69 图4-2上数第二段 - - 最后一个单引号格式与前面的不统一
    69 图4-2上数一段 - - 最后一个单引号格式与前面的不统一
    69 图4-2中间的表达式 ('[^']*' "[^"]*" [^'">])+ ('[^']*'|"[^"]*"|[^'">])+ 中间的表达式缺少了|
    70 图4-3 - - 第二行和第四行的匹配位置反了
    110 注释1 - - 书中标注的是第一行的ASCII编码后边,注释内容是Unicode编码,应该改为第二行Unicode编码后
    118 最后一行 表7-4举列列出 表7-4举例列出
    141 第5段最后一句 所以下面几种讨论“不超过63个字符”部分的匹配 - 但是下面讨论的是不出现两个连续的点号的匹配
    143 第二段第二行 精确是则要保证正则表达式 精确则是要保证正则表达式
    147 表格下第二段第一句 如果使用函数式正则表达式采用的是面向对象式处理 如果正则表达式采用的是面向对象式处理 应该没有“使用函数式”几个字
    150 第二组列表下一段第三行 。, 。 最后有一个。和一个,相连
    150 第三组列表(1) (?=\A.{6, 12}\z) (?=\A.{6,12}\z) {6,12}中间多了个空格
    154 第一行 同时需要留下的部分 同时留下需要的部分
    157 代码下面一段第二行 deletgate delegate
    158 倒数第二行 将它设定为一个小于n的正数,则会进行n-1次切分(只有Python是例外,它会切分n次),返回数组的最后元素包含了“正则表达式第n-1次匹配右侧的所有文本” - 这里第一次用的n是指最多能切分的次数,而后边的n是指设定的切分次数,前后n的含义不统一
    162 9.4.1第三行 如果只需要查找;同样, 这中间应该少了部分内容
    162 9.4.1第三行 如果只需要判断字符串开头以某个固定字串开头,以某个固定字串结尾 如果只需要判断字符串以某个固定字串开头,以某个固定字串结尾 应当去掉“字符串开头”中的“开头”两字
    234 第一段最后一行 因此\d也可以直接写成字符串\\d 因此\d也可以直接写成字符串\d 多出了一个字体错误的\
    235 表格中的忽略优先量词 ?* ?+ *? +?
    240 第一段代码后两行 - - 注释中的#格式有误
    245 14.3.6标题 re.findall(pattern, sting[, flags]) re.findall(pattern, string[, flags])
    247 倒数第二行代码 - - 回调函数toUpper在上文中没有出现
    勘误12行 页数 25 35
    勘误14行 页数 31 35
    勘误17行 页内位置 第2段 第1段
    勘误54行 页内位置 5.4倒数第3行 5.4倒数第3段
    勘误54行 修改前 例5-6同时制定了两种模式 例5-6同时指定了两种模式
    勘误57行 页内位置 例5-8下面第1段第2行 例5-8下面第1段第3行
    勘误62行 页内位置 例6-9下面一行的倒数第3行 例6-9下面一段的倒数第3行

    这本书写得很好,以前对正则表达式总是一知半解的,每次用都要现查,学的一点都不彻底,这回很多东西都弄明白了,感谢余老师。

    • Hello,感谢指出。
      你能直接在Excel中标注,然后发给我吗?我给你发邮件了。

Recent Posts

德国生活点滴:歧视比你想象的要复杂(续)

在上一篇文章里,我列举了一些种族歧视现象的亲身经历,引发了许多读者的讨论。但是让我略感遗憾的是,许多人大概没有注意文章的标题,没有觉察到关键是“比想象的要复杂”,所以直接给出了一个简单的论断。 我的本意绝不是强化已有的简单粗疏的刻板印象,而是希望让大家知道,种族歧视这回事,有许多的侧面和细节。了解这些侧面和细节,有助于我们形成更立体的认知。 于是就有了下面这些内容,希望能引发大家的思考。 一 种族歧视是一种最简单粗暴的歧视。 许多人都知道,“歧视”的英文是discriminate,准确的意思是“区别对待”。既然要区别对待,就自然首先必须有办法区分。目力所及,似乎没有人愿意“区别对待”与自己完全同样的人,而总是要先找出一点区别来,再实行区别对待。 所以,种族、口音、家庭出身、经济能力等等各种因素,都可以成为“区别”的指标,由此催生出区别对待。在这些因素当中,种族大概是最容易识别的特征——判断口音需要等对方开口,家庭出身、经济能力等等因素就更是要全面接触才可能了解。唯有种族,具体来说,绝大多数时候是相貌和肤色,是可以远远一眼就望见的。 也恰恰是因为这个原因,种族歧视特别容易引起反感。 这些年来,我得到的一条重要的生活经验是,如果你希望指出对方的问题,但又不纯粹是为了激怒对方,那么最好不要归因为一些木已成舟,对方无法改变的因素,否则对方多半会恼羞成怒。 举个例子,你觉得某人的口语表达还可以更好一点,完全可以直接给出具体的建议。但是如果从“经济不发达地区来的人就是口语差”,或者“个子矮的人就是没自信心来表达”,那几乎一定会制造矛盾。因为“口语表达”是可以改进的,加以锻炼将来肯定更好,而“不发达地区来的人”和“个子矮的人”就像烙印一样,是无法摆脱的。这种话说出来,对方哪怕有意愿改进,也会觉得无奈甚至恼怒。 种族歧视也是这样,“种族”同样是一种烙印,是无法摆脱的。所以当对某些人的判断与种族挂钩的时候,他或她必然感到无奈甚至愤怒。况且老话说“人上一百,形形色色;人上一万,千奇百怪”。哪怕是同一个种族的人,也可能在肤色、相貌之外完全找不到相同点。先入为主地用种族去对其他人下判断,无论是从情感反应上,还是从逻辑上,都是站不住脚的。 (more…)

3 weeks ago

德国生活点滴:歧视比你想象的要复杂

去年初的时候,小朋友冰球俱乐部来了个新教练Robo。Robo来自加拿大,总是一副很健谈很乐观的样子,而且很喜欢放音乐,把整个训练场搞得热情四射。最关键的是,小朋友们好像都很喜欢他,不但许多动作耐心示范,对每个人的指导也相当到位。而且,他的英语很好,人又很喜欢开玩笑,所以我们交谈很多,他总是跟我说:“你家的小朋友超级酷的,不要给他太大压力,只要他自己运动起来足够自在,能够持续练下去,就是最好的。” 没想到的是,到去年9月份,Robo忽然神秘失踪了,没有任何征兆,也没有任何说明,就此人间蒸发了一般。问其他的教练,也是语焉不详。小朋友训练完,偶尔会失落地跟我说“好久没看到Robo了,不知道他哪里去了。” 3月份的时候,一个偶然的机会,我又见到了Robo,虽然当时时间很紧张,只是打了个照面,但我要他留下了联系方式。 当天晚上我问他:哥们,你怎么忽然就不见了,大家都很想你啊。 过会儿我收到他的回复:我也很想念小孩子们,你儿子很酷……我现在没在那个俱乐部了,因为其他几个教练总是或明或暗地针对我,仅仅因为我的肤色,这是我受不了的。 (more…)

3 weeks ago

在德国, 全远程+共享空间办公,是什么体验?

注:原文发布于2023年1月16日 到1月份为止,我已经体验了几个月的全远程+共享空间办公了。有不少朋友听说之后很有兴趣,问我到底是什么感觉,所以我简单介绍下个人的体验。 背景 2019年末、2020年初开始在全球流行的Covid-19对远程办公来说,绝对是黑天鹅一般的存在。因为疫情导致的社交隔离措施,极大影响了各大公司的正常运转。 所幸,IT类公司受到的影响比较小,只要求员工“面对屏幕编程”,不必亲临现场。所以,许多IT公司也谨小慎微地开展了远程办公的试验。 从我所知道的结果来看,不少美国公司并不特别喜欢远程办公,比如Google,一旦社交隔离措施有所放松,就忙不迭要求员工回到办公室,盖因为公司认为远程办公严重影响合作效率。 与此相反,不少德国公司反倒是逐渐适应了远程办公的节奏,纷纷降低对员工“到办公室上班”的要求,许多公司甚至可以支持百分百的远程办公。 这里要提到的是,德国公司说的“远程办公”往往是货真价实的“远程”,而不是一些人理解的“家和办公室在同一个城市,只是不用去办公室”而已。 因为德国IT行业缺人严重,而且许多德国公司并没有那么“互联网”,而是依托实业开展业务,所以据我所知,目前不少公司非但没有裁员,反而都在大力招人。 (more…)

1 month ago

成年人找工作,不值得那么多愁善感

注:本文发布于2023年2月6日 最近硅谷几大公司都在裁员,看了些报道,被裁的员工真是不好过。损失经济来源不说,有些人还面临身份问题,这可真是屋漏偏逢连夜雨。 我也留意到,不少被裁的人会不停追问自己:为什么我会遇到这样的事情?为什么这样的不幸会降临到我头上?…… 实话说,我挺能理解这种态度。这挫折如此巨大,似乎又来得全无预兆,不由得让人对命运、对人生、对世界产生深重的怀疑。尤其是对已经走入社会,取得一定成就(如果非要抠字眼,那就用“进展”吧)的人来说,更是如此。 但是我更想说,如果被裁员了,当务之急是赶紧找到下一份工作,哪怕只是机械地行动。要知道,成年人找工作,容不下那么多愁善感。 我之所以这么说,是有切身经历为基础的。之前我讲过找德国工作的经历。最开始是信心十足的,因为虽然毕业多年,手艺没丢,基础还在,随时打开leetcode,中等难度题目基本都不在话下,不但能解对,解法也基本接近最优。既然网上都说“刷题就能找到工作”,估计自己应该没大问题。 没想到真的找起工作来,仍然充满了意想不到的挫折。如果不相信,我且举几个例子吧。 (more…)

1 month ago

我读《园丁与木匠》

虽然早就听说《园丁与木匠》是关于育儿的好书,但一直没开始读。最近终于翻开这本书,才发现属于“拿起就很难放下”的类型,加班加点读完,收获不少。 关于这本书的价值,已经有许多书评讨论过了,所以我想略过微言大义、长篇大论的叙述,谈谈我印象最深,也是最打动我的三点细节。 第一,儿童的学习方式 小孩子觉得拧螺丝很好玩,想自己动手拧一颗螺丝。于是,他打开了工具箱,对着琳琅满目的工具,他不知所措。一会儿摸摸钳子,一会儿试试扳手……这时候,旁边的父母应当怎么办? 在大多数情况下,父母大概会直接告诉孩子,“亲爱的,你应该用螺丝刀,来,我告诉你”。耐心一点的父母,大概会潜心观察一段孩子的举动,再设法“引导”他到正确的工具上来。在父母眼里,孩子当然不可能一开始就找对正确答案,所以做各种尝试也是情有可原。但是另一方面,也不应该“在错误的路径上摸索太久,浪费时间”,应当“迅速识别出正确的答案”。 无论父母有多少耐心,在他们眼里,孩子找到拧螺丝的工具的过程,都是个“不断接近正确答案”的过程。这个过程越短,孩子就越“聪明”,或者说“学习效率”就越高。 (more…)

1 month ago

再见,或许就是再也不见

陈皓(Haoel,网名“左耳朵耗子”)上周六因为突发心梗去世了,享年47岁。 我跟他虽然聊过好些次,但只是微信好友,从未见过面。回看微信记录,当年稀松平常的一声“再见”,已经成了“再也不见”。 许多人在缅怀他,许多文章提到他的时候,会用到“骨灰级程序员”、“技术大牛”这样的称呼。但如果仅仅用这两个词描述他,断然难以解释,为什么他的突然去世,会引发互联网上怀念的狂潮。 所以,我更愿意按照自己的经验,把他描绘为“有坦诚追求,兼具趣味、操守、胸怀的技术人”。恰恰是因为这样的人在这个年代太稀少,而这些品质又让众多人赏识和受益,大家才会如此地怀念他。 这个年代,做技术(仅指狭义的IT)的人很多,愿意分享的人也不在少数,其中不少还可以算世俗意义上的“成功者”。 但是,若仔细去看他们分享的内容,总感觉不够真诚。总感觉作者希望往高深了靠,目的也没有那么纯粹。你若提一些小白问题,迎来的往往是“你怎么连这都不知道?”的反问,或者“要谈这个问题,你先去看几本书再说吧”。话是这么说没错,但无数的初学者也往往因此打了退堂鼓。 但是陈皓的分享不同。我已经不止一次地看到有人提起,他分享——更准确说,是“创作”——的内容质量很高,而且总能做到“深入浅出”。哪怕是小白读者,看完也确实能有收获,如果还有兴趣,更可以跟着文末的链接,顺藤摸瓜探究更广阔的世界。 这让我想起我佩服的一位记者说的:记者写文章的最高境界,就是不表达自己的观点,因为记者的观点应当来自于他的素材。只要把这些素材摆出来,读者读完报道,观点就自然形成了。要做到这一点,需要对素材有足够的信心和把握,外加真诚和坦荡。 能做到这一点的记者,着实不多。陈皓虽然不是记者,他写的技术文章却能让读者得到类似的结论——要知道,技术讨论往往是非常容易擦枪走火的——可见他运用素材和逻辑的功力,以及更重要的,他的真诚和坦荡。 (more…)

1 month ago