Categories: 在线文档

《正则表达式傻瓜书》第一章:通配符

本文由Yurii原创,转载请注明来源: Life Sailor

本文链接 《正则表达式傻瓜书》第一章:通配符


第一章:通配符

我们已经说过,这本《正则表达式傻瓜书》并非把读者当傻瓜,而是保证“傻瓜都能看懂”。如果你到现在还没听说过“通配符”或是“正则表达式”,那么,请看这一章。
要说明的另一点是,因为一般的Linux/Unix用户都熟悉通配符,所以,本章假设读者工作于Windows平台下,所举的例子也全部面向Windows平台。

从Windows的搜索谈起

正则表达式是进行文本处理的工具。那么,它到底进行哪些“处理”?简而言之,正则表达式的主要功能就是对文本进行查找(匹配)和替换(修改)。在这一章里,我们先从最简单的文本查找说起。
正则表达式所“搜索/查找”功能的对象,就是我们说的“文本”——它可以是Word文档、Excel表格、浏览器看到的网页等等,也可以是文件名(工作日报20090925.doc)、电话号码(400-82055555)、电子邮件地址(somebody@someone.net)等等。所以也有这样一种说法:正则表达式处理的是“字符串”——也就是一系列的字符。想想也是,Word文档的内容、Excel表格的内容、网页的内容、文件名、电话号码、电子邮件等等,无非都是“连接起来”的字符,也就是“字符串”了。
几乎每种文本处理工具(Word、Excel、记事本、写字板)都提供了查找(和替换)功能:


图1-1 Word中的查找

Windows中查找文件的“搜索”功能,其实也是查找文本:


图1-2 Windows中的搜索

如果我们需要查找包含“李刚”的文件名,直接输入“李刚”搜索,就可以找到。


图1-3 “李刚”查找结果

那么,正则表达式的查到底有什么优势呢?我们不妨看一个例子:
假设某个目录下存在许多记录手机用户信息的文件,每个文件对应一个用户,文件名就是手机号码:号码为13812345678这个用户的记录文件,就是1381234567.doc。
现在需要找出某个号段的全部用户(比如说1310000号段),我们该怎么办?
你或许会说,这很简单,搜索“1310000”就可以了!可是真的如此吗?


图1-4 查找错误

在这里,一个不属于1310000号段(也就是不以1310000开头),但是包含1310000的手机号码(15801310000)也被找了出来。这时候直接“搜索”是无能为力的,因为它无法应对“变数”——我们要查找的是这样的文件:最前面7个字符是“1310000”,最后的4个字符是“.doc”,然而中间的4个字符是“不知道也不确定”的,换句话说,在查找结果出现之前,谁都不知道这4个字符都是什么。
如何解决“未知”的问题?在数学里,我们可以用一个未知数来解决这类问题。在文本查找中,有没有这样的“未知数x”呢?答案是有的:在数学里它是“x”,在文本查找中,它就是普通的问号“?”。
我们要找的文件是这样的:“1310000”开头,最后是“.doc”,中间是4个“未知数”。好了,现在我们在搜索栏填入“1310000????.doc”(注意,要输入英文的问号,而不能是中文的问号,如果不清楚,请关闭中文输入法,输入问号),再次点击搜索。果然,这次我们找到的都是131号段的文件了。


图1-5 图片

在上面的例子中,我们用到了一个特殊的字符『?』来表示“单个任意字符”。概略地说,这就是正则表达式的雏形,当然,正则表达式的真正威力远远比这个大得多。我们现在用到的这个雏形叫做“通配符”(Wildcard,根据维基百科的定义,计算机上的通配符可以用来“表示字符串中的任何单个或多个字符”)。表示“单个任意字符”的『?』就是通配符之一。下面我们介绍另一个通配符,星号『*』。

更复杂的搜索

解数学题时我们不能限定“未知数x只能是一位数”;同样,在文本匹配中也不应该有这样的限制:在上面的例子中,我们明确知道131后面应该有8个字符,但下面的情况呢?
仍然是查找文件的问题,这次我们要找的是电子书。在某个目录下存放着许多本电子书,文件名就是书的名字,我们现在要查找的是名为“社会某某学”的书籍:社会心理学、社会组织学、社会人类与文化学、社会系统动力学……不幸的是,在“社会”和“学”之间的字数是不确定的:“心理”和“组织”是两个字,“人类与文化”是五个字,“系统动力”是四个字,所以,这里无法使用问号,该怎么办呢?
仔细想想我们面对的问题:需要有一个新的“未知数x”来匹配这些字符,它的长度必须是可变的,谁也不能预先知道它“匹配”了多少字符。恰好,这就是另一个通配符『*』的意义。于是,我们在搜索框里输入“社会*学”。


图1-6 “社会*学”的搜索结果

比较搜索结果和我们输入的“社会*学”就可以发现,对不同的文件,『*』有时候表示“人类与文化”,有时候表示“动力”,有时候又代表“心理”等等,也就是说,它能“表示”的字符串长度是不确定的!
如果你再仔细观察就会发现,除了“社会心理学”、“社会组织学”、“社会人类与文化学”、“社会系统动力学”之外,“社会学”也被找了出来。所以,请务必记住这一点:『*』可以表示任意长度的字符串,包括长度为0的字符串(比如””,虽然这个字符串里什么也没有)!

再进一步

现在把要求提的更高一些:我们希望从搜索结果里去掉“社会学”(因为它不符合“社会某某学”的样式),该怎么办?一个办法是先用“社会*学”搜索出所有的结果,再去掉“社会学”;另一个办法则可以免去周折、一步到位。
我们仔细思考这个问题就会发现,“社会学”之所以会出现在搜索结果里,是因为『*』可以匹配“长度为0的字符串”,在“社会”和“学”之间,果真就有一个“长度为0的字符串”(也可以说,什么都没有)!如果我们能保证这个“社会”和“学”之间的字符串的长度大于1,问题就解决了。该怎么办呢?
既然问号『?』能保证匹配一个任意字符,『*』能匹配任意长度的字符串,你可能已经想到答案了:它们拼起来不就是“长度至少为1的字符串”了吗?
果然,结果就是这样的。


图1-7 “社会*?学”的搜索结果

看到这里有人可能会想,顺序呢?『*?』和『?*』有区别吗?答案是,至少在这里,没有区别。如果你想弄明白其中的原因,请继续耐心阅读本书。


图1-8 “社会?*学”的搜索结果

如果“社会*?学”真是你自己想到的,那么要恭喜你;如果不是这样,也不必沮丧。因为从这个例子里,我们已经看到了正则表达式的大致模样:定义一些可以代表未知情况的特殊字符(比如代表“一个任意字符”的『?』和代表“任意长度(包括0)字符串”的『*』),再用一些规则把它们组合起来(比如『*?』),就可以准确描述我们希望查找的文本的特征。本书后面的部分,翻来覆去讲的还是这样的内容,只是特殊字符更多,组合规则更复杂,而已。如果你看现在的例子觉得没问题,相信整本书对你来说也不是问题。
需要补充的一点:正因为『?』和『*』是“特殊字符”,它们的“意义”不同于问号和星号本身的含义,所以文件名中是不容许出现这这类特殊字符的(否则,计算机怎么判断你输入的星号是要匹配“任意长度的字符串”还是匹配“文件名中的星号字符”呢?)


图1-9 文件名中不能包含的字符

更进一步

看到这里,你或许想问:『*』和『?』,是在任何工具中都通行的吗?
答案是:不是,比如记事本就不支持这两个特殊字符。不过,一般来说,稍微“高级”一点的工具都提供了这样的功能。比如,Word就提供了这样的功能,只是做起来稍有区别而已。
仍然看查找1310000号段手机号的例子,我们做一个与上面例子类似的Word文档,每一行都是一个文件名,按下ctrl + f,出现“查找与替换”对话框。输入“1310000????.doc”,却不能找到任何结果。


图1-10 word中的搜索

怎么出错了呢,开头不是说Word也支持正则表达式吗?没错,Word确实是支持。只是默认情况的搜索并不支持通配符(还记得文件名搜索的例子吗?文件名可以规定不得使用『*』和『?』,但是Word可不能规定文章里不能出现“*”和“?”)。
要使用『*』和『?』,就必须打开对通配符的支持。具体来讲,就是点选“查找和替换”对话框的“高级(M)”按钮,在其中勾选“使用通配符(U)”,再搜索,就会出现想要的结果了。


图1-11 word中使用通配符的搜索

这个例子也告诉我们,“正则表达式(通配符)查找”和普通的“查找”是不同的。在后面我们会看到,在一般的文本处理工具中使用正则表达式的功能,多半需要在设置中开启相应的功能选项(譬如这里的“使用通配符”),而一般的编程语言,在普通文本操作的接口之外,也会提供专门的正则表达式操作接口。

我们考虑更复杂一点的情况:如果“不幸”有个文件的名字是“1310000号段资料.doc”,也会被找出来。为什么?因为“号段资料”也是4个字符,正好对应到『????』!


图1-12 word中使用通配符搜索的问题

这个问题要怎么解决?
我们再次思考这个问题的根源,发现根源在于,通配符问号『?』能匹配“任意一个字符”,而不仅仅是数字字符。如果我们能限定,问号只匹配数字字符,问题就解决了!那么,怎么匹配“数字字符”呢?其实,所谓的数字字符,就是0123456789这9个字符之一嘛!好,我们就规定这样一个字符,它就表示上面说的意思。按照正则表达式的规矩,它写作『[0123456789]』。容易看懂吗?在方括号里把“可能”的字符都列出来,看起来很简单,又很古怪——这样长长的一串字符,居然只匹配一个字符!不过别担心,这还只是刚刚开始呢,看顺眼就好了,而且,这样“古怪”的东西并不多。
现在我们试试,用
1310000[0123456789][0123456789][0123456789][0123456789].doc
查找。果然对了!


图1-13 word中搜索的最终形式

对了是对了,就是不好看,太长了点。不过别担心,我们可以把它缩到很短,只是现在一下子堆出太多概念,可能并不合适。只要你耐心继续阅读下去,循序渐进,就会学到怎么把这个正确但“很长”的表达式缩短!

小结

在这一章,我们已经看到了最简单的正则表达式应用:通配符。
与常见的查找不同,通配符可以应付“变数”,表示“未知”的字符。问号『?』可以匹配“单个任意字符”,而星号『*』可以匹配“任意长度的字符串”,也包括“长度为0的字符串”;而且,我们也可以把这两个通配符搭配起来,表示“长度至少为1”的字符串。最后,我们看到,如果要限定“只匹配一个数字字符”,可以用『[0123456789]』的形式。
从这些例子中,我们也看到,在正则表达式(通配符模式)中,某些字符表示不同于其“字面”含义的意义,所以文件名中不能包含某些特殊字符,所以在一般的文本处理工具中,使用与正则表达式相关的功能,要开启相应的模式。

下面,我们开始“正经”学习正则表达式。

Yurii

Share
Published by
Yurii

Recent Posts

德国生活点滴:歧视比你想象的要复杂(续)

在上一篇文章里,我列举了一些种族歧视现象的亲身经历,引发了许多读者的讨论。但是让我略感遗憾的是,许多人大概没有注意文章的标题,没有觉察到关键是“比想象的要复杂”,所以直接给出了一个简单的论断。 我的本意绝不是强化已有的简单粗疏的刻板印象,而是希望让大家知道,种族歧视这回事,有许多的侧面和细节。了解这些侧面和细节,有助于我们形成更立体的认知。 于是就有了下面这些内容,希望能引发大家的思考。 一 种族歧视是一种最简单粗暴的歧视。 许多人都知道,“歧视”的英文是discriminate,准确的意思是“区别对待”。既然要区别对待,就自然首先必须有办法区分。目力所及,似乎没有人愿意“区别对待”与自己完全同样的人,而总是要先找出一点区别来,再实行区别对待。 所以,种族、口音、家庭出身、经济能力等等各种因素,都可以成为“区别”的指标,由此催生出区别对待。在这些因素当中,种族大概是最容易识别的特征——判断口音需要等对方开口,家庭出身、经济能力等等因素就更是要全面接触才可能了解。唯有种族,具体来说,绝大多数时候是相貌和肤色,是可以远远一眼就望见的。 也恰恰是因为这个原因,种族歧视特别容易引起反感。 这些年来,我得到的一条重要的生活经验是,如果你希望指出对方的问题,但又不纯粹是为了激怒对方,那么最好不要归因为一些木已成舟,对方无法改变的因素,否则对方多半会恼羞成怒。 举个例子,你觉得某人的口语表达还可以更好一点,完全可以直接给出具体的建议。但是如果从“经济不发达地区来的人就是口语差”,或者“个子矮的人就是没自信心来表达”,那几乎一定会制造矛盾。因为“口语表达”是可以改进的,加以锻炼将来肯定更好,而“不发达地区来的人”和“个子矮的人”就像烙印一样,是无法摆脱的。这种话说出来,对方哪怕有意愿改进,也会觉得无奈甚至恼怒。 种族歧视也是这样,“种族”同样是一种烙印,是无法摆脱的。所以当对某些人的判断与种族挂钩的时候,他或她必然感到无奈甚至愤怒。况且老话说“人上一百,形形色色;人上一万,千奇百怪”。哪怕是同一个种族的人,也可能在肤色、相貌之外完全找不到相同点。先入为主地用种族去对其他人下判断,无论是从情感反应上,还是从逻辑上,都是站不住脚的。 (more…)

2 days ago

德国生活点滴:歧视比你想象的要复杂

去年初的时候,小朋友冰球俱乐部来了个新教练Robo。Robo来自加拿大,总是一副很健谈很乐观的样子,而且很喜欢放音乐,把整个训练场搞得热情四射。最关键的是,小朋友们好像都很喜欢他,不但许多动作耐心示范,对每个人的指导也相当到位。而且,他的英语很好,人又很喜欢开玩笑,所以我们交谈很多,他总是跟我说:“你家的小朋友超级酷的,不要给他太大压力,只要他自己运动起来足够自在,能够持续练下去,就是最好的。” 没想到的是,到去年9月份,Robo忽然神秘失踪了,没有任何征兆,也没有任何说明,就此人间蒸发了一般。问其他的教练,也是语焉不详。小朋友训练完,偶尔会失落地跟我说“好久没看到Robo了,不知道他哪里去了。” 3月份的时候,一个偶然的机会,我又见到了Robo,虽然当时时间很紧张,只是打了个照面,但我要他留下了联系方式。 当天晚上我问他:哥们,你怎么忽然就不见了,大家都很想你啊。 过会儿我收到他的回复:我也很想念小孩子们,你儿子很酷……我现在没在那个俱乐部了,因为其他几个教练总是或明或暗地针对我,仅仅因为我的肤色,这是我受不了的。 (more…)

2 days ago

在德国, 全远程+共享空间办公,是什么体验?

注:原文发布于2023年1月16日 到1月份为止,我已经体验了几个月的全远程+共享空间办公了。有不少朋友听说之后很有兴趣,问我到底是什么感觉,所以我简单介绍下个人的体验。 背景 2019年末、2020年初开始在全球流行的Covid-19对远程办公来说,绝对是黑天鹅一般的存在。因为疫情导致的社交隔离措施,极大影响了各大公司的正常运转。 所幸,IT类公司受到的影响比较小,只要求员工“面对屏幕编程”,不必亲临现场。所以,许多IT公司也谨小慎微地开展了远程办公的试验。 从我所知道的结果来看,不少美国公司并不特别喜欢远程办公,比如Google,一旦社交隔离措施有所放松,就忙不迭要求员工回到办公室,盖因为公司认为远程办公严重影响合作效率。 与此相反,不少德国公司反倒是逐渐适应了远程办公的节奏,纷纷降低对员工“到办公室上班”的要求,许多公司甚至可以支持百分百的远程办公。 这里要提到的是,德国公司说的“远程办公”往往是货真价实的“远程”,而不是一些人理解的“家和办公室在同一个城市,只是不用去办公室”而已。 因为德国IT行业缺人严重,而且许多德国公司并没有那么“互联网”,而是依托实业开展业务,所以据我所知,目前不少公司非但没有裁员,反而都在大力招人。 (more…)

3 weeks ago

成年人找工作,不值得那么多愁善感

注:本文发布于2023年2月6日 最近硅谷几大公司都在裁员,看了些报道,被裁的员工真是不好过。损失经济来源不说,有些人还面临身份问题,这可真是屋漏偏逢连夜雨。 我也留意到,不少被裁的人会不停追问自己:为什么我会遇到这样的事情?为什么这样的不幸会降临到我头上?…… 实话说,我挺能理解这种态度。这挫折如此巨大,似乎又来得全无预兆,不由得让人对命运、对人生、对世界产生深重的怀疑。尤其是对已经走入社会,取得一定成就(如果非要抠字眼,那就用“进展”吧)的人来说,更是如此。 但是我更想说,如果被裁员了,当务之急是赶紧找到下一份工作,哪怕只是机械地行动。要知道,成年人找工作,容不下那么多愁善感。 我之所以这么说,是有切身经历为基础的。之前我讲过找德国工作的经历。最开始是信心十足的,因为虽然毕业多年,手艺没丢,基础还在,随时打开leetcode,中等难度题目基本都不在话下,不但能解对,解法也基本接近最优。既然网上都说“刷题就能找到工作”,估计自己应该没大问题。 没想到真的找起工作来,仍然充满了意想不到的挫折。如果不相信,我且举几个例子吧。 (more…)

3 weeks ago

我读《园丁与木匠》

虽然早就听说《园丁与木匠》是关于育儿的好书,但一直没开始读。最近终于翻开这本书,才发现属于“拿起就很难放下”的类型,加班加点读完,收获不少。 关于这本书的价值,已经有许多书评讨论过了,所以我想略过微言大义、长篇大论的叙述,谈谈我印象最深,也是最打动我的三点细节。 第一,儿童的学习方式 小孩子觉得拧螺丝很好玩,想自己动手拧一颗螺丝。于是,他打开了工具箱,对着琳琅满目的工具,他不知所措。一会儿摸摸钳子,一会儿试试扳手……这时候,旁边的父母应当怎么办? 在大多数情况下,父母大概会直接告诉孩子,“亲爱的,你应该用螺丝刀,来,我告诉你”。耐心一点的父母,大概会潜心观察一段孩子的举动,再设法“引导”他到正确的工具上来。在父母眼里,孩子当然不可能一开始就找对正确答案,所以做各种尝试也是情有可原。但是另一方面,也不应该“在错误的路径上摸索太久,浪费时间”,应当“迅速识别出正确的答案”。 无论父母有多少耐心,在他们眼里,孩子找到拧螺丝的工具的过程,都是个“不断接近正确答案”的过程。这个过程越短,孩子就越“聪明”,或者说“学习效率”就越高。 (more…)

3 weeks ago

再见,或许就是再也不见

陈皓(Haoel,网名“左耳朵耗子”)上周六因为突发心梗去世了,享年47岁。 我跟他虽然聊过好些次,但只是微信好友,从未见过面。回看微信记录,当年稀松平常的一声“再见”,已经成了“再也不见”。 许多人在缅怀他,许多文章提到他的时候,会用到“骨灰级程序员”、“技术大牛”这样的称呼。但如果仅仅用这两个词描述他,断然难以解释,为什么他的突然去世,会引发互联网上怀念的狂潮。 所以,我更愿意按照自己的经验,把他描绘为“有坦诚追求,兼具趣味、操守、胸怀的技术人”。恰恰是因为这样的人在这个年代太稀少,而这些品质又让众多人赏识和受益,大家才会如此地怀念他。 这个年代,做技术(仅指狭义的IT)的人很多,愿意分享的人也不在少数,其中不少还可以算世俗意义上的“成功者”。 但是,若仔细去看他们分享的内容,总感觉不够真诚。总感觉作者希望往高深了靠,目的也没有那么纯粹。你若提一些小白问题,迎来的往往是“你怎么连这都不知道?”的反问,或者“要谈这个问题,你先去看几本书再说吧”。话是这么说没错,但无数的初学者也往往因此打了退堂鼓。 但是陈皓的分享不同。我已经不止一次地看到有人提起,他分享——更准确说,是“创作”——的内容质量很高,而且总能做到“深入浅出”。哪怕是小白读者,看完也确实能有收获,如果还有兴趣,更可以跟着文末的链接,顺藤摸瓜探究更广阔的世界。 这让我想起我佩服的一位记者说的:记者写文章的最高境界,就是不表达自己的观点,因为记者的观点应当来自于他的素材。只要把这些素材摆出来,读者读完报道,观点就自然形成了。要做到这一点,需要对素材有足够的信心和把握,外加真诚和坦荡。 能做到这一点的记者,着实不多。陈皓虽然不是记者,他写的技术文章却能让读者得到类似的结论——要知道,技术讨论往往是非常容易擦枪走火的——可见他运用素材和逻辑的功力,以及更重要的,他的真诚和坦荡。 (more…)

3 weeks ago