上一章,我们通过Word中的“使用通配符”模式,粗略见识了正则表达式的使用方法。然而通配符并不等于正则表达式,遇到复杂的情况,通配符就力不从心了。所以从本章开始,我们来看“正宗”的正则表达式。

安装Regular Expression Tester

“工欲善其事,必先利其器”,学习正则表达式也是如此。尽管正则表达式的思想和规则是基本确定的,应用起来却有许多讲究(比如,在Java、C++、Python等不同的编程语言中,同一个表达式的具体写法是不同的,在Word、Excel等软件中也是这样)。所以,学习正则表达式最好采用“中立而规范”的工具——这有点像学习摄影,开始应该学习的是构图、用光,而不是尼康、佳能或索尼相机的特性。

本书中,我们采用Firefox的插件Regular Expression Tester(意思是“正则表达式测试工具”)来学习和讲解正则表达式,选择它的好处在于:不需要搭建编程语言环境(许多时候我们并不需要在编程语言中应用正则表达式);在Windows/Unix/Mac上都可以使用;并且支持大多数通用的正则表达式功能。如果你没有接触过它,也不用担心,下面我们介绍它的安装和使用。

(more…)

第一章:通配符

我们已经说过,这本《正则表达式傻瓜书》并非把读者当傻瓜,而是保证“傻瓜都能看懂”。如果你到现在还没听说过“通配符”或是“正则表达式”,那么,请看这一章。
要说明的另一点是,因为一般的Linux/Unix用户都熟悉通配符,所以,本章假设读者工作于Windows平台下,所举的例子也全部面向Windows平台。

从Windows的搜索谈起

正则表达式是进行文本处理的工具。那么,它到底进行哪些“处理”?简而言之,正则表达式的主要功能就是对文本进行查找(匹配)和替换(修改)。在这一章里,我们先从最简单的文本查找说起。
正则表达式所“搜索/查找”功能的对象,就是我们说的“文本”——它可以是Word文档、Excel表格、浏览器看到的网页等等,也可以是文件名(工作日报20090925.doc)、电话号码(400-82055555)、电子邮件地址(somebody@someone.net)等等。所以也有这样一种说法:正则表达式处理的是“字符串”——也就是一系列的字符。想想也是,Word文档的内容、Excel表格的内容、网页的内容、文件名、电话号码、电子邮件等等,无非都是“连接起来”的字符,也就是“字符串”了。
几乎每种文本处理工具(Word、Excel、记事本、写字板)都提供了查找(和替换)功能:


图1-1 Word中的查找

(more…)

按:《精通正则表达式》是一本好书,我翻译之后,一直都奢望写本关于正则表达式的书,为《精通正则表达式》接上地气,今年终于有机会把“奢望”变成“苦差”。下面是本书(暂定名《正则表达式傻瓜书》,大家对此有意见或建议也请直说)的前言,其中介绍了本书的结构、读者和价值,请大家多提建议,在这里先行谢过。

前言

正则表达式简介

“正则表达式”,这个名字看起来有点古怪。不过别着急,我们先看看它到底是有什么用,再解释这古怪名字的来历。

简而言之,正则表达式就是一套专门处理文本的强大工具。“学术”地说,它能够做的事情主要是:

  • 复杂的文本查找/匹配/提取
  • 复杂的文本替换

请注意,这里说的是“复杂”的操作,而不是“简单”的查找/匹配/提取/替换(几乎任何一种文本处理工具,例如Word和记事本,都提供了这种功能)。或者,通俗地说,正则表达式能够做的事情是这样的:

如果你是一般用户:

  • 把多行的文本迅速拼成用逗号分隔的一行文本(群发邮件时这非常有用);
  • 把一长篇文章里的手机号码都找出来(除了匹配13x15x18x开头的号码,还可以处理开头有‘0’和/或有‘+86’的情况);
  • 把一篇文章里可能拼写错的某个单词。比如把separetesaparatesaperete之类“自动纠正”到separate,而且不受大小写限制(seParate, separaTe也可以纠正);

如果你是专业用户:

  • 验证用户输入的手机号、邮件地址是否合法(还记得填写网页表单时常见的提示吗?);
  • 提取网页源代码中的所有图片链接、超链接(搜索引擎就是这么干的);
  • 提取文本中的邮件地址(现在你知道自己的邮件地址怎么被“抓”走了吧?);
  • 进行复杂的格式检查(把各种小数“统一”成精度为0.01的格式,去掉重复的单词);

这样的任务可能并不是我们日常工作的主要内容,“不幸”遇上了却非常烦人——简单重复劳动往往要耗费我们大量的时间。所以,在《卓有成效的程序员》(Neal Ford著,机械工业出版社2009年版)中,作者写道:

在我刚才提到的例子中,开发人员用了1小时58分建立正确的(正则表达式)语法,然后用了不足两分钟运行。在一些未曾培训过的人眼里,他的大多数时间都没有效率(这就是为什么他们反对使用正则表达式的原因),但最后,他节省的是几天的时间!

正则表达式还可以玩出更炫更酷的花样;不过现在,你只需要记得一点:不管任务有多么复杂,多么“不可思议”,只要掌握了关于正则表达式的基础知识,就能“以不变应万变”。这有点像搭积木,如果你学会了搭积木,就能随心所欲地搭出各种结构。而这本书的目的,就是教会你“搭积木”,也就是学会正则表达式;如果加以锻炼,相信不久你就能游刃有余地解决各种古怪的问题了。

现在我们回头说说正则表达式的古怪名字。我估计,古怪主要的原因来自“正则”——我们的生活中很少见到“正则”这个词。其实,“正则”的原文是英文单词regular,也就是“规则”、“规范”的意思。谈到这个regular,就必须提到一个概念:“正规语言(regular language)”,概略地说,“正规语言”就是严格遵照一系列规则构造出来的“语言”(不同于规则模糊且“可能出错”的自然语言)。“正则表达式”的“正则”,也就是这个“正规”的意思,它可以进行精确(很细致但也很“繁琐”)的描述:举个例子,我们都能一眼判断出,一串字符是不是“邮政编码”,但用正规语言来描述,大概是这样的——“邮政编码是前后相连的六个十进制数字字符(也就是说,每个字符都是0123456789之一),而且在这六个字符前后不能再出现数字字符”,如果我们能这样“规范”地表达自己的意图,计算机就可以匹配邮政编码字符串了。正则表达式的功能之所以强大,正是因为它可以“正规(规范)”的方式进行精确的描述/表达自己操作文本的意图——有了规矩才有方圆,计算机才能完整准确“理解”我们的想法。

回过头来,无论你看“正则表达式”这个名字是否顺眼,现在只要明白它是用来处理文本的强大工具,就可以了。

谁适合阅读这本书

本书名为《正则表达式傻瓜书》,并非假设读者都是傻瓜,而是保证“傻瓜都能看懂”。从这个定义出发,我们假设读者对正则表达式没有任何基础。如果您真的“不幸”成为其中一员,那么恭喜你,整本书都是为你而写的,如果你能循序渐进,一路修炼下来,一定能把正则表达式玩弄于股掌之间。

如果你之前已经稍微了解了正则表达式,那么更要恭喜你。我发现,许多接触过正则表达式的开发人员,并不真正理解正则表达式。要用的时候,他们往往从网上搜索一个正则表达式应急,如果不能用就改改——却往往被“这个字符是否要转义呢?”、“这门语言是否支持这个功能”之类的问题困扰。如果你能细心读完本书的基础章节,一定能厘清概念、正本清源,功力再上层楼。

如果你自认为在这两种人之外,或者毫无兴趣,也不必“自绝于”本书。你可能会在很多地方遇到正则表达式:你的浏览器是否有插件屏蔽某些网站的广告?如果有,你想不想设定应当屏蔽“哪些”广告?你在访问一些网站时是否遇到了困难,而需要为“某些”网站设定使用代理服务器?如果是,那么你不妨学一点正则表达式。俄罗斯有句谚语是这么说的:年轻人,多学一点本领总不是坏事!

学习方法

关于正则表达式,最重要的概念就是“规定可变的范围”:它匹配和处理的文本的是“变化”的(如果你只想寻找“中华人民共和国”之类的固定字符串,直接进行简单的查找就是了;电子邮件地址则不同,它的样子千变万化,这时候就得正则表达式上场了),但这些“变化”又必须遵循一定的规则(“电子邮件地址不就是“用户名 + @ + 主机名”嘛,超文本链接不就是“http:// + 主机名 + 路径 + 参数[可能出现]”嘛,而“用户名”、“主机名”之类都有明确的规定:可以按什么次序,出现什么字符),只要想明白了这回事,再弄明白正则表达式的规则和门道,把这些“变化规则”准确描述出来,就可做到“万变不离其宗”——任文本的形式怎么变化,都逃不出你的手掌心。

要学会正则表达式的规则和门道,可以分三步,据此,本书也分为三个部分:

第一步,基础,提供“入门”和“基础”。如果你从未接触过“正则表达式”,我们将从最简单的通配符的概念介绍起,帮你建立最基本的感性认识,并介绍正则表达式中最最基本的功能,它们不但可以用在编程语言里,也可以应用在平常的工具中。所以,看完这一部分,你应该能了解最基本最常用的关于正则表达式的概念,并把它们应用的日常工作中去。

第二步,进阶,在这里,我们会跟进一步,介绍普通文字编辑软件没有提供,但正则表达式中常用的重要知识、譬如多选结构、分组等等。并辅以恰当的例子,让读者通过对比,深刻牢固地认识这些概念。可以说,如果能充分认识、恰当运用这些概念,就能完成80%基本的字符处理任务,这也是本书的重中之重。

第三步,深入,向读者介绍更复杂、更高级的功能。包括其它类型的量词、匹配模式、锚点等,并会讲解一些常见的应用思路。了解了这些概念,你就能玩出更炫更酷的花样,也能解决更复杂、更罕见的问题。另外,在本章,我们会简单介绍不同的语言对于正则表达式的实现,以及各自的特点。

对于一般人,掌握这些已经完全足够了,如果学完这些,你还不满足,要“百尺竿头更进一步”,推荐你阅读本人翻译的《精通正则表达式(第三版)》(Jeffery Friedl著,电子工业出版社2007年版)的高级内容,相信你一定会有新的收获。

本书的价值

可能有读者会问,现在关于正则表达式的书那么多,有《精通正则表达式》,有《正则表达式必知必会》……为什么还要有“傻瓜书”?

确实,为什么要有“傻瓜书”呢?我学正则表达式的时候,也就是生吞活剥了《精通正则表达式》的影印版,就大致掌握了这东西嘛。

不过,在后来的开发中,我逐渐发现,对于处于开发前线、需要亲手写正则表达式的广大同行,从阅读关于正则表达式的经典作品,到熟练解决手上的难题,还有一个艰难的过程。比如,我曾遇到过这样的任务:要把一段文本里的“湖南株洲”智能地替换为“湖南省株洲市”,简单的文本替换在这里是行不通的,因为原文中可能也存在“湖南株洲市”,简单替换之后就成了“湖南省株洲市市”(出现了两个重复的“市”)(程序员可能会说,用程序检查“株洲”之后的那个字符就可以了嘛,但这是不行的,因为可能遇到越界错误:如果文本最后的两个字符就是“株洲”,后面不存在任何字符,检查“后一个”字符的程序就会报错退出)。再比如,不同的语言/环境在对正则表达式的支持上也有细微的区别,许多时候我们明白“理论上”应该怎么做,但实际操作起来又有诸多掣肘(譬如在ApacheRewrite规则中,怎样用一条表达式匹配“除aaa.somesite.combbb.somesite.com之外somesite.com的所有子域名”呢),该怎样绕过它们,很多书都没有讲,只能依靠猜测和经验来解决。本书在讲解相关的知识点时,会尽可能贴近实际的应用,举出针对具体开发环境的例子,降低大家从“阅读外版书借鉴国外经验”到“消化、吸收,应用到具体开发”之间的学习成本。

另一方面,不少关于正则表达式的书籍往往追求全面,把各条知识事无巨细地罗列出来。然而广大应用正则表达式的人员,却不太可能有精力通读这些“百科全书”,对他们来说,最重要的就是在遇到问题的时候迅速地找到最合适表达式,或者看懂某个复杂的表达式,加以改造,服务于自己的工作。这一点,我自己也深有体会。因此,本书会着重讲解一些常用的正则表达式,并提供它们在各种语言中的版本,并讲解一些常见问题的解决思路(常见的“与、或、非”的逻辑要怎么表达,掌握了这些,你就可以解决“长度在8到16之间,同时包含字母、数字、符号的密码字符串怎么用一条正则表达式验证”的问题了);即便您找不到直接使用的例子,也可以触类旁通。从某种意义上说,您也可以将本书放在案头,当成“正则表达式速查手册”。

最后,在《精通正则表达式》中文版出版之后,我收到了许多热心读者的来信,也看到许多读者的评论。有不少读者觉得,《精通》一书确实不错,但详略安排可以更好:许多简单的问题往往花费了太多时间,生怕读者不懂,而复杂问题的讲解又不够到位,读来总有十全九美的遗憾;也有读者觉得,《精通》的篇幅太长,价格太贵,并非人人都要“精通”,降低点成本,“够用”就好。有鉴于此,我会努力根据读者的意见,尽力调整这本书的详略安排。当然,贯彻始终的原则是“简明扼要”。毕竟,学习正则表达式就是为了节省时间,如果让读者在“不值得”的内容上浪费时间,就违背了本书的写作初衷。

勘误

我向读者保证会尽力避免犯错,但是我不敢保证这本书里没有错误。所以,如果您在阅读时发现有错误,请一定来信告知,您的意见,经过确认,会进入勘误列表,并在下次重印时进行订正。当然,我也欢迎您来信告知建议、感想。我的电子邮箱是 yusheng.regex@gmail.com,诚挚地等待您的邮件。