正则表达式傻瓜书第二章：元字符

2010-04-16
meta-character, regex, 元字符, 正则表达式, 正则表达式傻瓜书
11 Comments

上一章，我们通过Word中的“使用通配符”模式，粗略见识了正则表达式的使用方法。然而通配符并不等于正则表达式，遇到复杂的情况，通配符就力不从心了。所以从本章开始，我们来看“正宗”的正则表达式。

安装Regular Expression Tester

“工欲善其事，必先利其器”，学习正则表达式也是如此。尽管正则表达式的思想和规则是基本确定的，应用起来却有许多讲究（比如，在Java、C++、Python等不同的编程语言中，同一个表达式的具体写法是不同的，在Word、Excel等软件中也是这样）。所以，学习正则表达式最好采用“中立而规范”的工具——这有点像学习摄影，开始应该学习的是构图、用光，而不是尼康、佳能或索尼相机的特性。

本书中，我们采用Firefox的插件Regular Expression Tester（意思是“正则表达式测试工具”）来学习和讲解正则表达式，选择它的好处在于：不需要搭建编程语言环境（许多时候我们并不需要在编程语言中应用正则表达式）；在Windows/Unix/Mac上都可以使用；并且支持大多数通用的正则表达式功能。如果你没有接触过它，也不用担心，下面我们介绍它的安装和使用。

Continue reading 正则表达式傻瓜书第二章：元字符

第一章：通配符

我们已经说过，这本《正则表达式傻瓜书》并非把读者当傻瓜，而是保证“傻瓜都能看懂”。如果你到现在还没听说过“通配符”或是“正则表达式”，那么，请看这一章。
要说明的另一点是，因为一般的Linux/Unix用户都熟悉通配符，所以，本章假设读者工作于Windows平台下，所举的例子也全部面向Windows平台。

从Windows的搜索谈起

正则表达式是进行文本处理的工具。那么，它到底进行哪些“处理”？简而言之，正则表达式的主要功能就是对文本进行查找（匹配）和替换（修改）。在这一章里，我们先从最简单的文本查找说起。
正则表达式所“搜索/查找”功能的对象，就是我们说的“文本”——它可以是Word文档、Excel表格、浏览器看到的网页等等，也可以是文件名（工作日报20090925.doc）、电话号码（400-82055555）、电子邮件地址（[email protected]）等等。所以也有这样一种说法：正则表达式处理的是“字符串”——也就是一系列的字符。想想也是，Word文档的内容、Excel表格的内容、网页的内容、文件名、电话号码、电子邮件等等，无非都是“连接起来”的字符，也就是“字符串”了。
几乎每种文本处理工具（Word、Excel、记事本、写字板）都提供了查找（和替换）功能：

图1-1 Word中的查找

Continue reading 《正则表达式傻瓜书》第一章：通配符

《正则表达式傻瓜书》前言

按：《精通正则表达式》是一本好书，我翻译之后，一直都奢望写本关于正则表达式的书，为《精通正则表达式》接上地气，今年终于有机会把“奢望”变成“苦差”。下面是本书（暂定名《正则表达式傻瓜书》，大家对此有意见或建议也请直说）的前言，其中介绍了本书的结构、读者和价值，请大家多提建议，在这里先行谢过。

前言

正则表达式简介

“正则表达式”，这个名字看起来有点古怪。不过别着急，我们先看看它到底是有什么用，再解释这古怪名字的来历。

简而言之，正则表达式就是一套专门处理文本的强大工具。“学术”地说，它能够做的事情主要是：

复杂的文本查找/匹配/提取
复杂的文本替换

请注意，这里说的是“复杂”的操作，而不是“简单”的查找/匹配/提取/替换（几乎任何一种文本处理工具，例如Word和记事本，都提供了这种功能）。或者，通俗地说，正则表达式能够做的事情是这样的：

如果你是一般用户：

把多行的文本迅速拼成用逗号分隔的一行文本（群发邮件时这非常有用）；
把一长篇文章里的手机号码都找出来（除了匹配13x、15x、18x开头的号码，还可以处理开头有‘0’和/或有‘+86’的情况）；
把一篇文章里可能拼写错的某个单词。比如把separete、saparate、saperete之类“自动纠正”到separate，而且不受大小写限制（seParate, separaTe也可以纠正）；

如果你是专业用户：

验证用户输入的手机号、邮件地址是否合法（还记得填写网页表单时常见的提示吗？）；
提取网页源代码中的所有图片链接、超链接（搜索引擎就是这么干的）；
提取文本中的邮件地址（现在你知道自己的邮件地址怎么被“抓”走了吧？）；
进行复杂的格式检查（把各种小数“统一”成精度为0.01的格式，去掉重复的单词）；

这样的任务可能并不是我们日常工作的主要内容，“不幸”遇上了却非常烦人——简单重复劳动往往要耗费我们大量的时间。所以，在《卓有成效的程序员》（Neal Ford著，机械工业出版社2009年版）中，作者写道：

在我刚才提到的例子中，开发人员用了1小时58分建立正确的（正则表达式）语法，然后用了不足两分钟运行。在一些未曾培训过的人眼里，他的大多数时间都没有效率（这就是为什么他们反对使用正则表达式的原因），但最后，他节省的是几天的时间！

正则表达式还可以玩出更炫更酷的花样；不过现在，你只需要记得一点：不管任务有多么复杂，多么“不可思议”，只要掌握了关于正则表达式的基础知识，就能“以不变应万变”。这有点像搭积木，如果你学会了搭积木，就能随心所欲地搭出各种结构。而这本书的目的，就是教会你“搭积木”，也就是学会正则表达式；如果加以锻炼，相信不久你就能游刃有余地解决各种古怪的问题了。

现在我们回头说说正则表达式的古怪名字。我估计，古怪主要的原因来自“正则”——我们的生活中很少见到“正则”这个词。其实，“正则”的原文是英文单词regular，也就是“规则”、“规范”的意思。谈到这个regular，就必须提到一个概念：“正规语言（regular language）”，概略地说，“正规语言”就是严格遵照一系列规则构造出来的“语言”（不同于规则模糊且“可能出错”的自然语言）。“正则表达式”的“正则”，也就是这个“正规”的意思，它可以进行精确（很细致但也很“繁琐”）的描述：举个例子，我们都能一眼判断出，一串字符是不是“邮政编码”，但用正规语言来描述，大概是这样的——“邮政编码是前后相连的六个十进制数字字符（也就是说，每个字符都是0123456789之一），而且在这六个字符前后不能再出现数字字符”，如果我们能这样“规范”地表达自己的意图，计算机就可以匹配邮政编码字符串了。正则表达式的功能之所以强大，正是因为它可以“正规（规范）”的方式进行精确的描述/表达自己操作文本的意图——有了规矩才有方圆，计算机才能完整准确“理解”我们的想法。

回过头来，无论你看“正则表达式”这个名字是否顺眼，现在只要明白它是用来处理文本的强大工具，就可以了。

谁适合阅读这本书

本书名为《正则表达式傻瓜书》，并非假设读者都是傻瓜，而是保证“傻瓜都能看懂”。从这个定义出发，我们假设读者对正则表达式没有任何基础。如果您真的“不幸”成为其中一员，那么恭喜你，整本书都是为你而写的，如果你能循序渐进，一路修炼下来，一定能把正则表达式玩弄于股掌之间。

如果你之前已经稍微了解了正则表达式，那么更要恭喜你。我发现，许多接触过正则表达式的开发人员，并不真正理解正则表达式。要用的时候，他们往往从网上搜索一个正则表达式应急，如果不能用就改改——却往往被“这个字符是否要转义呢？”、“这门语言是否支持这个功能”之类的问题困扰。如果你能细心读完本书的基础章节，一定能厘清概念、正本清源，功力再上层楼。

如果你自认为在这两种人之外，或者毫无兴趣，也不必“自绝于”本书。你可能会在很多地方遇到正则表达式：你的浏览器是否有插件屏蔽某些网站的广告？如果有，你想不想设定应当屏蔽“哪些”广告？你在访问一些网站时是否遇到了困难，而需要为“某些”网站设定使用代理服务器？如果是，那么你不妨学一点正则表达式。俄罗斯有句谚语是这么说的：年轻人，多学一点本领总不是坏事！

学习方法

关于正则表达式，最重要的概念就是“规定可变的范围”：它匹配和处理的文本的是“变化”的（如果你只想寻找“中华人民共和国”之类的固定字符串，直接进行简单的查找就是了；电子邮件地址则不同，它的样子千变万化，这时候就得正则表达式上场了），但这些“变化”又必须遵循一定的规则（“电子邮件地址不就是“用户名 + @ + 主机名”嘛，超文本链接不就是“http:// + 主机名 + 路径 + 参数[可能出现]”嘛，而“用户名”、“主机名”之类都有明确的规定：可以按什么次序，出现什么字符），只要想明白了这回事，再弄明白正则表达式的规则和门道，把这些“变化规则”准确描述出来，就可做到“万变不离其宗”——任文本的形式怎么变化，都逃不出你的手掌心。

要学会正则表达式的规则和门道，可以分三步，据此，本书也分为三个部分：

第一步，基础，提供“入门”和“基础”。如果你从未接触过“正则表达式”，我们将从最简单的通配符的概念介绍起，帮你建立最基本的感性认识，并介绍正则表达式中最最基本的功能，它们不但可以用在编程语言里，也可以应用在平常的工具中。所以，看完这一部分，你应该能了解最基本最常用的关于正则表达式的概念，并把它们应用的日常工作中去。

第二步，进阶，在这里，我们会跟进一步，介绍普通文字编辑软件没有提供，但正则表达式中常用的重要知识、譬如多选结构、分组等等。并辅以恰当的例子，让读者通过对比，深刻牢固地认识这些概念。可以说，如果能充分认识、恰当运用这些概念，就能完成80%基本的字符处理任务，这也是本书的重中之重。

第三步，深入，向读者介绍更复杂、更高级的功能。包括其它类型的量词、匹配模式、锚点等，并会讲解一些常见的应用思路。了解了这些概念，你就能玩出更炫更酷的花样，也能解决更复杂、更罕见的问题。另外，在本章，我们会简单介绍不同的语言对于正则表达式的实现，以及各自的特点。

对于一般人，掌握这些已经完全足够了，如果学完这些，你还不满足，要“百尺竿头更进一步”，推荐你阅读本人翻译的《精通正则表达式（第三版）》（Jeffery Friedl著，电子工业出版社2007年版）的高级内容，相信你一定会有新的收获。

本书的价值

可能有读者会问，现在关于正则表达式的书那么多，有《精通正则表达式》，有《正则表达式必知必会》……为什么还要有“傻瓜书”？

确实，为什么要有“傻瓜书”呢？我学正则表达式的时候，也就是生吞活剥了《精通正则表达式》的影印版，就大致掌握了这东西嘛。

不过，在后来的开发中，我逐渐发现，对于处于开发前线、需要亲手写正则表达式的广大同行，从阅读关于正则表达式的经典作品，到熟练解决手上的难题，还有一个艰难的过程。比如，我曾遇到过这样的任务：要把一段文本里的“湖南株洲”智能地替换为“湖南省株洲市”，简单的文本替换在这里是行不通的，因为原文中可能也存在“湖南株洲市”，简单替换之后就成了“湖南省株洲市市”（出现了两个重复的“市”）（程序员可能会说，用程序检查“株洲”之后的那个字符就可以了嘛，但这是不行的，因为可能遇到越界错误：如果文本最后的两个字符就是“株洲”，后面不存在任何字符，检查“后一个”字符的程序就会报错退出）。再比如，不同的语言/环境在对正则表达式的支持上也有细微的区别，许多时候我们明白“理论上”应该怎么做，但实际操作起来又有诸多掣肘（譬如在Apache的Rewrite规则中，怎样用一条表达式匹配“除aaa.somesite.com和bbb.somesite.com之外somesite.com的所有子域名”呢），该怎样绕过它们，很多书都没有讲，只能依靠猜测和经验来解决。本书在讲解相关的知识点时，会尽可能贴近实际的应用，举出针对具体开发环境的例子，降低大家从“阅读外版书借鉴国外经验”到“消化、吸收，应用到具体开发”之间的学习成本。

另一方面，不少关于正则表达式的书籍往往追求全面，把各条知识事无巨细地罗列出来。然而广大应用正则表达式的人员，却不太可能有精力通读这些“百科全书”，对他们来说，最重要的就是在遇到问题的时候迅速地找到最合适表达式，或者看懂某个复杂的表达式，加以改造，服务于自己的工作。这一点，我自己也深有体会。因此，本书会着重讲解一些常用的正则表达式，并提供它们在各种语言中的版本，并讲解一些常见问题的解决思路（常见的“与、或、非”的逻辑要怎么表达，掌握了这些，你就可以解决“长度在8到16之间，同时包含字母、数字、符号的密码字符串怎么用一条正则表达式验证”的问题了）；即便您找不到能直接使用的例子，也可以触类旁通。从某种意义上说，您也可以将本书放在案头，当成“正则表达式速查手册”。

最后，在《精通正则表达式》中文版出版之后，我收到了许多热心读者的来信，也看到许多读者的评论。有不少读者觉得，《精通》一书确实不错，但详略安排可以更好：许多简单的问题往往花费了太多时间，生怕读者不懂，而复杂问题的讲解又不够到位，读来总有十全九美的遗憾；也有读者觉得，《精通》的篇幅太长，价格太贵，并非人人都要“精通”，降低点成本，“够用”就好。有鉴于此，我会努力根据读者的意见，尽力调整这本书的详略安排。当然，贯彻始终的原则是“简明扼要”。毕竟，学习正则表达式就是为了节省时间，如果让读者在“不值得”的内容上浪费时间，就违背了本书的写作初衷。

勘误

我向读者保证会尽力避免犯错，但是我不敢保证这本书里没有错误。所以，如果您在阅读时发现有错误，请一定来信告知，您的意见，经过确认，会进入勘误列表，并在下次重印时进行订正。当然，我也欢迎您来信告知建议、感想。我的电子邮箱是 [email protected]，诚挚地等待您的邮件。