Categories: Yurii谈开发

浅谈范式

本文由Yurii原创,转载请注明来源: Life Sailor

本文链接 浅谈范式


最近的面试中我发现一个很有意思的现象。问“还记得数据库范式吗?”,大多数工作了几年的开发人员都答不上来,但是其中大多数人会补充说“虽然我不记得范式了,但我可以保证自己设计的数据库肯定都是符合范式的”。

身为技术人员,大家都知道逻辑的重要性,那么逻辑的结论就是:范式这东西完全不重要,不记得了也不妨碍使用,而且不会出错。这种结论似乎有点不合逻辑,所以有必要专门谈谈范式。

很多人都知道有“数据库”这种东西,但“数据库”对他们来说只是“存放数据的仓库”而已,这是大错特错的。我们常说的“数据库”,其实是“关系型数据库”的简称,常说的DBMS(数据库管理系统)其实是RDBMS(关系型数据管理系统)。其中的“关系”来自关系模型,这是Edgar F. Codd教授在1969年提出的,使用遵循一阶逻辑的语言和结构来管理数据的模型。在这种模型下,所有的数据首先表现为n元组(tuple,和Python中的tuple不完全一样),n元组组合起来成为关系(relation)。按照关系模型构建起来的数据库,就叫“关系型数据库”。

如果上面的解释有些抽象,下面给出了5个n元组的例子:

  • 小明, 20, 172m, 74kg
  • 小李, 18, 168m, 60kg
  • 小张, 30, 188m, 90kg
  • 小王, 男, 物理系, 大三, 单身
  • 小陈, 女, 中文系, 大一, 非单身

虽然看起来很直白,我们还是应该从关系模型来讨论。前3个是4元组,后2个是5元组。在n元组内,每个元素都可以称为“属性”,同类的n元组集合起来,称为“关系”。

如果上面的讨论让你觉得抽象,把这些概念换成具体的实现就容易理解了。“属性”对应“列”,“关系”对应“表”,这就是我们日常要应对的数据库的样子了。但是请记得,列和表只是具体的落地方式,讨论关系模型时我们应该谈的概念是“属性”和“关系”。

基于关系模型,Codd教授提出了“规范化”的概念,也就是在不丢失数据的前提下,把表拆分为更小、冗余度更少的表,同时可以通过不同表之间的外键引用“组装”出原有表的信息。我们说的“范式”就是“规范化的要求”,其中第1范式由Codd教授在1970年提出,第2、第3范式由Codd教授在1971年提出。范式之间是递进的,也就是说,满足第2范式的前提是满足第1范式,满足第3范式的前提是满足第2范式。通常,如果一张表满足了第3范式,就认为这张表是“规范化”的,在增删改查操作时不会出现异常。

下面详细看看这3个范式。

第1范式:属性不能拆分

换句话说,表中间的任何列都应当是承载信息的最小单位,不容许有更小的单位。一个人有身高、体重、性别等等,那么身高、体重、性别都应该对应专门的列,而不能取个名为“基本信息”的列,把这些信息统统塞进去。

实际开发中,把身高体重性别等信息都挤在同一列里的情况当然很少出现,但很多人喜欢把数目不定的属性(尤其是标签)用逗号连起来塞到同一列里。这多半是因为分不清楚数据存储模型和表现形式,看到显示的时候可以用逗号连起来,就想到在数据库里也可以用逗号连起来。谁如果做过这样的事情,还大言不惭地说“我设计的表都符合范式”,真应该拉出去打屁股。


上面的表不符合第一范式,因为“爱好”这个属性可以拆分。

有人可能会不服气“这样有什么坏处呢,这样存储也没有问题,我用like来检索就好了呀”。没错,高射炮也可以打蚊子,菜刀也可以用来割草,只是会损失原有的设计功效。数据库也一样,如果列可以拆分为多列,那么SQL语句中的很多功能就不能用了——比如大小于判断、索引等等——因为这些功能设计时考虑的最小单位就是“属性”,而不是“属性中的属性”。如果你愿意打破第一范式,就必须舍弃SQL本身的若干功能。

要把不符合第1范式的表“改造”为符合第一范式,有很多办法。比如把“爱好”单独拿出来创建一张表。当然,这样在查询“有某个爱好的人”时,操作逻辑就没有那么直观了,而且这样的表看起来“增长很快”。

第2范式:主键必须最小

主键是这样的属性:对某个关系中所有n元组来说,主键必须是没有重复的,所以依靠它可以唯一定位某个n元组。主键可以是一个属性,也可以是多个属性。如果用列和表的说法,就是“唯一定位表中某行所要用到的列”。

假设有一个电商卖家对接到电商平台,用表来存储订单信息,如果所有订单都来自同一个平台,可以用“平台订单号”作为主键;如果来自不同平台,各平台的订单号可能会重复,所以可以用“平台+订单号”作为主键……以此类推。

第2范式的要求是:在满足第1范式的基础上,所有非主属性(主键之外的属性)必须完全依赖主键,而不能只依赖主键的某个子集。


上面的表不符合第二范式,主键是“平台+订单号”,这样才能区分金额,但是“对接人邮箱”只与“平台”有关,而“平台”是“平台+订单号”的子集。

我们经常看到数据库的表会有一个毫无业务意义的自增字段作为主键,这样就保证了第二范式,因为主键只有一个属性,不存在真子集。同时,应当把非主属性和原来它依赖的“主键的子集”单独拿出来建表,比如建立一张“平台+对接人邮箱”的表格。

第3范式:主键必须直接依赖

要满足第2范式,首先必须满足第1范式。同样的道理,要满足第3范式,首先也必须满足第2范式,并符合以下要求:所有非主属性对主键的依赖应当是直接的,不容许是间接的。也就是说,所有非主属性不容许依赖主键之外的属性。


上面的表不符合第三范式。主键是“平台+冠军种类”,但属性“品牌联系人邮箱”依赖于主键之外的属性“品牌”,虽然“品牌”依赖于表的主键,但“品牌联系人邮箱”对主键依赖是传递的。

要让表符合第3范式,可以解除传递依赖,把对应的属性拆分出来单独创建表,比如把“品牌”和“品牌联系人邮箱”单独创建表。

以上就是第1、第2、第3范式的简单讲解,如果我们仔细观察就会发现,这些范式背后都体现出“出现重复数据”的目的,一旦出现了重复数据,就要想办法把这些数据单独抽离出来单独建表,再通过外键这种“指针”来构建关系。这样做的好处不只是节省磁盘空间,还保证了数据一致性:数据库系统能够保证ACID四个特性,但如果表中存在冗余数据,同一份数据存在多个副本,是很难从逻辑上保证一致性的。如果让应用程序来保证一致性,哎还是算了吧,很多程序员早就被数据库给惯坏了,脑子里根本就没有“一致性”和“临界区”的弦。

但是“规范化”并不是万灵药,去除数据冗余性的反面就是,某些看来简单的操作,经常需要涉及多张表,这无疑会影响效率。如果遇到这种情况,就要适当进行“去规范化”的操作,增加数据冗余性,以提高操作的速度。

比如常见的“订单查询”页面,可能要同时展现订单基本信息、客户购买记录、客户收货地址、最新物流信息等信息,如果严格按照规范化建表,那么涉及的表可能很多,这个操作可能耗时很长,如果这是一个每天要执行很多次的操作,很可能就会成为系统的瓶颈。如果适当增加冗余性,把常用的数据集中存放到少数表里,每次简单查询就可以获得,就可以解决这种问题。

以上说的“去规范化”,是建立在对“规范化”和应用场景的熟悉理解,对数据模型的深入思考的基础之上做出的权衡,绝对不是不懂规范化也可以随意胡来的。但凡复杂一点的系统,都值得花足够的时间来思考基础的数据模型和它们之间的关系,这些东西不但会影响程序的运行,还会影响所有开发人员的认知。因为网页上的很多数据看起来是表格形式,就直接就照看得见的样子去建数据库的表,导致应用系统内部一塌糊涂,开发的时候举步维艰,这样的例子已经见得太多了。

顺道还可以谈谈OLTP和OLAP,在业界经常可以看到OLTP和OLAP两种应用分类,也对应着完全不同的数据库建表取向。OLTP是On-Line Transaction Processing,PLAP是On-Line Analysis Processing。前者侧重在“交易”,强调速度,只处理少量数据,所以通常会对规范化有比较高的要求;后者侧重在“分析”,不强调速度,经常要面对海量数据,所以对规范化不会有那么高的要求。这些概念看起来简单,不幸的是在实际开发中,把OLTP和OLAP搞混的还是大有人在,这多半只能说明“缺乏常识”了。

最后谈谈NoSQL。

问很多开发人员“什么是NoSQL”,很多人回答“就是MongoDB、Redis、Memcache”,再问“为什么要有NoSQL”,就答不上来了,这多少有点让人惋惜。

之前讲过,现在的DBMS其实都是RDBMS,R表示“关系”。“关系”这种概念,是非常适用于银行记账等等场合的,但是未必适合各种场合。比如之前谈到的一个人可能有很多种爱好,这是很自然的认知,程序处理起来也很容易,但为了符合第1范式,就必须新建单独的“爱好”表,如果存在“爱好里面还有细分爱好”的嵌套关系,关系模型处理起来就更加麻烦了。说到底,这根本不是一种“关系型”的模型(我甚至觉得,大段的文章本来都是“不应当”存放在数据库里的)。

而且随着IT技术的飞速发展,各种系统要面对的数据量都在飞速增长。之前成熟的RDBMS面对的问题规模都比较小,几十几百万,甚至上千万的数据处理能力,对日常记账或者图书管理、仓库管理来说已经非常足够了,但面对互联网上动辄几亿几十亿的数据量(微博、图片等等)就为难了,加上还必须保证以前关系数据模型的各种特性,已经不堪重负了。

从这两个方面来看,NoSQL的出现也就不足为奇了。它可能只有非常简单的数据类型和特性支持,但换来了对海量数据的支持(有人说某些NoSQL也支持“事务”,但这个“事务”和关系数据库的“事务”不是一回事);它可能没有那么严格规范美观,但支持现实中的各种需求,比如各种复杂的数据类型(文档、键值型、列表、集合等等),为开发提供了巨大的便利。

NoSQL带来了灵活性,也带来了混乱。因为关系型数据库背后是有一整套理论模型存在的,脱离了这套模型,“外面的世界”到底什么样,应当用怎样的模型来解决问题,某种模型适用于哪些问题哪些领域,目前还没有定论,所以MongoDB和Redis之间的差别,远远超过MSSQL和MySQL之间的差别。毕竟,破总比立要容易。

归根到底,到底是选择RDBMS还是NoSQL,如何选择NoSQL,还是取决于开发人员对领域问题的认识,以及对各种工具的理解——如果坦然抱着“我不懂范式但这不妨碍我建表”的超然态度,多半是解决不了这个问题的。


最后推荐《数据库:原理、性能与编程》,高等教育出版社2001年出的影印版。我很庆幸自己在大学里遇到了这本教材,从关系代数开始,把关系模型和数据库讲得深入浅出。观念对了,后续的开发就会受益无穷。点击“阅读原文”可以到达亚马逊购买链接。

Yurii

View Comments

Recent Posts

德国生活点滴:歧视比你想象的要复杂(续)

在上一篇文章里,我列举了一些种族歧视现象的亲身经历,引发了许多读者的讨论。但是让我略感遗憾的是,许多人大概没有注意文章的标题,没有觉察到关键是“比想象的要复杂”,所以直接给出了一个简单的论断。 我的本意绝不是强化已有的简单粗疏的刻板印象,而是希望让大家知道,种族歧视这回事,有许多的侧面和细节。了解这些侧面和细节,有助于我们形成更立体的认知。 于是就有了下面这些内容,希望能引发大家的思考。 一 种族歧视是一种最简单粗暴的歧视。 许多人都知道,“歧视”的英文是discriminate,准确的意思是“区别对待”。既然要区别对待,就自然首先必须有办法区分。目力所及,似乎没有人愿意“区别对待”与自己完全同样的人,而总是要先找出一点区别来,再实行区别对待。 所以,种族、口音、家庭出身、经济能力等等各种因素,都可以成为“区别”的指标,由此催生出区别对待。在这些因素当中,种族大概是最容易识别的特征——判断口音需要等对方开口,家庭出身、经济能力等等因素就更是要全面接触才可能了解。唯有种族,具体来说,绝大多数时候是相貌和肤色,是可以远远一眼就望见的。 也恰恰是因为这个原因,种族歧视特别容易引起反感。 这些年来,我得到的一条重要的生活经验是,如果你希望指出对方的问题,但又不纯粹是为了激怒对方,那么最好不要归因为一些木已成舟,对方无法改变的因素,否则对方多半会恼羞成怒。 举个例子,你觉得某人的口语表达还可以更好一点,完全可以直接给出具体的建议。但是如果从“经济不发达地区来的人就是口语差”,或者“个子矮的人就是没自信心来表达”,那几乎一定会制造矛盾。因为“口语表达”是可以改进的,加以锻炼将来肯定更好,而“不发达地区来的人”和“个子矮的人”就像烙印一样,是无法摆脱的。这种话说出来,对方哪怕有意愿改进,也会觉得无奈甚至恼怒。 种族歧视也是这样,“种族”同样是一种烙印,是无法摆脱的。所以当对某些人的判断与种族挂钩的时候,他或她必然感到无奈甚至愤怒。况且老话说“人上一百,形形色色;人上一万,千奇百怪”。哪怕是同一个种族的人,也可能在肤色、相貌之外完全找不到相同点。先入为主地用种族去对其他人下判断,无论是从情感反应上,还是从逻辑上,都是站不住脚的。 (more…)

4 days ago

德国生活点滴:歧视比你想象的要复杂

去年初的时候,小朋友冰球俱乐部来了个新教练Robo。Robo来自加拿大,总是一副很健谈很乐观的样子,而且很喜欢放音乐,把整个训练场搞得热情四射。最关键的是,小朋友们好像都很喜欢他,不但许多动作耐心示范,对每个人的指导也相当到位。而且,他的英语很好,人又很喜欢开玩笑,所以我们交谈很多,他总是跟我说:“你家的小朋友超级酷的,不要给他太大压力,只要他自己运动起来足够自在,能够持续练下去,就是最好的。” 没想到的是,到去年9月份,Robo忽然神秘失踪了,没有任何征兆,也没有任何说明,就此人间蒸发了一般。问其他的教练,也是语焉不详。小朋友训练完,偶尔会失落地跟我说“好久没看到Robo了,不知道他哪里去了。” 3月份的时候,一个偶然的机会,我又见到了Robo,虽然当时时间很紧张,只是打了个照面,但我要他留下了联系方式。 当天晚上我问他:哥们,你怎么忽然就不见了,大家都很想你啊。 过会儿我收到他的回复:我也很想念小孩子们,你儿子很酷……我现在没在那个俱乐部了,因为其他几个教练总是或明或暗地针对我,仅仅因为我的肤色,这是我受不了的。 (more…)

4 days ago

在德国, 全远程+共享空间办公,是什么体验?

注:原文发布于2023年1月16日 到1月份为止,我已经体验了几个月的全远程+共享空间办公了。有不少朋友听说之后很有兴趣,问我到底是什么感觉,所以我简单介绍下个人的体验。 背景 2019年末、2020年初开始在全球流行的Covid-19对远程办公来说,绝对是黑天鹅一般的存在。因为疫情导致的社交隔离措施,极大影响了各大公司的正常运转。 所幸,IT类公司受到的影响比较小,只要求员工“面对屏幕编程”,不必亲临现场。所以,许多IT公司也谨小慎微地开展了远程办公的试验。 从我所知道的结果来看,不少美国公司并不特别喜欢远程办公,比如Google,一旦社交隔离措施有所放松,就忙不迭要求员工回到办公室,盖因为公司认为远程办公严重影响合作效率。 与此相反,不少德国公司反倒是逐渐适应了远程办公的节奏,纷纷降低对员工“到办公室上班”的要求,许多公司甚至可以支持百分百的远程办公。 这里要提到的是,德国公司说的“远程办公”往往是货真价实的“远程”,而不是一些人理解的“家和办公室在同一个城市,只是不用去办公室”而已。 因为德国IT行业缺人严重,而且许多德国公司并没有那么“互联网”,而是依托实业开展业务,所以据我所知,目前不少公司非但没有裁员,反而都在大力招人。 (more…)

4 weeks ago

成年人找工作,不值得那么多愁善感

注:本文发布于2023年2月6日 最近硅谷几大公司都在裁员,看了些报道,被裁的员工真是不好过。损失经济来源不说,有些人还面临身份问题,这可真是屋漏偏逢连夜雨。 我也留意到,不少被裁的人会不停追问自己:为什么我会遇到这样的事情?为什么这样的不幸会降临到我头上?…… 实话说,我挺能理解这种态度。这挫折如此巨大,似乎又来得全无预兆,不由得让人对命运、对人生、对世界产生深重的怀疑。尤其是对已经走入社会,取得一定成就(如果非要抠字眼,那就用“进展”吧)的人来说,更是如此。 但是我更想说,如果被裁员了,当务之急是赶紧找到下一份工作,哪怕只是机械地行动。要知道,成年人找工作,容不下那么多愁善感。 我之所以这么说,是有切身经历为基础的。之前我讲过找德国工作的经历。最开始是信心十足的,因为虽然毕业多年,手艺没丢,基础还在,随时打开leetcode,中等难度题目基本都不在话下,不但能解对,解法也基本接近最优。既然网上都说“刷题就能找到工作”,估计自己应该没大问题。 没想到真的找起工作来,仍然充满了意想不到的挫折。如果不相信,我且举几个例子吧。 (more…)

4 weeks ago

我读《园丁与木匠》

虽然早就听说《园丁与木匠》是关于育儿的好书,但一直没开始读。最近终于翻开这本书,才发现属于“拿起就很难放下”的类型,加班加点读完,收获不少。 关于这本书的价值,已经有许多书评讨论过了,所以我想略过微言大义、长篇大论的叙述,谈谈我印象最深,也是最打动我的三点细节。 第一,儿童的学习方式 小孩子觉得拧螺丝很好玩,想自己动手拧一颗螺丝。于是,他打开了工具箱,对着琳琅满目的工具,他不知所措。一会儿摸摸钳子,一会儿试试扳手……这时候,旁边的父母应当怎么办? 在大多数情况下,父母大概会直接告诉孩子,“亲爱的,你应该用螺丝刀,来,我告诉你”。耐心一点的父母,大概会潜心观察一段孩子的举动,再设法“引导”他到正确的工具上来。在父母眼里,孩子当然不可能一开始就找对正确答案,所以做各种尝试也是情有可原。但是另一方面,也不应该“在错误的路径上摸索太久,浪费时间”,应当“迅速识别出正确的答案”。 无论父母有多少耐心,在他们眼里,孩子找到拧螺丝的工具的过程,都是个“不断接近正确答案”的过程。这个过程越短,孩子就越“聪明”,或者说“学习效率”就越高。 (more…)

4 weeks ago

再见,或许就是再也不见

陈皓(Haoel,网名“左耳朵耗子”)上周六因为突发心梗去世了,享年47岁。 我跟他虽然聊过好些次,但只是微信好友,从未见过面。回看微信记录,当年稀松平常的一声“再见”,已经成了“再也不见”。 许多人在缅怀他,许多文章提到他的时候,会用到“骨灰级程序员”、“技术大牛”这样的称呼。但如果仅仅用这两个词描述他,断然难以解释,为什么他的突然去世,会引发互联网上怀念的狂潮。 所以,我更愿意按照自己的经验,把他描绘为“有坦诚追求,兼具趣味、操守、胸怀的技术人”。恰恰是因为这样的人在这个年代太稀少,而这些品质又让众多人赏识和受益,大家才会如此地怀念他。 这个年代,做技术(仅指狭义的IT)的人很多,愿意分享的人也不在少数,其中不少还可以算世俗意义上的“成功者”。 但是,若仔细去看他们分享的内容,总感觉不够真诚。总感觉作者希望往高深了靠,目的也没有那么纯粹。你若提一些小白问题,迎来的往往是“你怎么连这都不知道?”的反问,或者“要谈这个问题,你先去看几本书再说吧”。话是这么说没错,但无数的初学者也往往因此打了退堂鼓。 但是陈皓的分享不同。我已经不止一次地看到有人提起,他分享——更准确说,是“创作”——的内容质量很高,而且总能做到“深入浅出”。哪怕是小白读者,看完也确实能有收获,如果还有兴趣,更可以跟着文末的链接,顺藤摸瓜探究更广阔的世界。 这让我想起我佩服的一位记者说的:记者写文章的最高境界,就是不表达自己的观点,因为记者的观点应当来自于他的素材。只要把这些素材摆出来,读者读完报道,观点就自然形成了。要做到这一点,需要对素材有足够的信心和把握,外加真诚和坦荡。 能做到这一点的记者,着实不多。陈皓虽然不是记者,他写的技术文章却能让读者得到类似的结论——要知道,技术讨论往往是非常容易擦枪走火的——可见他运用素材和逻辑的功力,以及更重要的,他的真诚和坦荡。 (more…)

4 weeks ago