《精通正则表达式（第3版）》典型示例_精通正则表达式（第3版）全本免费在线阅读

A Sobering Example

首先来看一个真正体现回溯和效率的重要性的例子。在198页，我们用「＂（//.|[^//＂]）＊＂」来匹配引号字符串，其中容许出现转义的双引号。这个表达式没有错，但如果我们使用NFA引擎，对每个字符都应用多选结构的效率就会很低。对字符串中每个“正常”（非转义、非引用）的字符来说，这个引擎需要测试「//.」，遇到失败后回溯，最终由「[^//＂]」匹配。如果效率不容忽视，就应该做些改动来加快匹配速度。

稍加修改——先迈最好使的腿

A Simple Change—Placing Your Best Foot Forward

对于一般的双引号字符串来说，普通字符的数量比转义字符要多，一个简单的改动就是调换两个多选分支的顺序，把「[^//＂]」放到「//.」之前。这样，只有在遇到字符串中的转义字符时才会按照多选结构进行回溯（还有一次回溯是星号无法匹配引起的，此时所有的多选分支都匹配失败，所以整个多选结构无法匹配）。图6-1说明了其中的差异。箭头数量的减少，说明第一个多选分支的成功匹配次数增加了，也就是说回溯的次数减少了。

图6-1：多选分支排列顺序的影响（传统型NFA）

请从下面几个方面评价这个修改：

●哪种引擎从中获益？传统型NFA，或者POSIX NFA，或是两者？

●什么情况下，这种修改带来的收益最大？在文本能够匹配时，无法匹配时，还是所有时候。

ϖ 请思考这些问题，翻到下一页查看答案。在阅读下一节以前，务必理解答案（及原因）。

效率vs准确性

Efficiency Versus Correctness

为提高效率修改正则表达式时最需要考虑的问题是，改动是否会影响匹配的准确性。像上面那样重新安排多选分支的顺序，只有在排序与匹配成功无关时才不会影响准确性。前一章出现的「＂（//.|[^＂]）＊＂」（☞197）的例子是有缺陷的。如果正则表达式只需要（should）应用于格式正确的字符串，此问题永远也不会暴露出来。如果认为这个表达式很不错，改动的确提高了效率，我们就会遇到真正的问题。交换多选分支，把「[^＂]」放在前面，避免表达式进行不正确的匹配，如果目标字符串包含一个转义的双引号：

所以，在关注效率的时候，万不可忘记准确性。

继续前进——限制匹配优先的作用范围

Advancing Further—Localizing the Greediness

从图6-1可以看出，在任意正则表达式中，星号会对每个普通字符进行迭代（或者说“重复”），重复进入-退出多选结构（和括号）。这需要成本，也就是额外的处理——如果可能，我们必须避免这些额外处理。

有一次，在处理这类正则表达式时，我想到一个优化的办法，考虑到「[^//＂]」匹配“普通”（非引号，非反斜线）的情况，使用「[^//＂]+」会在（…）＊的一次迭代中读入尽可能多的字符。对没有转义字符的字符串来说，这样会一次读入整个字符串。于是就几乎不会进行回溯，也就把星号迭代的次数减少到最小。我很为自己的发现而高兴。

我们会在本章更深入地考察这个例子，不过看一眼统计数据会清楚地发现好处。图6-2展示了传统型 NFA 上应用这个例子的情况。比较原来的「＂（//.|[^//＂]）＊＂」（上面的两个表达式），与多选结构相关的回溯和星号迭代都减少了。下面的两个例子说明，结合之前的重排序技巧，这种修改会带来更多的收益。

图6-2：添加加号的结果（传统型NFA）

新增的加号大大减少了多选结构回溯的次数，以及星号的迭代次数。星号量词作用于括号内的子表达式，每次迭代都需要进入然后再退出括号，这都需要成本，因为引擎需要记录括号内的子表达式匹配的文本（本章会深入探讨此问题）。

表6-1与第224页答案中的表格类似，不过表达式不同，另外还给出了星号的迭代次数。在每种情况下，独立测试次数和回溯次数的增加都很有限，但是迭代次数有了显著降低，这是很大的进步。

表6-1：传统型NFA的匹配效率

实测

Reality Check

是的，我对自己的发现颇为得意。但这个看起来很奇妙的“改动”不过是场还未爆发的灾难。你可能注意到了，在考察它的各项指标时，我没有给出POSIX NFA的统计数据。如果这样做，你可能会很惊奇地发现＂＂的匹配需要超过 3 亿亿亿次（实际上是324 518 553 658 426 726 783 156 020 576 256）回溯。说简单点就是，回溯是个天文数字。这需要超过50百亿亿（quintillion）年，或者是若干千万亿个千年（注1）。

确实很出乎意料！那么，为什么会发生这种情况呢？简单地说，原因在于——这个正则表达式中某个元素受加号限定的同时，还受括号外的星号限定，无法区分哪个量词控制哪个特殊的字符。这种不确定性就是症结。下一节给出了详细解释。

“指数级”匹配

没有添加星号时，「[^//＂]」是星号的约束对象，真正的「（[^//＂]）＊」能够匹配的字符是有限的。它先匹配一个字符，然后匹配下一个字符，如此继续，最多就是匹配目标文本中的每个字符。它也可能无法匹配目标字符串中的所有字符，不过，充其量，匹配字符的个数与目标字符串的长度成线性关系。目标字符串越长，可能的工作量相对也越大。

但是，对正则表达式的「（[^//＂]+）＊」来说，加号和星号二者分割（pvy up）字符串的可能性是成指数形式增长的。如果目标字符串是 makudonarudo，是星号会迭代12次，每一次迭代中「[^//＂]+」匹配一个字符（就像这样）？还是星号迭代3次，内部的「[^//＂]+」分别匹配 5、3、4 个字符（’）？或者 2、2、5、3 个字符（‘’）？还是其他……

你现在知道，存在许多种可能（对长度为12的字符串存在4 096种可能）。字符串中的每个字符，都存在两种可能，POSIX NFA在给出结果之前必须尝试所有可能。这就是“指数级匹配”的来历。我还听说过一个不错的名字：“超线性（super-linear）”。

无论叫什么名字，终归都是回溯，大量的回溯（注2）！12个字符需要4 096种可能，这可能不需要多久时间，不过20个字符需要超过一百万种可能，时间长达若干秒。30个字符，就需要超过十亿种可能，长达若干小时，如果是40个字符，就需要一年多的时间。这显然不是什么好事情。

你可能会想，“没关系，POSIX NFA 并不常见。我知道我的工具用的是传统型NFA，所以这问题对我不存在。”的确，POSIX NFA和传统型NFA的主要差别在于，传统型NFA在遇到第一个完整匹配可能时会停止。如果没有完整匹配，即使是传统型NFA也需要尝试所有的可能，在找到之前。即使是前面提到的＂No·＂match＂·here这样短短的字符串，在报告失败之前，也需要尝试8 192种可能。

在正则引擎忙于尝试这些数量庞大的可能时，整个程序看起来好像“锁死（lock up）”了。我第一次遇到这种情况时，以为自己发现了程序的bug，不过现在我理解了，现在我把这个正则表达式加入自己的正则表达式工具包里，用来测试引擎的类型。

●如果其中的某个表达式，即使不能匹配，也能很快给出结果，那可能就是DFA。

●如果只有在能够匹配时才很快出结果，那就是传统型NFA。

●如果总是很慢，那就是POSIX NFA。

第一个判断中我使用了“可能”这个单词，因为经过高级优化的NFA没准能检测并且避免这些指数级的无休止（neverending）匹配（详见本章后文☞250）。同样，我们会见到各种方法来改进或重写这些表达式，加快它们匹配或报错的速度。

前面列出的几点表明，如果排除某些高级优化的影响，就能根据正则表达式的相对性能判断引擎的类型。这就是第4章中（☞146）我们能用某些正则表达式来“测试引擎的类型”的原因。

当然，不是每点改动都会带来像本例一样的灾难性后果，不过除非知道正则表达式的幕后原理，否则在实际运行之前永远不能判断后果。为此，本章考察了各种例子的效率和后果。不过，对许多事来说，牢固理解基本概念对深入学习是非常重要的；所以，在讲解指数级匹配之前，我们不妨仔细复习复习回溯。