摆脱童稚状态
(果壳网)
中国民间有一个“七十三,八十四,阎王不请自己去”的说法,说在这两个年龄上的人更容易去世。这个定律从直觉上就不太可能是对的。我们设想,应该是因为孔子和孟子分别死于这两个年龄,人们认为这是人生中的两道大关,然后每当听说有人在这个年龄去世都会进一步加深印象,以至于总结了这个纯粹是错觉的定律。但有人不满足于直觉分析。
一篇网上流传的文章认为这是一个“科学家验证”了的规律:“科学家的回答是肯定的”。这篇文章说“科学家们经过了反复的研究”,发现“人的生命有一个周期性的规律,大致是7~8年为一个周期”,而73和84岁正是这个周期的低潮。我不知道这个周期学说是哪个科学家的理论,也许来自某人解读的《黄帝内经》罢。但问题不在这里。
问题是,这篇文章把“能找到一个理论解释”,当成判断一个学说是否科学的标准 — 如果能用理论解释,它就是科学验证了的么?
绝学与证据
不管你用来解释的理论对不对,这都是一个错误的判断标准。能用理论解释的结论未必正确,不能用理论解释的结论未必错误。古代文人的思维习惯,是遇到无法判断对错的局面就查经典,想获得理论上的指导。而科学家的方法则要朴素得多:你直接用事实验证一下不就行了么?我们根本不需要任何学派的任何医学知识,甚至不需要什么逻辑推理,只要随便找个死亡年龄分布数据就会发现73岁和84岁并不比其临近年龄更容易让人死亡。这个工作是如此简单,据说连北京电视台都做过。
古人说“为往圣继绝学”,很多现代人也追求用某种特定理论来指导实践,好像不用这个理论就对不起别人一样。科学家不从绝学出发,而选择从证据出发的根本原因不仅仅是科学尚未达到找到绝学的程度(物理学家仍未找到统一理论),更是因为就算有绝学也无法放之四海而皆准。就算我们完全知道人脑中每一个原子,进而到每一个大分子,进而到每一个细胞是怎么回事,也无法从中计算出心理学来 — 因为这是不同尺度上的问题,这种跨尺度的计算量大到了即使是科幻世界里也不可能的程度。
所以科学家强调事实。科学放弃了从一套最基本的哲学出发推导所有结论的尝试,改为在每一个领域内就事论事地搜集事实。有人指责科学家说你们相信现代科学理论难道不也是一种迷信么?但科学家其实不迷信任何理论 — 很多情况下他们完全用不上什么绝学,唯一做的事情就是把事实搜集在一起,就好像集邮一样。只要有证据,反驳一个理论是非常简单的事情。
但是要想用证据建立一个理论,则要困难得多。只有运气好的时候,科学家才能在大量事实中发现一些有趣的规律,以至于可以向形成科学理论的目标前进一步。
相关性思维
最简单的规律叫做“相关性”。人是如此复杂的东西,我们根本没办法精密计算各种物质致癌的概率,比如说吸烟对肺癌的作用。科学家常用的是没有什么技术含量,不需要任何高科技仪器,更谈不上什么门派的办法:他们直接调查吸烟人群和不吸烟人群的肺癌发病率。
这种研究要把被调查的人分组,比如分成两组:得了这种病的患者一组(叫病例组,case),没有这种病的人一组(对照组,control)。然后考察这两 组人在生活习惯上和饮食、吃药方面有什么不同。如果你发现患有肺癌的人中烟民比例显著地高于没有肺癌的人,你就得到了肺癌与吸烟的一个正的“相关性”。这个方法很简单,得到的证据却是强硬的。睡眠时间与判断力的关系,孕妇焦虑与小孩任性的关系,出生季节与平均寿命的关系 — 我们看到的大量科学新闻本质上都是相关性研究。
相关性研究只是科研的初级阶段。但就是这样它也已经超越了我们的思维本能。某些人只要被某地区生产的产品坑过一次,就会认为这个地区的所有产品都不好,他们的发现连相关性都算不上。我们每天看到铺天盖地的各种营养品的广告往往都能找到几个用户出来现身说法,可就是没有一个疗效相关性的数据。“一朝被蛇咬十年怕井绳”,是人这种动物的最自然思维,而使用大规模统计发现实在的相关性这个最简单的科学方法,是我们摆脱童稚状态的第一步。
绝大多数人没有相关性思维。比如在一篇讨伐网瘾的文章中,作者援引“戒网专家”陶宏开的数据说,
中国80%的青少年犯罪与网瘾有关,中国20%的网瘾少年有违法犯罪行为。
在另一篇文章中则有人进一步指出
济南在押的1500名少年犯中,80%是“网瘾”造成的,北京更是有90%的青少年犯罪案与“网瘾”有关。
我们能否根据这些数字得出结论说网瘾人群比没有网瘾的人群更容易犯罪呢?
不能。我可以构建这么一个国家,这个国家80%以上的青少年有网瘾,而这个国家的所有青少年,不管有没有网瘾,都有20%的犯罪概率。这个虚拟国家完美符合以上数据,但是它的犯罪与网瘾完全无关。实际上,如果你把“网瘾”改成“钱”,甚至“空气”,那么我们可以说“中国xx%的青少年犯罪者都缺钱/需要空气,中国yy%的缺钱者/需要空气者有犯罪行为”,而缺钱和需要空气不是毛病。
这个错误就是没有建立对照组。我们缺少的关键数据是没有网瘾的青少年的犯罪率,以及没有犯罪的青少年的网瘾率。这是一个非常常见的错误。这就好比说列举再多“发达的民主国家”,也不能说明民主与发达的相关性,你还必须统计那些不发达的民主国家、不民主的发达国家、和既不发达也不民主的国家。
发现相关性,已经是一个足够发表的科学成就,但相关性结论并不能指导实际生活。假设我用无可质疑的统计事实告诉你“吸烟的人更容易得肺癌”,而你不想得肺癌,那么你是否能推论出应该因此戒烟呢?
怎样发现因果
还是不能。因为你无法从“吸烟的人更容易得肺癌”,和“肺癌患者大部分都爱吸烟”这两个统计得出“吸烟导致肺癌”这个因果。也可能肺癌导致吸烟,比如说也许癌变的肺会使人对烟产生需求。也可能存在某种基因,这种基因会使得一个人天生就容易得肺癌,而这种基因同时还让一个人天生就喜欢吸烟。也可能吸烟的人往往是喜欢深夜工作的人,是深夜工作导致肺癌。也可能吸烟的人往往是经济状况比较差的人,其居住环境和营养不行,是贫困导致肺癌。
有相关性未必说明有因果关系,这是一个非常重要的思维。中国青少年网络协会和中国传媒大学调查统计研究所发布的《2009年青少年网瘾调查报告》是一份值得发表的研究,因为其中给出了一些明确的相关性数据,比如:
自我评价学习成绩越不好的在校学生中,网瘾青少年的比例越高。认为自己“成绩较差”的学生中,网瘾青少年的比例达到28.7%,认为自己“成绩一般”的学生中,网瘾青少年的比例为14.5%。而自我评价“成绩很好”和“成绩较好”的 学生中,网瘾青少年的比例均在11%左右。
那么根据这份报告我们能否得出结论说网瘾是个坏东西呢?
不能。也许并不是因为网瘾导致青少年成绩差,而是那些成绩差的青少年更容易得网瘾。报告没有统计网瘾与犯罪率的关系,但就算真的是越有网瘾的人群越容易犯罪,我们仍然不能说网瘾导致犯罪。比如我可以提出这么一个假说:
我认为网瘾是个好东西,因为它可以减少青少年犯罪。在任何国家的任何时候,都一帮青少年对学习不感兴趣,整天无所事事。他们喜爱在街上游荡,都是潜在的犯罪者。因为网络游戏的出现,相当一部分这样的人被留在了家中和网吧里,他们的野性在游戏中得到了发泄,以至于减少了出去犯罪的欲望和时间。
报告和前面提到的所有统计数字都无法反驳我这个假说。我甚至可以用这份报告支持我的假说。报告中提到一个有意思的统计是“在社会经济发展水平低的城市,网瘾青少年的比例更高”,这正好可以说明无所事事的人更容易得网瘾。
想要明确证明吸烟导致肺癌,唯一的办法是做实验。找完全相同的两组健康的人,让其中一组吸烟另一组不吸,其它各方面生活都完全一致。20年之后如果吸烟组中的肺癌患者数高于不吸烟组,那么鉴于这两个组的唯一区别就是吸烟,我们就可以断定是吸烟导致了肺癌。
可是现实世界中根本不存在“完全相同”的两组人,这种理想实验无法进行。好在科学家有一个退而求其次的巧妙办法:找一群人,然后完全随机地把他们分为两组去做实验。在样本数足够大的情况下,随机性可以保证任何不同因素都可以大致均匀地分配到两个组里。这就是在关于人的研究中最重要,也是最可靠的办法。然而世界上不存在绝对完美的随机实验,比如为了让实验结果具备推广价值,样本应该尽量多样化,男女老幼,各种收入状况,各个种族都有才好,但这其实很难做到。很多实验心理学家选择的样本全是在校大学生,他们的结果能推广到所有人么?有人对此讥讽说他们研究的心理学应该叫“大学生心理学”。
更大的困难在于,大多数情况下你不能拿人做试验,比如不能逼人吸烟。这时候就只能被动地集邮,而通过纯粹的被动调查来做研究的方法叫做 epidemiology(流行病学)。最容易的流行病学研究是所谓回顾性(retrospective)的问卷调查:先找到病人,然后询问并比较他们的生活方式。这种调查的难度在于病人对自己以往生活的回忆常常不准确,甚至是有偏见的。他们可能会自己推断一种病因,然后刻意地强调这种病因。就好像想要讨好医生一样,那些得了肺癌的人可能会夸大自己的吸烟史。一个更可靠的办法是前瞻性(prospective)调查。比如说科学家想知道核辐射对人体的损害,现在日本地震导致核泄漏之后哪些地区的哪些人受到了辐射是非常明确的,根本不用对他们进行问卷调查,自然也就没有偏见。有了干净的初始数据,科学家只要长期跟踪这些被打了核辐射标签的人群,再跟正常人对比,就可以知道辐射对人体的影响。可是这里的困难就在于“长期”,核辐射的影响也许几十年才能看出来,那时候也许病人还没死科学家已经先死了。
比如“孕妇焦虑与小孩任性的关系”这个研究,唯一可行的办法就是流行病学的调查,你不可能拿孕妇做实验。一篇2008年的论文是回顾性的,研究者找到一个治疗儿童多动症(ADHD)诊所的6-12岁的203个孩子,询问他们的妈妈怀孕的时候是否有过心理压力,结果发现怀孕时心理压力越大的妈妈,其孩子的症状更明显一点。这就是一个不太可靠的研究,有谁准确记得自己6年前的心态?多动症儿童的妈妈很可能会为了配合一个理论而高估自己当初的焦虑。
而一篇2011年的论文则是前瞻性的。研究者先锁定了澳大利亚某地的2900名孕妇,在怀孕的时候记录下离婚,搬家之类容易让人产生压力的事件。等她们的孩子长到2岁以后,再看其中哪些孩子有ADHD。这个研究就可靠得多了,而可靠的代价是研究要进行多年。
要想从流行病学研究中发现因果性,就必须尽可能的统计各种影响因素。怀孕压力与小孩多动症的相关性数据并不能直接说明压力导致多动症 — 也许那些在怀孕期间离婚的女人本身生活就不靠谱,是她们的不靠谱导致了孩子的多动症。所以这两篇论文都统计了一些其它的因素,比如孕妇是否吸烟喝酒啊,怀孕年龄啊,收入状况啊这些数字,然后使用统计方法把这些因素考虑进去(叫做 control),最后的结果才更有参考价值。可是你不可能统计所有的可能性,实际上两篇论文统计的项目就并不一致。这就需要把一系列论文放在一起综合分析。
不管调查到什么程度,都只是对真实世界的管中窥豹。科学研究的是有限的真理。当一篇论文说什么东西可能或者不可能导致什么疾病的时候,它说的其实是在这次研究所调查的这帮人里面有这么一个结论。这个结论能推广到所有人群么?记者一定比科学家更乐观。
科学的目标
得到因果性远远不是科学家的目标,科学不是一本写满什么东西会导致什么现象的菜谱。好的科学除了能证明因果关系之外,还必须有一个机制,得能解释为什么会有这种现象。比如二氧化碳增多导致全球变暖,其机制是二氧化碳是一种温室气体,它能够吸收从地面反射回空中的红外线,再把这个能量辐射出去促使大气温度升高。
相关性思维和因果性思维只是思维方式的转变,真正的技术含量在于发现机制。你必须说明是吸烟导致肺变黑,而变黑的肺容易得癌症,还是烟草中有什么化学物质可以直接致癌(正确答案是后者)。机制提出来之后,这个机制中的每一步也必须是可以验证的,一个课题只有做到这个程度才算超越了集邮阶段。也只有到了这个程度,才真正谈得上把各种不同机制综合在一起建立模型去预测未来。
有时候这个过程会反过来,也就是用现有的机制理论推导一些现象,再去寻找证据证实。但探索未知最基本科学方法是证据第一,然后谋求建立因果关系,然后是提出机制。仅仅是对其中一步作出很小的贡献,就可以发论文。大部分这样的论文事后会被证明没有太大意思,甚至是错误的。比如研究孕妇焦虑与儿童ADHD的论文虽然有好几篇,但它们说的其实是一个非常微弱的效应 — 也许将来我们会发现儿童多动症的真正原理根本就不是孕妇焦虑。但科学就是这么一个不断试错的过程。
每一篇论文都是我们从个人感觉到客观事实,从客观事实到因果关系,从因果关系到能推广使用的机制,这个过程中的一小步。这个过程的每一步都不是完美的,但只有这么做,我们才能摆脱童稚状态。
谨以此文标题纪念王小波。他曾经在这个标题下讲述过类似的道理。可惜大多数人只记住了他文章的结论和价值取向,而没有学会他使用的方法。比如据有识之士尼伯龙根·蜗藤指出,李银河就应该重读那篇文章。