偏见:大多数研究结果都不可信
2005年,病原生物学博士约翰·埃尼迪斯发表了一篇撼动医学研究界根基的文章——《为什么大多数研究结果都不可信?》。[17]在文中,埃尼迪斯写道,大多数的研究结果都带有偏见,或是研究者做研究就为了得到想要的结论,或是测试的次数过多。通过模拟实验,他证明大多数实验结论都是错误的。埃尼迪斯之后又发表了一篇文章,分析了13年来常被引用的49篇著名的科学论文,进一步证明他的观点。3/4的有效干预实验(如维生素E能预防心脏病)得到其他科学家的再次测验。测验结果显示随机试验和观测研究得出的结论有很大出入。随机试验是公认的黄金标准,研究对象被随机分配,对于将要做的测验毫不知情,所以就没有先入为主的偏见,试验的结论也就较为客观可信。而在观测研究中,研究对象可以自愿选择某项试验,这样就会有很多潜意识的因素干扰试验结果,而研究者只能在此基础上做研究。埃尼迪斯发现超过80%观测研究结果不是完全误导就是夸大其词,相反,大约75%的随机试验结果都真实可靠。[18]
埃尼迪斯的研究虽然没有提到我们定义的实力,但是却提到了因果关系这一重要话题。对于人类健康的研究,研究者无一例外都想要找出直接病因。随机试验的做法是将研究对象随机分成两组,观察不同条件下的反应,因此避免了运气的影响。观测研究并没有这样做,允许研究对象自由选择试验条件,于是就引入了运气因素。两种试验得出的结论完全两样,埃尼迪斯因此建议大家对观测研究结果直接无视。[19]
偏见和过多次测验对于实验结果的影响非常巨大,已经不仅仅局限在医学研究上。[20]产生偏见的原因有很多,比如受医药公司资助做医学试验的研究者极有可能希望检测的药品药效显著,无任何副作用。科学家通常都相信自己客观公正,但是心理学的研究表明偏见大多是潜意识的一种行为,个人几乎没法控制。所以即便科学家相信自己按照医德进行试验,偏见仍然无孔不入。[21]再者,能登上头版头条的研究对于个人的学术事业发展有很大帮助。
过多的测验同样会带来一系列问题。针对测验过多的问题当然也有标准的解决方法,不过不是所有的科学家都会采用。在学术研究上,科学家更看重统计数据,而并不太在意统计结论是否有很大误差(当假设在偶然试验中被证明时,尤其如此)。而且试验标准阈值的存在,使得研究者能够公开说自己的研究意义重大。问题就这样出现了:试验次数足够多时,总会有偶然事件发生,不是直接诱因的事件就被当成科研中的重大发现了。[22]
经过同行评审的《英国皇家学会学报B(生物科学)》曾经发表过这样一篇文章,大意是早餐吃燕麦的女性更容易生男孩。[23]这篇文章在媒介引起了很大的反响。国家统计科学研究院的统计学家斯坦·杨和他的两个同事重新检测了文章中的研究数据,得出的结论是——所谓的研究发现是大量试验中的偶发事件。文章调查了女性在怀孕前后食用的132种食物,也就是说有264组因果关系。统计数据的预期值图表显示,264组关系的分布完全随机。斯坦·杨和他的同事简明地总结道:“经过分析,上文所谓的重大发现只是偶发事件。”[24]
所以说,没有经过大量取样,我们很容易忽视这样一个事实:简单的战略总会带来意想不到的结果,就像索尼的迷你光盘竟然没有大获成功。而相反的,我们梳理了大量可能的诱因,却恰恰选择了和结果毫不相关的偶然因素,就像女性早上吃燕麦易生男孩的研究结论。这两种方式都搞错了事物的因果关系,都忽视了运气在其中起到的作用。