科学家使用研究和实验来检验假设。在本节,我们将探讨研究方法的基本要素,并详细介绍采用实验的三种研究方法:现场实验、控制实验和单组实验(前后测实验)。
研究方法与研究设计
研究方法(research methodology)是指基于现有的科学技术和程序,系统地收集和分析信息的过程。实验只是研究方法的类型之一。科学实验(scientific experiment)一般在完全控制或半控制的条件下进行,包括系统的测量和对数据的统计分析。其他的研究方法则包括观察、调查和访谈。例如,科学家常常在实验室里模拟日光或星光作为控制条件,并在该条件下进行实验,但人种学家珍·古道尔采用的研究方法则是在坦桑尼亚的野外直接观察黑猩猩的生活习惯,以检验她提出的“黑猩猩能够使用工具”这一假设。天文学家亚瑟·艾丁顿在研究重力对光线的影响时,采用的研究方法是在日食发生时进行观察。调查和访谈是社会科学中经常采用的研究方法。在前面的第7章,我们已经学习了如何使用调查法来检验一项假设。
在构思研究设计时,科学家需要考虑哪种方法最适合自己的假设。例如在天文学和气象学中,虽然科学家们在模拟条件下开展了某些实验室实验,但是由于人们很难甚至无法控制影响天体运动或天气的变量,模拟实验一般是不可行的。
在设计实验时,科学家首先要写一份方案,根据接受检验的假设类型、需要测量的变量以及采用何种测量方法,对实验意图或目标做出清晰的界定。自变量(independent variable)是实验者控制的因素,因变量(dependentvariable)则是随着自变量的变化而发生变化的变量。在一个相对控制的环境中,研究变量有时会自然地变得一目了然,而不需要设计一项实验。例如生物学家拉塞尔·希尔在2004年奥运会中通过观察拳击比赛等四项格斗赛事,对自己的假设进行了检验。在这些比赛中,红色和蓝色队服(独立变量)被随机分配给比赛双方。希尔发现,穿红色队服的一方击败穿蓝色队服的一方的概率是60%,这一比例要高于随机概率。
人种学家珍·古道尔使用观察作为研究方法来检验她关于黑猩猩能使用工具的假设。
在控制实验中,除自变量以外,其他所有变量均保持不变。在实验设计中没有加以说明或控制的变量称为混淆变量(confounding variable)。在现场实验和观察研究中,研究对象并不是被随机分配到各组,环境也没有受到严格的控制,因此混淆变量这个问题就比较明显。例如,在希尔的研究中,队员的技能差异、观众的反应和其他因素可能混淆了观察结果。
如果研究方案使用了实验设计,那么就应当明确描述实验材料。实验材料(experimental material)是指一组或一类被研究的对象,例如豌豆苗、光线或大学生等。研究者在使用某个样本之前,应当根据总量大小和选取原则精确定义样本。此外,对研究总体来说,样本是否具有代表性也非常重要。
思考下面这个例子:政府和企业资助了一项针对双酚A的研究。双酚A是一种类雌激素的化学物质,被用于塑料制造业。人们怀疑该物质是导致精子数量过低、不育症和乳腺癌的原因。但是,以大鼠为被试的研究结果并没有发现类似的影响。科学家据此得出结论,除非剂量过大,不然这种化学物质对人类没有危害。然而,这些结论是不准确的,因为很多这类研究所使用的大鼠与人类有很大差异,它们对雌激素并不敏感。因此,他们的研究结果并不能被合理地推广到人类身上。这类研究已经引起了人们道德上的担忧,政府资助的工业性研究往往容易产生偏差。
此外,对道德因素的考虑可能限定了哪些实验设计类型是合适的。例如,在利用控制实验研究吸烟对儿童的影响时,如果随机分配一半儿童到实验组,并要求他们必须吸烟,这就违反了道德原则。
总的来说,在选择实验方法的类型时应当考虑下列因素:实验材料和样本的可得性、资金和时间限制、训练有素的人员和研究需要的其他资源。科学家还需要决定,是在自然条件下(现场实验)还是在实验室的控制条件下进行研究,哪种条件能够得到更有效的结果。此外,科学家还必须在道德规范内开展实验。
现场实验
在某些情况下,在研究者施加影响最小的自然条件下研究某种现象可能是检验假设的最佳途径。现场实验的环境经过了人为设计,但在研究对象看来就像自然发生的那样。将两组或更多组相似的研究对象以非随机的形式分到不同的处理或实验干预条件下。然后将各小组的结果进行比较,以判断处理变量所产生的影响。
例如,为了检验“与其他种族相比,旁观者更可能向同种族的受害者伸出援助之手”这个假设,心理学家丹尼尔·韦格纳和威廉·克兰诺设计了一项现场实验。实验者在一座校园建筑里徘徊等待,当他距离预先选择好的实验对象一步之遥时,会“不小心”将手中抱着的一撂卡片掉到地上。实验对象对实验设计毫不知情。如果实验对象立即帮助这位实验者,他的行为会被记录下来。研究者之后会对采集的数据进行分析,比较不同种族小组的表现存在哪些差异。
现场实验也存在缺点。由于自然条件不受人为控制,研究者很难像在实验室里那样随意进行操纵。例如在韦格纳和克兰诺开展的现场实验中,选取的研究对象可能由于考试不及格而情绪低落,因此不愿意停下来帮助别人,但平时他们很可能会提供帮助。此外,研究者假设,各小组之间除了种族不同以外,在其他所有方面都相似,这一点也是有疑问的。
控制实验
有些人认为,现场实验只能算作准实验,只有控制实验才是真正的科学实验。控制实验主要用于决定自变量和因变量之间是否存在因果关系。为了排除其他有可能干扰实验结果的混淆变量,控制实验中一般只保留一个自变量。为了确保实验组和控制组的各项基本条件相同,研究对象会被随机分配。实验组接受处理(自变量),而控制组则不接受任何处理。在以人类为研究对象时,参与者并不了解自己属于实验组还是控制组。最后将各组得到的结果进行比较和统计分析,以决定处理过程或因变量的影响效果。
尽管设计不同的控制实验会有所不同,但基本的设计过程如下所示:
实验组:
随机分配→处理→最终测试
控制组:
随机分配→最终测试
圣奥古斯西修道士格雷戈尔·孟德尔(1822—1884)曾进行过一项著名实验,对几代杂交豌豆的遗传特性进行研究,在实验中,他严格控制了实验室的环境,使光线、温度和水分等变量保持一致,只将基因作为自变量,从而消除了环境特征对实验的影响。他的研究方法在当时是开创性的,建立了现代遗传学的基础,为未来的科学研究提供了模型。
开展控制实验的优点在于,科学家可以更好地控制可能影响实验结果的不同变量。而控制实验也存在一个潜在的不足,那便是以人类为研究对象时,由于人们知道自己在参与实验,因而会随之调整期望。在医学和心理学研究中,这个问题尤为严重。为了确保接受处理的过程不影响实验结果,研究者会向控制组提供安慰剂。
豌豆花色的孟德尔遗传
从左到右依次为:
粉花种系植株的两朵花
粉花与白花种系杂交产生的植株的两朵花
白花种系植株的两朵花
行动中的批判性思维
科学与祈祷
哈佛大学的科学家进行了一项控制实验,结果发现,祈祷治疗并不能帮助接受心脏搭桥手术的患者康复。1800名病人被随机分配成实验组和控制组。其中实验组又分为两组,其中一组知道自己正在接受祈祷治疗,而另一组则对此毫不知情。控制组没有接受祈祷治疗,也不知道自己是否接受了该种治疗。接受祈祷治疗的两组成员名单被分别交给了两个天主教修道院和一个新教组织的神职人员。他们为名单中的人提供了为期30天的相同祈祷,祈求“手术成功、迅速康复以及不出现并发症”。统计分析显示,三组病人的康复速度并不存在显著差异。
这项研究是否能够证明祈祷治疗没有效果?“我对代人祈祷者一直持怀疑态度,”迪安·马雷克牧师说道,“我们心中所想的,可能并不是被祈祷者心中真正的想法……很显然这受到了神圣活动和个人选择的控制。”还有批评声音认为“科学在测量地球的运行轨道……新药的效果等方面非常实用,表现得出类拔萃。但是现在我们想要科学研究的是发生在时空之外的事物。这个结果只能说明人们不应该去试图证明超自然的能力。”
讨论问题
1. 评价该研究的实验设计。你是否同意实验者对使用祈祷的限定?给出答案并说明理由。
2. 这项研究是否证实了祈祷治疗没有效果?对该研究的批评是否合乎逻辑?给出答案并说明理由。
3. 就你个人来说,是否相信祈祷能够起作用?在回答这一问题时,为祈祷提供一个操作性定义。换句话说,当你根据观察和实际效果,提出祈祷确实有或者没有效果时,具体含义是什么?讨论有哪些证据支持你对于祈祷效果的结论。
安慰剂(placebo)是一种没有治疗效果的物质,例如糖丸或者虚假处理。安慰剂之所以被采用,是因为期望和自我实现对人类的影响非常大。如果研究对象认为自己接受了某种有效的治疗,即使只是接受了安慰剂,他们的状况也会得到实际改善。
实验操作者或观察者对实验结果的预期也会使数据出现偏差。在单盲研究(single-blind study)中,研究对象不了解自己属于实验组还是控制组。而在双盲实验(double-blind study)中,直到数据收集和分析结束,研究对象和实验者都不了解哪一组是研究对象。例如,在研究一种新药的疗效时,实验组和控制组的研究对象会服用同样大小和颜色的药丸;因此,分发药丸的实验者也不知道哪些是安慰剂。这种做法就减少了实验者的无意识偏差对实验结果造成的影响。
单组(前后测)实验
单组实验不使用实验组和对照组,只使用一组实验对象。研究变量在处理前和处理后的前测和后测中分别测量。前测与后测所使用的测试方法一般是相同的。
单组实验:
前测→处理→后测
例如,为了研究社区志愿工作对大学生道德推理的促进效果,研究者在一组大学生进行社区志愿服务之前对其进行了道德推理测试——限定问题测验(DIT),然后在学期末等这些学生完成志愿服务以后再次进行测试。结果发现,学生的DIT分数在学期末显著提高。那么,是否可以得出结论,社区志愿服务(自变量)有助于提高DIT分数(因变量)?如果存在一个控制组的话,人们对结果的确定程度肯定不一样。
单组实验的一个缺点在于,由于没有控制组,无法控制可能影响实验结果的其他变量,例如学生的成熟,或者经过了前测,学生对测试更加熟悉。因此,由于单组实验比控制实验更容易设计和实施,所以经常被用来作为探索性实验,如果探索性实验的结果比较理想,则会继续开展控制实验。
但是在有些研究中,单组实验可能比控制实验更可取,尤其是当实验组中的研究变量呈现显著的积极效果时。例如,为了研究一种新抗癌药物的效果,以患有白血病的儿童为实验对象进行了一项控制实验。3个月后,实验者发现,与使用安慰剂的患儿相比,使用新药的患儿病情明显好转。此时,实验者在道德上有义务停止控制实验,转而采用单组实验,这样所有的孩子都能够得到药物治疗。此时进行比较的不再是实验组和控制组孩子的病情严重程度,而是实验前测和后测的结果。
评价实验设计
本节介绍了多种实验设计方法,但好的实验设计都具有某些共同特征。最主要的特征之一是能够区分不同的假设。如果相同的实验结果能够用于支持两个相互矛盾的假设,那么只能说明这个实验设计非常糟糕。例如,有人说将大蒜挂在大门口,吸血鬼便不敢登门,你打算亲自做一项实验去检验这一假设。于是你在自家门口挂上大蒜,并暗中使用摄像机记录下一个月内造访的吸血鬼数量。结果整整一个月都没有吸血鬼登门拜访。这是否证明这一假设是正确的,大蒜能够让吸血鬼远离家门?事实并非必然如此,因为实验结果还可能支持另外一个与此相矛盾的假设,那便是吸血鬼根本就不存在。
好的实验设计应当没有偏差。如果样本容量过小,不具有代表性,实验者或实验对象存在主观偏见,都有可能造成实验误差,所以应当仔细检查,严格控制,尽量减小实验误差出现的可能性。英国医学杂志《柳叶刀》上发表了一项1998年开展的研究,提出孤独症和儿童时期接种牛痘疫苗存在联系,而该结论只是根据对12个孤独症儿童进行的测试结果,并且没有采用控制组进行比较。不幸的是,媒体公布了这一结论,并引起了很多家长的重视。尽管很多科学家对实验设计提出批评,并指出该结论缺乏进一步的证据,但仍然难以挽回已经造成的恶劣影响。
好的实验设计的第三个标准是,对研究变量结果的测量应当是可信的、准确的和精密的。如果测量工具在不同时间或者被不同的人使用时都能够提供一致的结果,那么就符合信度(reliability)的标准。两个不同的实验者在研究课题时使用的某一IQ测验方法得出了相同的结果,并且过一段时间之后再次测量的结果与前面保持一致,那么就可以说,这种IQ测验方法是可靠的。
一种测量方法准确是指,在测量某种现象时,它与其他测量标准保持一致。在科学中,对于1秒的准确测量方法是“铯133原子基态的两个超精细能级之间跃迁所对应辐射的9,192,631,770个周期所持续的时间。”此外,测量方法还应当是精密的,精密程度取决于研究问题。在研究全球变暖对阿拉斯加冰川消融的影响时,“天”甚至“年”都可以算作是足够精密的时间测量方法。然而,核裂变的连锁反应时间是以毫秒(千分之一秒)计的,此时,人们就需要对时间进行更精密的定义。
准确、精密的测量能够使实验被其他科学家重复或重现。在科学期刊中发表的实验应当完整、详尽地呈现实验目的以及实验设计细节,以供其他科学家重复实验。也就是说,如果其他科学家执行相同的实验,应当得到同样的结果(参见“行动中的批判性思维:如何阅读科技论文”)。可重复性是非常必要的,因为一项研究结果可能存在偶然性,也可能使用了有问题的样本,甚至可能是虚构的。(近年来,媒体上不断曝出关于欺骗性实验和伪造数据的案例,尤其是在涉及金钱利益比较多的生物工程等领域。)
最后一个标准是普遍性。一个设计良好的实验,由样本得出的结果应该能够被推广。如果一项实验结果能够被准确地推广到现实世界,便具备了外部效度(external validity)。如果研究中的样本不能代表总体,而研究者却没有意识到,那么在推广过程中便会出现问题。20世纪80年代之前,大多数医学和心理学研究只使用白人男性作为研究对象。研究者们这么做的原因是为了保持样本的同质性,从而最小化样本误差。然而,当研究者们将结果推广到全部人群的时候就可能会出现问题。例如,本书前面曾介绍过,女性从麻醉中苏醒过来的时间要比男性早,这种现象使女性病人容易经历令人恐惧的外科手术。1985年,美国食品与药品管理局要求药品制造商提供资金开展临床实验,实验必须包含性别、年龄和种族等数据。
解释实验结果
实验完成后,科学家通常将数据分析结果发表在科学期刊上。虽然并非全部,但大多数科学期刊要求发表的文章必须符合“行动中的批判性思维:如何阅读科技论文”中的内容结构。一些声望较高、拥有众多读者的科学期刊,比如《科学》《自然》等,由于篇幅限制,会要求作者将文章中的部分章节进行压缩或合并。
科技论文在结论部分会介绍数据分析过程以及得到了哪些统计显著的发现。实验结果一般通过平均值或变量之间的关系来呈现。无论是证实假设,还是证伪,实验结果在科学知识体系中是同等重要的。
由于科学方法的基础是归纳推理和统计概率,因此看起来显著的结果实际上也可能只是巧合。误差范围(margin of error)是基于样本量大小的统计学参数,用于测量置信水平(confidencelevel),科学家可以根据置信水平将实验结果推广到总体。
误差范围和置信水平是负相关关系。也就是说,如果置信水平是95%,那么误差范围就是5%,或者说实验结果是基于随机变化而不是因果关系的可能性是5%。一般来说,在社会科学中,95%的置信水平便足够了,但是医学和药学实验对置信水平的要求较高,有时达到99%和99.9%。这是因为,在这些学科中,错误的推广可能导致灾难性的后果。
将几项类似的实验结果放在一起进行统计分析被称为元分析(meta-analysis)。当使用新的样本重复进行实验并取得显著结果时,由于检验的总样本容量变大,实验的置信水平也会随之提高。但如果随后进行的实验的结果与先前实验不同,那就应当重新检验原来的假设。
科学实验中的伦理问题
尽管有些科学实验设计得非常巧妙,并得到了显著结果,但如果违反了道德规范和准则,仍然是不可取的。当以人类为研究对象时,保障被试的知情同意权、其他权利以及避免对其造成伤害等伦理问题尤其重要。
在纳粹集中营中,以犹太人、战争犯和俘虏为实验对象所做的人体实验是最不道德的科学实验。在其他国家,一些处于弱势的少数族群成员也在未经本人同意的情况下被迫参与科学实验。1930—1950年间,美国公共卫生部开展了一项关于梅毒对人体影响的研究,也就是臭名昭著的塔斯基吉实验。实验对象是毫不知情的亚拉巴马州梅肯县的贫穷黑人男性。这些人并不知道自己染上了梅毒,也没有人为他们提供任何治疗。在青霉素成为治疗梅毒的有效手段后,研究人员也没有对参与实验的黑人患者提供必需的治疗,这导致很多人死亡。而这样做的目的仅仅是为了促进科学知识的发展。
自20世纪70年代以来,人们越来越关注科学研究中人类被试应有的权利。例如,1963年的米尔格拉姆服从实验和1971年的斯坦福监狱实验(本书第1章曾对这两项实验的相关内容进行了介绍)都使人们遭受了身体和心灵上的伤害。在今天看来,这是十分不道德的科学实验。
行动中的批判性思维
如何阅读科技论文?
科技期刊上发表的论文一般包含以下结构:
· 摘要:简要概述研究的主要发现
· 引言:研究假设以及类似研究的背景信息
· 方法:对实验设计进行详细描述,包括具体的实验步骤和实验方法;介绍实验材料,包括样本及其选取方法。
· 结论:回顾实验的理论基础,解释数据的分析过程,总结哪些发现得到了数据的支持;可以包含描述实验结果的图片或表格。
· 讨论:对数据进行分析和解释,解释数据与结果之间的逻辑关系,讨论结果的显著性,对该领域的贡献,研究的局限性以及对未来研究的展望。
· 参考文献:研究中参考或借鉴的文章、书籍和其他资料列表。
讨论问题
1. 从科学期刊上选取一篇你感兴趣的论文。首先阅读摘要和引言部分,然后详细阅读方法部分,并根据本节介绍的实验设计标准对实验设计进行评价。描述实验设计有哪些局限,哪些方面可以进一步改进。
2. 阅读论文中的结论和讨论部分。讨论论文的结论是否得到了实验结果的支持,以及该研究对进一步研究的意义。
原子弹的制造让人们更加深刻地理解了科学中立的概念,不道德地使用科学成果也越来越受到关注。第二次世界大战中,艾尔伯特·爱因斯坦曾敦促美国开发原子武器,但后来他对自己在原子弹研制过程中发挥的作用感到非常懊悔,并将其称之为一生中的“重大错误”。最近,基因工程研究和人类克隆可能性的道德问题引起了人们的热议。
科学家在制造原子弹中的作用在一些科学家中引发了道德担忧。
科学实验和研究报告应当遵守的道德原则还包括正直和诚实。如果一项研究是由政府资助的,那么科学家可能会承受一定的压力,需要向公众发布与当前的政治议程相一致的研究结果。例如,美国白宫出面干涉环境保护局科学家发布关于全球变暖程度和工业对全球变暖影响的报告,弱化甚至删除了其中的部分章节。此外,由于职称和职位的提升往往取决于发表的文章,所以科学家承受着巨大压力,面临着“发表还是隐匿”的艰难抉择,从而可能有意地夸大研究成果,或者有选择地发布某些成果。
韩国科学家黄禹锡在2005年举行的新闻发布会上承认,自己在人类胚胎干细胞克隆的科研成果中造假。
韩国生物医学家黄禹锡曾被认为是世界上干细胞研究和克隆领域最出色的专家。在2004年和2005年,他先后在《科学》上发表了两篇文章,声称自己已经成功克隆出人类的胚胎干细胞。他的这一成就被视为该领域内的突破性进展。然而,一些科学家对其工作提出了批评,并对他使用的研究方法提出了质疑。在2005年举行的新闻发布会上,黄禹锡承认,自己在科研成果中造假,欺骗了公众,他为此而道歉,声称:“成功的光环蒙蔽了我的双眼。”作为一名专业科学家,这场骗局使得他一败涂地。
科学家们应该承担责任,运用自己的批判性思维能力分析自己所属领域内其他科学家的研究成果,并敢于揭露学术欺骗行为。虽然同行评审在避免科学研究中的不道德行为、程序错误和欺骗行为中发挥了一定的作用,但评论家更倾向于拒绝发表不符合现有科学规范的科学假设和研究。在下一节中,我们将介绍标准的科学范式。