康菲尔德和利连菲尔德的论文为美国卫生局发表关于吸烟影响的明确声明铺平了道路。英国皇家内科医学院一马当先,于1962年发表了一份报告,其结论就是吸烟是肺癌的致病因素。此后不久,美国卫生局局长卢瑟·特里(很可能是在肯尼迪总统的敦促下)宣布他打算成立一个特别顾问委员会专门研究这个问题(见图5.3)。
图5.3 1963年,美国卫生局局长委员会为如何评估吸烟的因果效应问题而费尽心思。该图描绘的是威廉·科克伦(委员会中的统计学家)、卫生局局长卢瑟·特里和化学家路易斯·费瑟。根据该插图中曲线图的图例,黑线对应人均吸烟率,深灰线对应肺癌发病率,浅灰线对应其他癌症的发病率(资料来源:由达科塔·哈尔绘制)
委员会的人员组成非常平衡,包括5位吸烟者和5位不吸烟者,其中2人由烟草行业推荐,所有成员此前都没有公开支持或反对过吸烟。鉴于此标准,利连菲尔德和康菲尔德这类持有明确立场的学者都是没有资格入会的。委员会成员都是医学、化学或生物学方面的杰出专家,除了其中一位成员,哈佛大学的威廉·科克伦,他是一位统计学家。事实上,科克伦在统计学方面的资历可能是当时最顶尖的:他是卡尔·皮尔逊的学生的学生。
委员会为编写报告准备了一年多的时间,其中一个需要解决的主要问题就是“导致”这个词的使用。委员会成员不得不舍弃19世纪关于因果关系的明确观念,同时还不得不撇开统计学。正如他们在报告(很可能是由科克伦执笔的)中所写的那样:“统计方法无法为在关联中确定因果关系提供证据。关联的因果显著性属于判断的范畴,超出了统计概率的表述范围。为了判断或评估某种属性或病原体与疾病或健康之间的关联的因果显著性,我们必须使用一系列标准,其中没有任何一条标准可以单独构成完全充分的判断依据。”委员会列出了5条这样的标准:一致性(在针对不同目标总体的多项研究中得到了类似的结果),关联强度(包括存在剂量—响应效应:吸烟多与更高的肺癌患病风险相关),关联的特异性(一个特定的病原体应该有一个与之对应的特殊的效果,而非带来一连串的影响),时序关系(果应该跟随因)和连贯性[具有生物学的合理性和与其他类型的证据(如实验室证据和时间序列数据)的一致性]。
1965年,奥斯汀·布莱德福·希尔(非委员会成员)尝试用一种可推广至分析其他公共卫生问题的方式概括这些论据,并在该清单的基础上又增加了4条标准。如此,这个包含9条标准的清单就成为此后为人所熟知的“希尔标准”。实际上希尔本人称它们为“观点”,而不是一种强制要求,并强调在特定情况下,任何一条标准都有可能无法被满足。他写道:“我的9个观点中的任何一项都不能为支持或反对因果假设提供无可争辩的证据,而且也没有任何一项可以构成必要条件。”
事实上,驳斥希尔的清单或局长委员会那张稍短的清单里的任何一条标准都很容易。一致性本身证明不了任何事,如果30项研究都忽略了相同的混杂因子,那么所有研究就都存在偏倚。出于同样的原因,关联强度的局限性也很明显,正如前面指出的,儿童的鞋子码数与他们的阅读能力密切相关,但二者并没有因果关系。特异性一直是一条颇具争议的标准,在传染病研究的背景下,这条标准是有意义的,因为通常的情况就是某种病原体会导致某种特定的疾病,但在涉及环境因素的研究背景下,这条标准就不那么有意义了。吸烟会导致多种疾病患病风险的增加,如肺气肿和心血管疾病,但这一点是否真的削弱了吸烟致癌的证据呢?时序关系也存在一些例外,例如此前提到的公鸡打鸣不会导致太阳升起,尽管公鸡打鸣总是出现在太阳升起之前。最后,与已有的理论或事实具有一致性当然很好,但科学史中充满了被推翻的理论和错误的实验室发现。
不过,作为一种描述某个学科应该如何通过使用各种证据来接受因果假设的方法,它仍是有用的,只不过缺少将其应用于实践的方法论。例如,具有生物学的合理性以及与实验结果的一致性被认为是好事,但我们究竟应该如何衡量这些证据?我们应该如何将业已掌握的知识带入问题分析的情境?显然,对此每个科学家都必须自己做出决定。但是,这个直觉性的决定很可能是错的,尤其是当存在政治压力或金钱利益,或者科学家对研究内容本身有主观偏好的时候。
但我没有丝毫要贬低委员会的工作的意思。在缺乏讨论因果关系机制话语的大环境中,委员会的成员已经做出了他们最大的努力。他们承认非统计学的标准是必要的,这本身就是一项巨大的进步。委员会中的吸烟者所做出的艰难的个人决定也从侧面证明了其结论的严肃性。曾经习惯抽香烟的卢瑟·特里改用烟斗,伦纳德·舒曼宣布戒烟,威廉·科克伦则承认的确可以通过戒烟来降低患癌风险,但他认为“香烟带来的慰藉”足以补偿这种风险。最令人惋惜的是路易斯·费瑟,这位每天要抽4包烟的重度吸烟者在委员会的报告发布之后的一年内被确诊为肺癌。他在给委员会的信中写道:“虽然吸烟致癌的证据已非常充分,但你们可能还记得,在委员会的讨论会上,我仍在不停地吸烟,还东拉西扯了所有那些吸烟者一贯使用的借口……对我个人而言,我被确诊为肺癌这一事实比任何统计资料都更有说服力。”在接受了摘除一叶肺的手术之后,他终于戒烟了。
从公共卫生的角度看,咨询委员会的这份报告是一个里程碑。在报告发表后的两年内,美国国会便提出要求烟草制造商在所有卷烟包装上标明“吸烟有害健康”的警示。1971年,政府规定广播电视禁止放送香烟广告。美国成年人中吸烟者的比例从1965年的峰值45%下降到2010年的19.3%。尽管进展缓慢且不够彻底,禁烟运动仍然是历史上规模最大、最成功的公共卫生干预行动之一。委员会的工作还为科学共识的达成提供了一个有价值的示范,成为未来美国卫生局发表的关于吸烟影响的进一步报告和关于许多其他议题的报告的典范(包括20世纪80年代的一个主要议题——二手烟)。
但从因果关系的角度看,这份报告充其量只取得了有限的成功。它明确了因果问题的重要性,并且确定了单凭数据本身无法回答这些问题。但作为未来科学研究的路标,它的指导方针既不明晰也不周密。希尔标准最多只能作为一份历史文献来参考,其概括了20世纪50年代出现的证据类型,并最终说服了医学界接受了吸烟致癌的主张。但作为未来科学研究的指南,这些标准显然是不够的。对于除了最广泛的因果问题之外的其他问题,我们还需要一种更精确的分析工具。回想起来,康菲尔德不等式正是朝着这个方向迈出的一步,它埋下了敏感度分析的种子。