• 精选
  • 会员

因果关系的三个层级

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

到目前为止,我的叙述可能会让大家觉得,我们将关于这个世界的知识组织起来融入因果关系网络的能力是一种一体化的能力,并且是可以一下子学会或领悟的。事实上,我在机器学习方面的研究经历告诉我,因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(seeing)、行动能力(doing)和想象能力(imagining)。

第一层级是观察能力,具体而言是指发现环境中的规律的能力。在认知革命发生之前,这种能力为许多动物和早期人类所共有。第二层级是行动能力,涉及预测对环境进行刻意改变后的结果,并根据预测结果选择行为方案以催生出自己期待的结果。只有少数物种表现出了具备此种能力的特征。对工具的使用(前提是使用是有意图的,而不是偶然的或模仿前人)就可以视作达到第二层级的标志。然而,即使是工具的使用者也不一定掌握有关工具的“理论”,工具理论能够告诉他们为什么这种工具有效,以及如果工具无效该怎么做。为掌握这种理论,你需要登上想象力这一层级。第三层级至关重要,它让我们为发起农业领域和科学领域的更深层次的革命做好了准备,使得我们人类对于地球的改造能力发生了骤变。

我无法证明这一点,但是我可以在数学上证明这三个层级有着根本的区别,每一级所释放出的力量都是其下一级无法企及的。我用来证明这一观点的框架要追溯到人工智能的先驱阿兰·图灵,他曾提出将认知系统按照其所能回答的问题进行分类。在我们谈论因果论时,这一框架或分类法是卓有成效的,因为它绕过了关于因果论究竟为何物的漫长而徒劳的讨论,聚焦于具体的可回答的问题,即“因果推理主体可以做什么”,或者更准确地说,相较于不具备因果模型的生物,拥有因果模型的生物能推算出什么前者推算不出的东西?

图灵寻找的是一种二元分类——人类或非人类,而我们的分类则包含三个层级,分别对应逐级复杂的因果问题。使用这组判断标准,我们便可以将问题的三个层级组合成因果关系之梯(见图1.2)。因果关系之梯是本书的一个重要隐喻,我们将会多次回顾它。

图1.2 因果关系之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第一层级,它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级,前提是他们是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果,这大概也是婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级,他们可以想象并不存在的世界,并推测观察到的现象的原因为何(资料来源:马雅·哈雷尔绘图)

现在让我们花点儿时间来详细研究因果关系之梯的每一层级。处于第一层级的是关联,在这个层级中我们通过观察寻找规律。一只猫头鹰观察到一只老鼠在活动,便开始推测老鼠下一刻可能出现的位置,这只猫头鹰所做的就是通过观察寻找规律。计算机围棋程序在研究了包含数百万围棋棋谱的数据库后,便可以计算出哪些走法胜算较高,它所做的也是通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性,我们便说这一事件与另一事件相关联。

因果关系之梯的第一层级要求我们基于被动观察做出预测。其典型问题是:“如果我观察到……会怎样?”例如,一家百货公司的销售经理可能会问:“购买牙膏的顾客同时购买牙线的可能性有多大?”此类问题正是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答案。在这个例子中,问题可以这样解答:首先采集所有顾客购物行为的数据,然后筛选出购买牙膏的顾客,计算他们当中购买牙线的人数比例。这个比例也称作“条件概率”,用于测算(针对大数据的)“买牙膏”和“买牙线”两种行为之间的关联程度。用符号表示可以写作P(牙线|牙膏),其中P代表概率,竖线意为“假设你观察到”。

为了缩小数据的体量,确定变量之间的关联,统计学家开发了很多复杂的方法。本书将会经常提到的一种典型的关联度量方法,即“相关分析”或“回归分析”,其具体操作是将一条直线拟合到数据点集中,然后确定这条直线的斜率。有些关联可能有明显的因果解释,有些可能没有。但无论如何,统计学本身并不能告诉我们,牙膏或牙线哪个是因,哪个是果。从销售经理的角度看,这件事也许并不重要——好的预测无须好的解释,就像猫头鹰不明白老鼠为何总是从A点跑到B点,但这不改变它仍然是一个好猎手的事实。

我把当今的人工智能置于因果关系之梯的最底层,与猫头鹰相提并论,对此有些读者可能会感到很吃惊。近些年来,我们好像每天都会听闻机器学习系统的新发展和新成果——无人驾驶汽车、语言识别系统,特别是近几年来广受推崇的深度学习算法(或称深度神经网络)。为什么它们会处于因果关系之梯的最底层呢?

深度学习的成果确实举世瞩目、令人惊叹。然而,它的成功主要告诉我们的是之前我们认为困难的问题或任务实际上并不难,而并没有解决真正的难题,这些难题仍在阻碍着类人智能机器的实现。其结果是,公众误以为“强人工智能”(像人一样思考的机器)的问世指日可待,甚至可能已经到来,而事实远非如此。我完全赞同纽约大学神经系统科学家盖里·马库斯的观点,他最近在《纽约时报》上写道:人工智能领域“喷涌出大量的微发现”,这些发现也许是不错的新素材,但很遗憾,机器仍与类人认知相去甚远。我在加州大学洛杉矶分校计算机科学系的同事阿德南·达尔维奇也曾发表过一篇题为“是人类水平的智能还是动物般的能力?”的论文,并在其中表明了自己的立场。我认为该论文恰如其分地回答了作者在标题中提出的这一问题。强人工智能这一目标是制造出拥有类人智能的机器,让它们能与人类交流并指导人类的探索方向。而深度学习只是让机器具备了高超的能力,而非智能。这种差异是巨大的,原因就在于后者缺少现实模型。

与30年前一样,当前的机器学习程序(包括那些应用深度神经网络的程序)几乎仍然完全是在关联模式下运行的。它们由一系列观察结果驱动,致力于拟合出一个函数,就像统计学家试图用点集拟合出一条直线一样。深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟合过程仍然由原始数据驱动。被拟合的数据越来越多,拟合的精度不断提高,但该过程始终未能从我们先前提到的那种“超进化加速”中获益。例如,如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的反应,那么他就必须明确地在程序中添加这些新反应的描述代码。机器是不会自己弄明白手里拿着一瓶威士忌的行人可能对鸣笛做出的不同反应的。处于因果关系之梯最底层的任何运作系统都不可避免地缺乏这种灵活性和适应性。

当我们开始改变世界的时候,我们就迈上了因果关系之梯的更高一层台阶。这一层级的一个典型问题是:“如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?”这类问题处于因果关系之梯的第二层级,提出及回答这类问题要求我们掌握一种脱离于数据的新知识,即干预。

干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现状。例如,观察到烟雾和主动制造烟雾,二者所表明的“某处着火”这件事的可能性是完全不同的。无论数据集有多大或者神经网络有多深,只要使用的是被动收集的数据,我们就无法回答有关干预的问题。从统计学中学到的任何方法都不足以让我们明确表述类似“如果价格翻倍将会发生什么”这样简单的问题,更别说回答它们了。认识到这一点让许多科学家挫败不已。我之所以对此心知肚明,是因为我曾多次帮助这些科学家踏上因果关系之梯的更高层级。

因果关系

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000