最近,像埃隆·马斯克和史蒂芬·霍金这样的公众人物已公开表示我们应该对此感到担忧。马斯克在推特上说,人工智能“可能比核武器更危险”。2015年,约翰·布罗克曼的网站Edge.org推出了其年度问题:“你对会思考的机器有什么看法?”该问题收到了186个回答,既有经过了深思熟虑的,也有颇具挑衅性的[之后这些答案被汇编为一本书——《如何看待会思考的机器?》(What to Think About Machines That Think )]。
布罗克曼提出的这个刻意含糊表述的问题可以拆分为至少5个相关的问题:
(1)我们是否已经制造出了会思考的机器?
(2)我们能制造出会思考的机器吗?
(3)我们准备制造会思考的机器吗?
(4)我们应该制造会思考的机器吗?
最后,引发大众焦虑的那个未被阐明的核心问题是:
(5)我们能制造出有能力区分善恶的机器吗?
除第一个问题的答案是否定的之外,我相信所有其他问题的答案都是肯定的。我们当然还没有制造出能像人一样思考的机器。到目前为止,我们只能在狭义的领域模拟人类思维,这些领域只涉及最原始的因果结构。在这些狭义的领域中,我们可以制造出比人类更出色的机器,这并不奇怪,因为这些领域关注的是计算机更擅长的事:计算。
如果我们将会思考定义为能够通过图灵测试,那么对第二个问题的回答就几乎百分之百是肯定的。我有这样的把握是建立在我们从迷你图灵测试中获得的经验上的。回答因果关系之梯所有三个层级上的问题的能力孕育出了“智能体”软件的种子,使机器思考自己的意图并反省自己的错误成为可能。回答因果和反事实问题的算法已经有了(这在很大程度上要归功于我的学生),只待勤奋的人工智能研究者来应用这些算法。
第三个问题的答案当然取决于难以预测的人类事件。但从历史的角度看,在人类有能力做,或者已经掌握了相关制造技术的时候,人类很少选择选择不做或不制造。部分原因在于,无论是克隆动物还是把宇航员送入月球,很多事都是在真正做成了之后,我们才意识到我们在技术上有能力做到这件事。不过,原子弹爆炸是一个转折点,许多人因此认为我们本不应该发展这项技术。
自“二战”以来,科学家撤回可行性研究的一个很好的例子是1975年阿西洛马会议关于DNA重组技术的讨论,这项新技术被媒体视为对人类社会的威胁。这一领域的科学家设法就一系列合理的安全操作准则达成了共识,在随后的40年里,他们一直努力维护该协议的有效性并严格遵照执行。如今,DNA重组已经是一项常见的成熟技术了。
2017年,未来生命研究所召开了一次关于人工智能的“阿西洛马会议”,商定了23项原则,用于未来“普惠人工智能”(beneficial AI)方面的研究。 [2] 虽然其中的大多数指导原则与本书讨论的主题无关,但关于伦理和价值观的几条建议值得我们关注。例如,建议6:“人工智能系统在整个运行期间都应该安全可靠,并且可验证其实用性和可行性。”建议7:“如果某个人工智能系统造成了损害,我们应该有办法查明原因。”这两条建议清楚地表达了系统透明性的重要意义。建议10:“在设计高度自动化的人工智能系统时,应当确保其目标和行为在整个运行过程中与人类价值观保持一致。”这条建议相当含糊,但如果我们将其具体化为要求系统能表明自己的意图,并能使用因果关系与人类沟通的话,这条建议就具有了操作意义。
基于下面我对第五个问题的答案,我对第四个问题的回答也是肯定的。我相信我们能够制造出有能力辨别善恶的机器,它至少应该和人类一样可靠,而且有望比人类更可靠。我们对道德机器的首要要求是它能够反省自己的行为,其涉及反事实分析。一旦我们编写完使机器实现自我觉察的程序(无论其作用多么有限),我们就能赋予机器以同理心和公平感,因为这些程序建基于相同的计算原则,只不过需要我们在方程中添加一个新的智能体。
在精神层面,构建道德机器的因果方法与20世纪50年代以来科幻小说所热衷讨论的方法,即阿西莫夫的机器人定律,有着很大的不同。艾萨克·阿西莫夫提出了三大绝对定律,第一条就是“机器人不能伤害人类,也不能对人类个体受到伤害袖手旁观”。但是正如科幻小说反复展示的那样,阿西莫夫的定律总是会导致矛盾。对人工智能科学家来说,这并不奇怪:基于规则的系统最终总会出错。但这并不能说明制造道德机器就是不可能的,而是意味着我们不能使用规范性的、基于规则的方法去制造它,意味着我们应该为会思考的机器配置人类所拥有的那些认知能力,包括共情、远期预测和自制力,这样,它们就能够做出自己的决定了。
一旦我们制造出了道德机器,许多杞人忧天的观点就会随之消失,变得无关紧要。我们没有理由不去制造这种能比人类更好地分辨善与恶、抵御诱惑以及权衡奖惩的机器。在这一点上,就像那些国际象棋选手和围棋选手一样,我们甚至可以向自己所创造的事物学习。在未来,我们可以依靠机器来寻求明察秋毫、因果合理的正义,我们将进一步了解人类自身的自由意志“软件”是如何运作的,以及它是如何对人类自身隐藏其工作原理的。这种会思考的机器将成为人类的良师益友,而这正是人工智能送给人类的第一份,也是最好的一份礼物。
[1] AlphaGo中的核心技术是强化学习(reinforcement learning)和蒙特卡罗树搜索(Monte Carlo tree search),不仅仅是作者提到的深度学习。强化学习是除无监督学习和有监督学习之外的第三类机器学习方法,强调智能体和环境(抽象为一个马尔科夫决策过程)之间的互动,通过让智能体寻求期望奖励的最大化来习得从状态空间到行动空间的策略(policy)函数。在运筹学和最优控制理论中,强化学习也被称作近似动态规划。——译者注
[2] 这23项原则涉及(1)研究目标,(2)研究资金,(3)科学与政策,(4)科研文化,(5)避免竞争,(6)安全性,(7)故障透明,(8)司法透明,(9)职责,(10)价值观一致,(11)人类价值观,(12)个人隐私,(13)自由与隐私,(14)共享利益,(15)共享繁荣,(16)人类控制,(17)非颠覆性,(18)人工智能军备竞赛,(19)性能警示,(20)重要性,(21)风险,(22)递归自我改进,(23)共同利益。——译者注