• 精选
  • 会员

人类为什么要预测未来

2020年6月24日  来源:大脑的故事 作者:(美)大卫·伊格曼 提供人:paoji68......

人类为什么要预测未来

每个决定都涉及我们过去的经历(存储在我们的身体状态当中)和当前的情况(我有足够的钱买X而非Y吗?还有没有Z选项?),但决策的故事还有另外一个部分:对未来的预测。

放眼整个动物王国,每一种生物都内置了寻求奖励的机制。什么是奖励?从本质上讲,就是能让身体更接近理想状态的东西。身体脱水时,水就是奖励;能量储备快用光时,食物就是奖励。水和食物叫作一级奖励(primaryrewards),直接解决生理需求。然而,人类行为更多地受二级奖励(secondary rewards)控制,它们是预示一级奖励的东西。举个例子,看到一个金属箱子本身对大脑没什么作用,但如果你已经学会分辨出那是一个水箱,那么当你口渴的时候看到它就变成奖励了。就人类而言,我们甚至会把一些极为抽象的概念视为奖励,比如政治意识形态,或是受当地社群重视的感觉。和动物不同的地方是,我们往往把这些奖励放在生理需求之前。一如里德·蒙塔古所说的“鲨鱼不会绝食抗议”,动物王国里的其他生物只寻求满足基本需求,只有人类经常为了抽象的理想压抑自己的基本需求。所以,面对一系列可能出现的情况时,我们会整合内外数据,试图实现奖励的最大化,然而怎样算是奖励最大化,是每个人自己定义的。

奖励的挑战性在于,不管是基本的还是抽象的奖励,它们一般并不会立刻结出果实来。我们所做的决定,几乎总是在完成了所选行动之后才带来回报。人们到学校上学,苦读多年,因为他们重视将来能获得的学历;人们在自己不喜欢的工作岗位上辛苦耕耘多年,因为他们希望将来得到晋升;人们逼着自己进行痛苦的锻炼,因为他们怀着保持身材的目标。

比较不同选项,意味着给每一个选项的预期奖励赋予一个价值,每个选项的价值以统一的货币单位衡量,接着选择价值最高的那一个。想想这种情况:我有一点空闲时间,我决定做点什么。我需要去买些家用杂货,但我也想去咖啡店,或赶在最后期限之前为自己的实验室撰写补助申请。我还想花时间跟儿子到公园里玩一会儿。我怎样在这三个选项里做出决断呢?

如果我能够每一个都试试,直接体验这些选项,接着让时间倒退回去,根据最佳结果确定道路,那当然就容易了。唉,只可惜,我不能进行时间旅行。

但说不定,我可以呢?

?

在电影《回到未来》里,人类每天都在进行时间旅行。

人类的大脑其实一直在孜孜不倦地进行时间旅行。当需要做决定时,大脑模拟出不同的结果,为我们的未来生成可能的模型。从精神上说,我们可以脱离此时此刻,驶向一个尚不存在的未来世界。

好了,在脑海里模拟出一个场景仅仅是第一步。为在这些想象出来的场景里做出选择,我要估计出上述每一种潜在未来会带来什么样的奖励。当我模拟用杂货填满储藏室后,我感觉如释重负:一切井井有条、避免了不确定性。实验室补助带来的是一种不同类型的奖励:它不光为实验室带来了金钱这个一级奖励,还让我得到了系主任的赞赏,让我对自己的职业产生了成就感。想象自己和儿子在公园玩耍,激发了快乐情绪,带来的奖励是家人的亲密。我的最终选择,取决于奖励系统用统一货币对每种未来分配了多少价值。做出选择很不容易,因为这些价值之间的差别非常微妙:购买杂货伴随着乏味感,撰写补助申请伴随着挫折感,带儿子去公园又有一种没做完正事的愧疚感。在意识的雷达范围外,我的大脑逐一模拟着所有选项,并对其进行直觉校验。我的决定就是这样做出来的。

我怎样准确模拟这些未来呢?我怎么可能预测出顺着这些路径走下去实际上会是什么样呢?答案是,我不能:我完全无法知道自己的预测是否准确。我所有的模拟仅仅是根据过去的经验,以及我当前对世界如何运行的认识模型做出来的。和动物王国里所有的动物一样,我们不能随意溜达,指望凑巧发现什么事情能在将来带回奖励,什么事情不能。相反,大脑的关键任务就是预测。要想把这一任务完成好,我们就需要从自己的每一段经历中不断学习。故此,在本例中,我基于自己过去的经验,为每一选项分配了价值。我们运用自己脑海里的好莱坞电影工作室,时间旅行到想象中的未来,看看它们价值几何。我就是这样对比可能的未来,做出选择的。我就是这样把互相冲突的选项转换成未来奖励这一统一货币的。

把我对每一选项所预测的奖励价值想成是一种内部评估,评价出某事的益处有多大。采购杂货能为我供应食物,就说它价值10个奖励单位。撰写补助申请很难,但对我的事业发展大有好处,所以它价值25个奖励单位。我喜欢花时间陪伴儿子,所以带着他去公园价值50个奖励单位。

但这里有一个有趣的转折:世界很复杂,所以我们的内部评估从来不会用永久性墨水书写。你对身边一切的估值随时可变,因为在很多时候,我们的预测跟实际发生的情况并不吻合。有效学习的关键在于追踪这一预测失误:即选择的预期结果和实际结果之间存在的差距。

用我今天的例子来说,我的大脑对带孩子去公园的回报奖励做了预测。如果我们在公园里碰到了朋友,度过了一个比想象中还要好的下午,那么,下一次我再做此类决定时,大脑就会提高对它的评价。反过来说,如果公园里的秋千坏了,天还下了雨,我下一次的评价就会变低。

这是怎么运作的呢?为不断更新你对世界的评估,大脑里有一套又小又古老的系统。这套系统由中脑里的微小细胞群构成,它们所用的语言是神经递质多巴胺。

当你的期待和现实失调,该中脑多巴胺系统就会释放一种信号,以重新评估价值。该信号告诉系统的其余部分,情况是比预期好还是糟,比预期好时多巴胺会激增,比预期糟时多巴胺会减少。预测误差的信号令大脑其余部分调整预期,努力在下一次更贴近现实。多巴胺充当了失误校正机制,它是始终运转着的化学评估员,随时更新你的评价。通过这种方式,你可以根据自己优化过的对未来的猜测,把自己的决定排出优先顺序来。

?

参与决策、释放多巴胺的神经元集中在大脑名为“腹侧被盖区”和“黑质”的两个小区域。尽管体积小,但它们却有着广泛的影响力,当对于某个选择的预测值过高或过低时,它会广播更新。

从根本上说,大脑关注的是意外结果,这种敏感性是动物适应和学习能力的核心。因此,参与从经验中学习的活动的大脑结构,普遍存在于从蜜蜂到人类的各个物种中,这种现象不足为奇。这表明,大脑很久以前就发现了从奖励中学习的基本原则。

预测

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000