• 精选
  • 会员

青蛙的学习

2020年7月9日  来源:财富的起源 作者:埃里克-拜因霍克 提供人:kangtao76......

假设有一只青蛙名叫克米特,它幸福地坐在池塘中的睡莲叶子上。37它的蛙生目标非常简单:远离危险,吃到苍蝇。克米特的心智模型里拥有各式各样的探测器,能够通过感官来检测环境中的状况,比如移动的、有条纹的、大型的、近处的、嗡嗡作响的。克米特还有一套描述它所能进行的各种行为的感受器,例如逃跑、求偶、伸舌头、无动于衷。克米特的心智模型所要做的工作就是将探测器和感受器一起放进“如果-那么”规则里,以便更好地实现它的目标。举例来说,克米特的大脑中或许有这样一条规则:如果遇到小型的、飞行的、位于视野中心的物体,那么就要伸出舌头。

克米特在最开始的时候是如何获得这些规则的,它又是如何不断学习的呢?有一套基本标准是通过DNA嵌在克米特体内的,因此在蝌蚪时期,它就拥有能够进食和躲避危险的初始设置。然而,一旦进入广阔世界,克米特的规则设置就会马上开始扩展。比如,克米特身上与生俱来的规则是“如果遇到是小型的、飞行的、位于视野中心的物体,那么伸长舌头”。但在经过几次与蜜蜂和马蜂的不愉快接触后,它或许会将规则修改为“如果遇到小型的、飞行的、蓝色的、位于视野中心的物体,那么伸出舌头”,以便更准确地捕捉到苍蝇。同样,由于蜜蜂和马蜂带来的糟糕经验,它或许会增加一条规则,“如果遇到小型的、飞行的、有条纹的物体,那么不做动作”。

随着规则根据环境所提供的反馈不断修改和扩展,它不可避免地会遇到矛盾。我们可以想象有一天,克米特看见了一个小型的、飞行的蓝色物体,与此同时,一片阴影掠过头顶,那么它的探测器会激活两条规则“如果小型的、飞行的、蓝色的物体位于视野中心,那么伸出舌头”;另外,“如果阴影在头顶,那么逃跑”。这两条规则都在争夺克米特的注意力。我们将会假设,为了解决这个矛盾,克米特的心智模型进行了一个可信度赋值的过程,它会根据过去这两条规则在实现目标过程中的表现来给它们打分。成功的规则能够得到高分,失败的规则则会得到低分。“如果阴影在头顶,那么逃跑”这条规则对于帮助克米特避免成为猛禽的午餐发挥了重要作用,在克米特的心智模型的打分系统里,这条规则会被赋予100分。与此同时,捕捉苍蝇的规则也很重要,但是不如前面那条规则重要,因此它会获得90分。这样一来,两条规则就都被激活了,但克米特的心智模型将会选择得分更高的规则,然后逃跑。接下来,它的心智模型还会记下规则是如何为目标服务的,并且更新每条规则的得分。

这个过程自然而然地导向了学习。比如,克米特有一条这样的规则,“如果听见‘嗡嗡’声在左边,那么向左转头”。但偶然有一次,克米特把头转向右边并碰巧捉到了一只苍蝇,于是它又有了一条规则,“如果听见‘嗡嗡’声在左边,那么向右转头”。这两条规则是矛盾的,且都在过去让它获得了午餐,所以这两条规则各得10分打平。现在,我们可以将这两条规则比较一下,在青蛙的世界里究竟哪条规则可以带来午餐。只要分数相等,克米特就都会试一试。我们会清楚地看到,一段时间过后,向左转头规则的效果好过向右转头,它的分数也会不断变高。

然而,这其中存在两个问题。首先,我们不希望这个系统变得过于死板——一旦某条规则的分数从10变成了11,克米特就永远不会再尝试其他的规则。毕竟,如果克米特尝试向右转头,然后偶然间捕捉到了一只苍蝇,让该规则的分数变成了11,死板会导致它永远不会尝试向左转头规则,然后被饿死。因此,更高的分数可以增加规则被激活的可能性,但不确保一定会激活。我们还希望用一些分数非常接近的规则进行实验,甚至会希望偶尔尝试不受待见的规则,看看世界是否发生了变化。其次,我们还会遇到一个问题——行动和反馈有时候是分离的。这样的系统如何能够学会依照战略行动呢?也就是说,在短期内会有成本而在长期有回报的时候,克米特会怎么做?

霍兰德及其同事的答案温暖了经济学家的心——我们拥有市场。他们的假设是,存在于你心智模型里的规则会互相竞争,利用各自的信用分数竞标你的注意力。38信用分数越高,一条规则胜出的可能性就越大,但并不一定胜出。比如,竞标规则之间的5分差距或许意味着它们被选择的概率是50︰50,而10分的差距意味着60︰40的概率,以此类推。此外,竞标通常不是由规则本身,而是由复杂的规则链决定的。举个例子来说,克米特或许有这样一条策略——寻找苍蝇很多的地方并接近(暂时会吓走苍蝇),静坐一会儿直到又有苍蝇飞回来,然后用舌头击中它们。这个过程中所涉及的复杂规则链说明,获得回报的规则(如果出现苍蝇,那么伸出舌头)与规则最初被设立时的情况(如果有有气味的东西吸引苍蝇,那么靠近)存在一些差别。

在规则市场中,我们能将链条上的这些规则想象为供应商和消费者之间的相互作用。比如,“伸出舌头”规则购自“静坐不动”规则,“静坐不动”又购自“靠近有气味的物体”规则。因此,当伸出舌头获得回报时,它必须向供应商规则支付,供应商又会向上一层供应商支付,等等。这样一来,创造利润的规则(它们增强了规则链获得回报的能力)会不断增强,被使用的频次也会增加。然而,随着规则不断向链条的远处回溯,支付的涓滴效应也会不断减小,这可以归因于中间商的存在。由此产生的更低支付为原因和结果之间的距离设定了自然而然的限制。这样的结构与实验假设相符,即在某种程度上我们能够依照策略行动,但在很长、很复杂的因果链中就很难进行推理。

归纳推理 / 行为主体 / 决策

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000