表象纷繁,无以穷尽,而人性本质,仅6个函数即可描述!
算法是智能系统的灵魂,它很大程度上决定着智能系统的应用潜能。
理解智能,首在于理解算法。AlphaGo拥有两个嵌套的评估函数,一个优选落子策略,一个反馈盘面胜负,由这两个网络所建构的算法经过不断的训练,能够迭代出超人的棋力。虽然评估函数每一次的判断并不是绝对准确,但是它指明了分化的标准和牵引的方向,在不断试错中,在不断的经验积累中,这种看似不起眼的价值指引最终在更久远的时空尺度上涌现出了它超出想象力的专业智慧。
对于人类这个独特的智能体来说,它的算法又会是怎样的呢?人工智能的突飞猛进与学者对大脑神经网络的研究密切相关,人工智能的研究成果又反过来成为理解人体智能的重要参照,结合神经科学、生理学、控制论等众多交叉学科,实际上已经为我们揭示人体智能运行机制提供了越来越丰盛的素材。
本文我们将介绍一个可以一定程度上阐释人体智能的一套计算框架,它包含有6个逐级嵌套的价值评估函数。这6个函数不对机体本身的既定状态进行评价,而是对状态变化的动向进行评价,从而指引机体逐渐适应于各种不确定状况。这6个函数也直接定性了人性的本质!
下面一一简要介绍这6个函数的运行逻辑。
第1层评估函数——宜态分化
首先是第1层评估函数——宜态分化,它与人体内环境的异动密切相关。维纳指出:
“高级动物的生命,特别是健康的生命,能够延续下去的条件是很严格的。体温只要有摄氏半度的变化,一般就是疾病的症候;血液的渗透压和它的氢离子浓度必须保持在严格的限度内;白血球和抵抗感染的化学防疫作用必须保持适当的水平;心博率和血压必须既不太高也不太低……我们内部组织中必须是一个由恒温器、氢离子浓度自动控制器、调速器等构成的系统,它相当于一个巨大的化学工厂。[1]”
机体体液循环支撑着细胞或分子层面的复杂调节反馈,促使内环境保持在特定的均衡区间内,而遍布机体的神经系统则不断采集其中的“异常”信号,从而引发机体的本能或定向调节反应。第1层评估函数就是定性什么是“异常”信号,它并不是对信号刺激的影响趋性进行标识,而是对刺激信号的再适应过程进行对比分化,分化的标准就是刺激信号的前后反差程度。当后续信号差异较大时,机体会对这一信号较为敏感,通常会激发明显的行为调节反应;而当后续信号差异不大时,机体会逐渐习惯化这种信号,不会有较为明显的行为调节反应。不过,如果刺激信号本身是非适宜的,例如由神经末梢所采集的伤害信号,那么机体的适应过程会漫长得多,因为体内存在一种分子机制会保持伤害刺激信号的刺激强度。
从宜态分化的评估机制中可以看到,机体对适宜信号和非适宜信号的再适应过程实际上是有细微的差别的,正是这种差别,使得机体更能够适应于有利的环境,而难于适应不利的环境。
第2层评估函数——焦点分化
感觉系统实现对机体自身状态异动信号的采集,而感知系统则实现对机体外部环境状态异动信息的采集。以听觉和视觉为代表的感知系统,在对事物的分类识别过程中,实际上是一个不断细化特征关联性的组合分化系统。以信息处理带宽最大的视觉系统为例,眼球平均每天上十万次的随机跳动为视觉系统输入了大量的刺激信号,视网膜神经元的侧抑制机制筛选出了高对比度信号,而视皮层则进一步筛选出信号集群的同步性与否,经过多层处理而获得了能够映射表征事物的典型轮廓特征。当一种组合特征相较原有习得的特征差异性更大时,人的感知焦点会通过上丘脑的反射性眼动而聚焦于特异特征之上,从而传入更多刺激信号,这为牵引机体趋向特征事物提供了稳定的目的导引参数,也成为建构机体有目的性行为的底层基础。
在焦点分化的评估机制中,当事物的特征越特异化时,就越能影响人的既有行为状态;而当事物的特征越越一般时,则对人的既有行为状态影响越有限。这种机制使得个体能够在处理既定程序时,也能及时对异常状态给予关注,乃至牵引机体行为趋向。
第3层评估函数——性状分化
人的行为调节系统实际上是一个多层级的调节系统,其中底层是一个具有自适应性环境的节律运动系统。生理学家将猫的脊髓横断后,发现其四肢仍能够适应履带并交替抬起和放下[2],这一实验间接证明了调节系统的多层次性。大疆对四轴飞行器的内环PID参数增加一个负反馈机制后,飞行器的稳定性能得到了极大的提升,这实际上也是一个多层调节机制。多层调节机制的优势在于,它使得高层的定向调节变得更为简洁有效:只要稍微调节底层节律运动的传递参数的节奏和幅度即可,就像是汽车方向盘和刹车系统对高速循环中的动力系统传导链路节点的调控。
第2层讲了感知焦点对行为的牵引,基于多级行为调节机制,使得焦点牵引行为的机制实现更简洁、更稳健。而当行为实施时,机体就会产生与焦点事物的作用互动,同时触发感觉系统的信号传入,在作用过程中,事物的局部特异焦点会进一步牵引机体与事物做进一步的互动,从而引发机体更全面的采集事物的作用反馈。作用过程中的体验可能是积极的,也可能是消极的,消极通常会引起屈肌反射,导致作用过程中断。
对于性状分化的评估机制来说,它比前两个评估机制所能分化的信息维度更高,它实际上相当于是对宜态分化机制和焦点分化机制的综合。主要体现在两个方面,一是检验信号同步性,那些感觉刺激信号和感知特征信号的同步激发,才能形成个体对作用对象的作用认知,而那些不同步激发的信号,则不会被机体记忆系统所刻录下来;二是关联信号体验趋性,特定作用方式和作用目标因为与感觉的同步,而间接获得了一种价值趋性标签,它的意义在于,个体将对内环境的价值评价同步迁移到了外部事物以及特定的作用逻辑之上。
第4层评估函数——效用分化
前面3层评估函数实际上定义了一个具有一定自适应能力的运动系统的基本行为规则,不过它离人性还相距甚远,它只会记录体验却不会调教有价值行为。假如让这套系统去玩纸飞机,因用力摆动飞机而意外带来的空中飞舞这一新奇表现,会引发有效视野的快速集中,进而强化特征事物与系统行为之间的关联,于是系统学会了扔飞机。然而,如果接下来的动作不到位,获得了像扔其他东西一样的常规落地表现,那么该系统还会继续扔飞机吗?很大概率不会。
如果换做小孩来扔飞机,通常会进行多次尝试,以更好的飞行姿态为目标,直到玩腻为止,形成这种有目的定向行为取向的关键原因在于人的第4个评估函数——效用分化机制。
效用分化机制要靠情绪调节系统来辅助完成,基于第3层评估函数,机体体验了与目标事物的作用趋性,当场景再现时,事物关键特征会激发人的习得行为,但作用体验可能与原有体验存在差距,这种差距为情绪触发创造了条件,通常差异越大,情绪激发越显著。情绪反馈会有明显的两种趋性表现,一种是积极快乐的,一种是消极痛苦的。体验积极的行为通常会受到巩固,而体验消极的行为则会受到抑制,这种巩固和抑制与情绪所分泌的大量激素对脑皮层网络的影响有关。于是,在情绪机制调教下,人从原有的随机牵引行为开始转向于有特定价值趋向的定向行为。
在效用分化机制当中,情绪对价值运算并不是十分精确的,但却快速直接,虽然单次的评价存在误差,但多次体验后,个体就能够获得越来越成熟的认知,类似场景体验就愈难以激发情绪。情绪机制对存在差异化的行为认知体验高度敏感。
第5层评估函数——义利分化
对于效用分化机制来说,只要有差异化的体验,人就会自然的趋向于有更好效用体验的场景中,这就展现了人的一种本能——需求无止境。然而,环境条件的限制使得这种无止境的渴求不可避免的受到钳制。当资源稀缺时,一方对资源的对接意味着另一方对资源的脱节,这种现象对另一方来说就是一种消极反应,效用分化机制会指引另一方抑制这种脱节行为而奖励再次对接行为,于是两方的行为在对接稀缺资源上面发生了矛盾冲突。
在解决矛盾的过程中,双方的行为都会给对方造成影响,直到其中一方因遭受某种苦痛刺激而触发本能的规避反应,此时双方的冲突才有可能初步终结,而矛盾交互双方也因为冲突的处理而获得了对特定场景条件下资源可达程度的认知,这一认知正是权属的体现。个人行为能力的成长变化,也会导致掌控冲突的实际表现不同。
上述分化人与人之间矛盾的过程即义利分化,这一机制同样需要情绪的反馈调节。当自身的行为反应太过分时,会滋生愧疚情绪;当自身的行为反应不够的时候,会滋生憎恨情绪……这种情绪反馈会使得双方的冲突趋向于一种制衡博弈下的胁从。除了稀缺资源引发的冲突,还有非资源冲突下的帮扶互助,此时情绪反馈机制一样会对双方的互助水平进行调节:如果帮扶过度,会心生傲慢,如果帮扶不到,会过意不去……此时情绪反馈也会促使双方达成一种协同状态。一般来说,对方影响和自身反应之间的效用差越巨大,情绪反馈越强烈,这种负反馈实际上间接导致了双方与特定场景资源间趋向一种拮抗均衡,当环境条件发生变化时,这种均衡随时都有可能被打破。
第6层评估函数——趋势分化
基于前面5种评估函数,已经可以初步的模拟人的各种基本行为表现。虽然条件参数与行为反应之间通常有较为直接的映射关联,但据此实际上并不能确切地预测人的各种行为趋向和价值认知,这是因为人还有第6层评估函数,即趋势分化机制。
在5个基本评估函数的分化下,个人积累了越来越多的关系体验,这就容易导致在特定的场景下,个人同时触发了两个趋性对立的行为趋向。例如某学生非常喜欢吃甜品,但又了解到吃甜品容易导致肥胖,这种状态中,前者牵引行为趋向,后者抑制行为趋向,于是两种作用方式形成拮抗,使该学生无所适从,此时需要借助于趋势分化机制来完成矛盾运算。如果说第5层评估函数分化的是自身和外部的矛盾的话,那么第6层评估函数分化的就是自身与自身的矛盾。
趋势分化机制依然涉及到情绪的反馈调节。当存在对立性行为趋向时,会引发个人的焦虑情绪,通过认知回溯来寻找特定的关系背景进而分化出价值差异,来牵引个人行为趋向,这个过程就是一个决策过程。当决策实施后,会形成实际的作用体验,当这种体验与初始的认知(即决策时的价值预期)之间存在差异时,就会激发进一步的情绪反馈(成就或后悔),这种反应会反向调节当初的行为决策趋向,从而使得个人最终习得在特定矛盾场景中的恰当行为选择。
趋势分化机制分化的基础是前面5个价值评估函数所沉淀的关系认知,当对这些认知做进一步的价值分化时,实际上会重构过往的部分关系认知,这对于底层分化机制所引发的各种“短视鲁莽”行为会起到有效的再调节作用,从而引导个人不断趋向成熟。
模型总结
6个评估函数对应着6套信号处理机制,并且这6个机制是逐级嵌套扩张的,越低层信号处理逻辑越简单,越高层信息处理程序越复杂。从功能表现上来看,前3层定义了一个自适应智能体的基本行为模式,这是一个“不知天高地厚”的智能体,它在差异化感知特征的驱使下不断实践各种环境状态,并从中记录体验的优劣;后3层因情绪的调校而逐渐闪现出了人性的复杂,其中效用分化机制类似于贪心算法,义利分化类似于MinMax算法,趋势分化类似于强化学习算法。
如果把上述6个评估函数进行整合的话,可以得到下面的模型图(即雪花模型)。遗传算法之父约翰·霍兰指出了建构普适理论所应具备的4个基本架构:状态、对策树、规则、主体。雪花模型正是按这个架构搭建的,其中状态对应关系层,对策树对应作用层,规则对应价值分化机制(即评估函数),主体对应意识层。整套体系相当于用物化的方式来还原具有智慧灵性的智能生命体的内在本质结构,它暗示了重构类人智能体的一种基本建构框架。
要注意的是,仅基于这6个评估函数并不能完全描述人的各种行为和心理表现,其中还有一个重要的环节,那就是迁移学习机制,它使得个人不仅能够处理已经体验过的场景,也能够处理没有体验过的场景。每一个层次的评估函数的迁移学习模式基本类似,即特征要素的局部关联替代。评估函数只是提供了基本的规则,只有基于这套规则不断学习,不断充实脑皮层的神经元网络连接,才能催生出一个成熟的智慧生命体。
以上介绍相对粗糙,欲获知更为详细的推演过程,可参考拙作《认知的维度》进一步了解详情。
2018年9月 宋锋林
[1] 维纳著《控制论》,郝季仁译,二版,科学出版社,2009年,89页。
[2] John G, Nicholls, A.Rober Martin, Paul A. Fuchs, David A. Brown, Mathew E.Diamoud, David A. Weisblat著《神经生物学》,杨雄里等译,第五版,科学出版社,2014年,第583、588页。