建立更结构化的大脑模型是理解大脑如何组织自身的关键步骤,这可以帮助我们从fMRI,EEG等大脑测量数据中获得更多的数据意义。
数据科学是查看数据并从中提取有用知识的艺术。数据无处不在。数据意味着图像、音频、文本、股市趋势。数据是我们查询世界时出现的一种方式。获得有用的知识具有巨大的优势,无论是对于物种的生存还是对公司的生存而言。
因此,数据科学家的追求与生命地球本身一样古老:所有生命形式都一直在从来自环境的数据流中提取知识,以一种或另一种方式为他们的生存目标服务。有些长达数亿甚至数十亿年。
大脑以最复杂的方式带头完成了这项工作。
科学查询
科学的追求同样是从世界中提取知识,尽管这是一个更加刻意的过程。这个过程大致分为两个要素:建立世界模型并将这些模型与数据进行比较。
用更抽象的术语讲,这两个步骤类似于诸如自动编码器之类的生成模型的两个部分。
1、编码器:数据→模型
在第一阶段,可以称为编码器阶段,我们从数据中提取某种表示/模型,我们希望以某种方式反映数据背后的某种真实(因果/概率等)结构。
2、解码器:模型→预测(新数据)
第二阶段通过对模型进行有关世界的预测来对模型进行解码,然后在实验中将其与观测结果进行比较。
但是,我们还需要采取另一步骤。如果我们只有很少的信息或我们的预测不成立(信息不确定性),我们如何建立和更改模型?如果我们的模型由于建立模型的世界发生变化或包含某种固有的不确定性(环境不确定性)而不再足够好,那会发生什么呢?物理定律可能始终保持不变,但是如果我们改而模拟某些善变的事物,比如像一个人行为不确定,该怎么办?
因此,我们需要另一个阶段,将有关世界的预测与现实世界进行比较,并调整模型以适应预测误差。
3、模型反演:预测的数据 vs. 传入的数据→改进模型
如何使用数据最有效地改善模型?如何同时拧紧复杂模型的许多螺钉而不拧脱口?
正如我在开始时提到的,大脑真的非常擅长从数据中提取相关知识。值得一提的是,他们是才华横溢的直觉科学家,即使他们有数百种偏见。他们不断建立世界模型,基于这些模型进行预测,如果预测不正确,则将其反转和改善。这就是为什么进化过程首先将它们置于我们的脑海。
大脑是执行各种任务的高效学习者。与我们当前的机器学习算法相比,它们趋向于更好地推广和更灵活地学习,这也意味着快速适应不断变化的环境。
他们对难以置信的复杂过程做出了预测,例如"我几分钟前遇到的这个人下一步要做什么?",这意味着我们的大脑会为我们遇到的每个人建立一个模型,并将这个模型集成到预先创建的模型中。现有的人的模型,进一步整合几种数据模式(该人的外观/说话/气味/移动方式)来微调模型,然后使用该人的新的近似模型在实际情况中进行预测,谈论他或她的行为,或迅速将其归类为朋友或敌人。
如果该人的行为与我们的预测相抵触,我们的大脑将无缝地更新其模型,而大多数时候我们不会注意到它。但是,正如机器学习和人工智能领域的当前标准所表明的那样,用计算机来完成这些事情需要花费更长的时间,花费更多的资源并需要更多的数据。
向大脑学习“如何学习”
fMRI数据
神经科学家研究大脑已有一百多年了。但是大脑是很难破解的。我们从中收集的数据通常是混乱且难以解释的。有时候,只能是放弃。但是大脑每天都面临类似的情况。大脑经不起借口。如果我们的大脑只是屈服并说"世界太复杂了,就不可能从中学习任何有用的东西",那我们早就死了。
因此,即使我们没有大量的干净数据可用,我们也不会放弃,如何学习良好的大脑模型?
在一个光怪陆离的恶性循环中,我们可以看看自己研究的主题以提供指导:我们可以从大脑中学习大脑的学习方式,找到有关如何改进和构建算法的灵感,进而帮助我们更好分析和建模大脑数据和行为数据。
大脑中的分层模型
大脑可以有效地推断和改善其变化的世界模型。
层次模型是对此进行概念化的一种方法。可以将认知视为层次结构中的结构化,这也适用于思想本身。
层次模型是用于逐步建立越来越复杂的对象表示的好工具。他们可以捕捉深刻非平凡的结构和数据背后的概率分布,可用于高效地生成预测。
它们的潜力激发了神经科学家寻找大脑中的分层模型的能力。我们在一个充满不确定性的世界中度过了自己的一生,有证据表明,大脑可能在使用大脑中概率分布的隐式表示来解释这种不确定性。有一些关于如何在神经元水平上将它们构建到大脑中的理论。
这些世界概率模型的不同层可以分布在不同的大脑区域和前额叶皮层的不同层中,因此我们的世界模型也将物理分布在大脑上。
高斯滤波器模型
作为一种可以以某种形式在大脑中实施的简单层次模型。
感知总是包含有关环境隐藏状态的不确定性。有没有一种方法可以直接对这种不确定性进行建模?
高斯滤波器的目的是了解隐变量x随时间变化的概率结构。这个隐藏的变量可以代表您可能想到的任何类型的数据,无论是股票可能如何变化或您最好的朋友的决定。
该模型表示代理对该变量信念如何在时间上表现,并提供可以对变量进行预测的生成模型。
一个高斯滤波模型被构建在彼此顶部堆叠的几个高斯随机分布上。每个高斯都有各自的均值和方差,从直觉上讲,其均值的倒数称为精确度,因为如果高斯方差是由它产生的高估计值,它将不会非常精确。
这些高斯函数随时间进行离散的,这意味着每个高斯函数在时间t的新均值是通过从相同的高斯时间t-1绘制得出的。
为了对模型进行预测,我们从顶部开始,并从N个高斯层次中最高的,具有固定精度的高斯中提取值。该高斯给定的值通过某些函数确定其下一层的高斯精度,然后从中进行绘制。该高斯反过来确定下面的高斯的各自协方差。
冲洗,清洗并重复直到到达底层。
我们试图预测的隐藏变量x连接到高斯层次的最底层。如果变量是二进制的(在决策过程中采用布尔值,如"是"或"否"),则可以将底部高斯函数连接至像单位平方的S形函数。如果x本身被假定为高斯,则底部高斯直接对随机变量x的概率分布进行建模 。
到目前为止,这似乎都还有点抽象,因此让我们对这里发生的事情有一些直觉。
高斯滤波器模型的学习行为
两条路在树林里分叉。我们如何告诉代理确定选哪一条?
高斯滤波器模型不仅被提议以某种方式在大脑中实现,而且可以被"转过身"以分析来自行为实验的数据,为真实的大脑在现实生活中的学习建模。
让我们以最简单的情况为例:两个高斯叠加在每个高斯之上,它们通过单位平方的S型函数连接到布尔变量/决策。
假设我们正在让一个代理选择"是"还是"否",这是由某些隐藏状态决定的。我们可以将它们视为我们正在观察的主体的内部过程,就像他的思想和动机一样。它们当然可以随着时间而改变(我假设您曾经对某件事说"是",并很遗憾在您的世界模式改变之后稍后再说"是")。
底层的高斯编码表示代理趋向于"是"或"否"的趋势。现在,位于上一层的第二个高斯模型模拟了底部高斯模型的波动性:代理人趋向于是或否的趋势随时间变化的程度有多强,以及我们对代理人会说是或否的预测又有多大信心? ?
如果我们在两个现有的高斯函数之上叠加其他高斯函数,它们将对波动率进行建模,依此类推,以此类推,从而使模型能够捕获代理中隐藏状态的越来越复杂的概率分布。
层次模型中的模型反演
我们还没有完成。正如我在开始时所述,每个模型的第三个也是至关重要的步骤是模型反演。
神经网络通常通过反向传播进行训练。采用损失函数的梯度并调整网络参数以减小损失。
高斯滤波器模型中的模型反演在结构上有些相似。的预测作出后,其层通过更新最小化变自由能,由逆精度加权,通过对这些层向上该模型。
通过进行平均场近似(假设分布保持高斯分布并独立更新),该方案相对简单且计算效率高,并且可以在试验和实时方式下进行。
基于相应的预测误差来调整参数。从底部开始的事实遵循与反向传播完全相同的逻辑,在反向传播中,您也从连接到输出的网络层开始。
高斯的均值和精度根据预测误差的大小进行更新。这样想:如果预测确实很好,几乎完全匹配观察结果,则传播的误差很小,并且一旦上移层次结构,误差就会越来越小。
首先,如果预测很差,但是猜测的准确性确实很小,这意味着该模型在此级别上对其预测高度不确定,那么该模型也不会调整得太强,因为它已经假设了预测可能会不确定,甚至可能会失效。
学习大脑如何学习
这个模型真的向我们展示了大脑如何学习吗?答案仍然不确定(问题是我们的大脑如何对这种不确定性进行建模),而且我们可以成功地使用该模型来学习行为的事实并不表明大脑确实是通过这种方式实现的。
尽管如此,伊格莱西亚斯等。 Al声称从神经影像学研究中发现了证据,可以做到这一点,即根据预测误差的大小,观察预测误差传播到不同的大脑区域/层级,然后将它们链接到不同的神经递质,例如参与奖励预测的多巴胺。
根据想法,该模型可以与神经解剖学联系起来:预测可能由深部锥体细胞传递,而预测错误则由例如浅表锥体细胞编码。
但是仍然存在许多悬而未决的问题,例如如何在解剖上实现模型的高斯,如何根据来自锥体细胞的信号更新其均值和协方差,如何计算预测误差等。
我们不仅可以通过用大脑启发的模型预测大脑的行为来学习大脑如何学习世界。
但是从更一般的意义上讲,层次模型在许多深度学习和数据科学应用中是有用的工具,因为它们在构造推理网络方面具有强大的功能,例如,动态系统的摊销推理,自然语言处理或在变分自动编码中学习更好的近似后验,并可以使它们更具解释性。由于我们对世界的感知是分层的,因此拥有分层模型可以轻松地将它们与我们的直觉和日常语言联系起来。
建立更结构化的大脑模型是理解大脑如何组织自身的关键步骤,这可以帮助我们从fMRI,EEG等大脑测量数据中获得更多的数据意义。
学习无监督的数据生成模型是AI开发的重要一步。我认为,分层方法是考虑它的更有希望的方法之一。