第42行: |
第42行: |
| ==如何构建认知地图== | | ==如何构建认知地图== |
| | | |
− | 认知地图通过表征环境中的结构关系,从而支持人类的灵活行为。根据神经科学的知识,认知地图表征在Hippocampus formation的神经活动当中。因此,使用计算模型对Hippocampus formation的神经表征进行建模,可以帮助我们理解构建认知地图的原则。目前已经有了多种计算模型用于模拟和解释认知地图的神经表征,从而给予了对认知地图构建原则不同角度的理解: | + | 认知地图组织知识以实现灵活的行为。实现这种灵活行为意味着认知地图必须包含与行为任务相关的信息。灵活性意味着认知地图面对新的挑战时,能够帮助产生新的行为,并且能够为任何新环境下尽可能快地建立。因此,认知图谱的目的是尽可能提前学习,以使在线学习和计算最小化。为了实现这一目标,认知地图的神经表征必须满足某些要求。这里描述这些计算上的考虑,以及由此产生的模型,这些模型最近在预测神经元表征方面取得了许多成功。 |
| + | |
| + | |
| + | 认知地图通过表征环境中的结构关系,从而支持人类的灵活行为。根据神经科学的知识,认知地图表征在Hippocampus formation的神经活动当中。因此,使用计算模型对Hippocampus formation的神经表征进行建模,可以帮助我们理解构建认知地图的原则。目前已经有了多种计算模型用于模拟和解释认知地图的神经表征,从多角度理解认知地图的构建原则: |
| | | |
| | | |
| '''状态空间与强化学习''' | | '''状态空间与强化学习''' |
| | | |
− | 如何以计算的形式定义认知地图,如何将现实问题转化为认知地图的形式?
| + | 为了实现推理和泛化等灵活行为,认知地图需要表征世界的环境信息。例如,在开车时,决定何时转弯取决于是否知道道路的状态,方向盘在哪,其它车辆在哪里,路标上的符号代表什么。 在强化学习中,这个概念被定义为根据当前的世界状态采取行动(例如,当道路向右弯曲时,向右转)。表征环境中的所有状态信息通常是不可行的,因为它可能包含无数种通常和任务无关的信息。这不仅影响表征状态,而且还妨碍了学习效率。这种 "维度的诅咒 "<ref>Bellman, R. A Markovian decision process. J. Math. Mech. 6, 679–684 (1957</ref>可以通过对状态进行一定程度的抽象(例如,忽略汽车的颜色)来缓解。 |
| + | |
| + | |
| + | 在经典的(model-free)强化学习,计算模型学习状态的价值,或者哪些动作在哪些状态下是好的,因此不需要了解状态之间的关系。虽然从长远来看这是最优的,但基于价值的学习往往是不灵活的,学习速度也很慢<ref>Sutton, R. S. & Barto, A. G. Reinforcement learning: an introduction. in IEEE Transactions on Neural Networks (2017)</ref>。 知道状态之间的关系(状态空间结构)可以在任何起始状态和目标状态之间进行灵活的规划,例如,如果常规路线受阻,可以采取新的路线回家<ref>Studies in spatial learning. I. Orientation and the short-cut</ref>。不幸的是,传统的规划机制(例如,树搜索)计算成本很高,然而状态空间有效表征可以降低规划的成本,有时甚至完全降低。这是认知地图的一个核心目标:利用表征解决问题,而不是通过详尽无遗的计算来解决问题。 |
| + | |
| + | |
| + | 然而,尽管在物理空间中很容易推测出好的状态空间,但现实中地非空间问题转很难转化为认知地图的形式。一种源自强化学习的方法是将空间学习作为理解图上的关系。在空间中,图的节点定义了物理位置,因此,如果两个位置直接相连,节点之间就有边。重要的是,图也可以将非空间问题形式化。家庭树、社会网络和分子中的原子,都是由实体之间的关系组成的,可以用图来表示。因此,图中的节点代表非空间位置。图定义了状态空间,因此能够实现基于价值的强化学习。它们还可以进行规划:每个状态都可以由一个向量元素v来定,状态位于某一节点,则除该节点的值为1之外,所有元素都设置为0;然后将'''v'''乘以'''T'''('''Tv''';'''T'''是转换矩阵,其中'''T'''ij是从状态j到i的转换概率),在一步之后得到未来状态的分布。同样,再次乘以'''T'''('''T2v'''),得到两步之后的分布。重复这个过程,就可以得到节点之间的最短路径。目前已经有基于海马的图模型,例如'''SR'''(successor representations),并且它们对空间的表征类似于位置和网格细胞。<ref>The hippocampus as a predictive map</ref> |
| + | |
| + | |
| + | '''潜在状态与序列学习''' |
| + | |
| + | 图可以灵活地表示问题,但是如何要构建状态? 图如何定义每个图的节点,或者RL问题中的每个状态?感觉上的观察不能完全定义状态,因为两个相同的观察可能存在于不同的地点,其后果也大不相同。例如过马路意味着在英国向右看,而在德国向左看。从形式上看,我们的世界不是 "完全可观察的";相反,我们面临着 "部分可观察的 "问题,必须推断出能区分英国和德国道路的潜在状态表征。状态不能单独从感觉外观推断出来。但是,观察到的序列可以唯一地识别状态,因为具有相同感官观察的两个状态会有不同的未来。事实上,海马形成从序列中学习,它的神经表征使用潜在的代表来区分状态16,39-45。例如,啮齿动物的网格细胞最初对两个相同的盒子进行相同的编码。然而,当动物意识到这两个盒子是由一条走廊连接的时候,网格表征就会改变,以代表全局的两个盒子和走廊空间43。这种静止状态的表征,由于其不同的未来而使感觉上的异化的盒子变得模糊不清。物理位置也可以是不一致的;在空间交替任务中40,41。相同的物理位置(例如,中央的 "树干")根据动物以前的左/右选择预测出不同的未来。在这里,海马体为每个感官观察包含多个 "克隆 "细胞74,137。当图被赋予从序列中学习和推断潜在状态的能力时,它们开始预测上述的许多潜在状态单元,例如,通过克隆结构图(clone structured cognitive graph,CSCG)模型。 |
| + | |
| + | 在CSCG模拟的海马中,包含了对每一种感觉信息的多个克隆细胞。不同的场景下,对同一种的感觉输入,匹配于该感觉输入的不同克隆细胞激活。该模型使用贝叶斯法则推断哪些海马克隆细胞在每个感官观察中应该被激活,并学习克隆细胞之间适当的转移权重。这些过渡权重类似于图的转移矩阵,但关键是状态空间是学习出来的,而不是由建模者提供。 |
| + | |
| + | |
| + | '''路径整合和压缩''' |
| + | |
| + | 路径整合提供了一种建立潜在状态空间的强大方式。它建立的地图嵌入了空间结构的知识(在物理空间中,北+东+南+西=0)。这意味着,基于路径整合的地图本质上是潜在的和抽象的,因为它们遵循规则,而不是感官观察;此外这种地图允许关系知识被转移到任何适用相同规则的情况。值得注意的是,尽管路径整合不限于空间,但并非所有的图都能使用路径整合。路径整合模型利用一种特殊类型的循环神经网络(RNN),称为连续吸引子神经网络<ref>Representation of spatial orientation by the intrinsic dynamics of the head-direction cell ensemble: a theory</ref>(Continuous attractor neuralnetworks, CANNs), 其中神经元通过权重W循环连接,并接受速度输入a。神经动力学由以下公式给出: |
| + | |
| + | τ dg/dt = −g + f (Wg + Ba) |
| | | |
− | 人类的推理和泛化行为依赖于对于任务内在结构的学习,这种内在结构,可以被理解为任务的状态空间(state space)。实现推理和泛化行为,需要人类对任务的状态空间中状态(state)的"位置 "进行编码,表征不同状态位置之间关系的知识,以及可以在具有共同抽象结构但不同感觉事件的任务中迁移。
| + | 这里,τ是神经元反应的时间常数,f是一个非线性激活函数,g是要进行路径整合的细胞向量,B是一个将速度输入a投射到细胞g的矩阵。我们注意到一个替代的,但在生物学上不太合理的方程式是τ dg/dt = -g + f (Wa g),其中递归矩阵W a取决于运动速度。有了一组适当的权重,CANNs使用路径整合,不同的细胞类别(头部方向细胞139,140,位置细胞141,142和网格细胞143;见图,d)用不同的权重建模。值得注意的是,CANNs真的存在于自然界中;在苍蝇中发现了环形吸引子144,包括连接和解剖,在啮齿动物中发现了吸引子流行59,146。 |
| | | |
| + | 此外,计算模型 Velocity-coupled oscillators(VCOs)也是基于路径整合的模型。然而,CANNs和VCOs这类模型一个主要限制是,循环权重矩阵的权重W,是精心挑选的,而不是从感觉经验中学习。 |
| | | |
| | | |
| | | |
− | - 强化学习SR
| + | '''灵活泛化的模型''' |
| | | |
− | - 序列模型 和TEM CSCG
| + | 通过建立潜在状态表征的模型,以及使用路径整合的模型。如果这些原则可以结合起来,我们就可以建立一个强大的系统,从感官观察中学习任意的潜在状态(如CSCG),但又能额外地泛化这些表征(如路径整合模型)并任意地组合它们。为了使抽象表征在不同的感觉环境中被重复使用(泛化),相同的抽象位置必须与不同的感觉观察 "相联系"。 |
| | | |
− | - vector-based model:SPM and vector-based neural network. | + | 基于海马的泛化模型(Tolman-Eichenbaum machine,TEM,和空间记忆管道,SMP75)的任务是尽可能快地预测新的、但结构相似的环境中的感官观察(例如,多个不同的家庭或二维世界;图1g)。两个模型都由两个关键部分组成。(1) 一个抽象的路径整合模块,可在不同的环境中重复使用;(2) 一个关系记忆2模块,像地址簿一样,将抽象的位置表征与感觉表征联系起来(见图,a)。这些联系在不同的世界中会发生变化,允许相同的抽象概念适用于多个世界。 |
| | | |
− | state space
| + | 尽管TEM和SMP在概念上是相同的模型,但它们有不同的实现方式。两个关键的问题是:(1)TEM提供了分配中心的行动和物体表征,但SMP必须从以自我为中心的输入和像素中推断出来;(2)SMP用机器学习中的记忆网络来实现记忆,149而TEM使用更符合生物现实的Hebbian learning150和Hopfield networks 151。这种生物约束意味着抽象世界和感觉世界之间的联系必须发生在神经元单元中;也就是说,同一个海马神经元必须同时知道抽象位置和感觉预测。这种类型的联结性表征通常在海马神经元中被观察到,42,152。在TEM中,这种结合能够通过海马重映射实现泛化55-57,因为相同的皮质表征(LEC和MEC)在不同的环境中被重复使用,由不同的海马组合来促进(见图) |
| | | |
− |
| + | 当感觉物体在空间中排列时,与以前的模型相同的空间路径整合机制将被学习,但当感觉世界有更复杂的依赖关系时,这些也将被学习。如果预测感官未来的最好方法是学习一个复杂的潜伏状态图,那么这些模型将学习在这个潜伏空间中使用路径整合(图2)。 |
| | | |
| | | |