第47行: |
第47行: |
| 认知地图通过表征环境中的结构关系,从而支持人类的灵活行为。根据神经科学的知识,认知地图表征在Hippocampus formation的神经活动当中。因此,使用计算模型对Hippocampus formation的神经表征进行建模,可以帮助我们理解构建认知地图的原则。目前已经有了多种计算模型用于模拟和解释认知地图的神经表征,从多角度理解认知地图的构建原则: | | 认知地图通过表征环境中的结构关系,从而支持人类的灵活行为。根据神经科学的知识,认知地图表征在Hippocampus formation的神经活动当中。因此,使用计算模型对Hippocampus formation的神经表征进行建模,可以帮助我们理解构建认知地图的原则。目前已经有了多种计算模型用于模拟和解释认知地图的神经表征,从多角度理解认知地图的构建原则: |
| | | |
− | | + | === '''状态空间与强化学习''' === |
− | '''状态空间与强化学习''' | |
− | | |
| 为了实现推理和泛化等灵活行为,认知地图需要表征世界的环境信息。例如,在开车时,决定何时转弯取决于是否知道道路的状态,方向盘在哪,其它车辆在哪里,路标上的符号代表什么。 在强化学习中,这个概念被定义为根据当前的世界状态采取行动(例如,当道路向右弯曲时,向右转)。表征环境中的所有状态信息通常是不可行的,因为它可能包含无数种通常和任务无关的信息。这不仅影响表征状态,而且还妨碍了学习效率。这种 "维度的诅咒 "<ref>Bellman, R. A Markovian decision process. J. Math. Mech. 6, 679–684 (1957</ref>可以通过对状态进行一定程度的抽象(例如,忽略汽车的颜色)来缓解。 | | 为了实现推理和泛化等灵活行为,认知地图需要表征世界的环境信息。例如,在开车时,决定何时转弯取决于是否知道道路的状态,方向盘在哪,其它车辆在哪里,路标上的符号代表什么。 在强化学习中,这个概念被定义为根据当前的世界状态采取行动(例如,当道路向右弯曲时,向右转)。表征环境中的所有状态信息通常是不可行的,因为它可能包含无数种通常和任务无关的信息。这不仅影响表征状态,而且还妨碍了学习效率。这种 "维度的诅咒 "<ref>Bellman, R. A Markovian decision process. J. Math. Mech. 6, 679–684 (1957</ref>可以通过对状态进行一定程度的抽象(例如,忽略汽车的颜色)来缓解。 |
| | | |
第58行: |
第56行: |
| 然而,尽管在物理空间中很容易推测出好的状态空间,但现实中地非空间问题转很难转化为认知地图的形式。一种源自强化学习的方法是将空间学习作为理解图上的关系。在空间中,图的节点定义了物理位置,因此,如果两个位置直接相连,节点之间就有边。重要的是,图也可以将非空间问题形式化。家庭树、社会网络和分子中的原子,都是由实体之间的关系组成的,可以用图来表示。因此,图中的节点代表非空间位置。图定义了状态空间,因此能够实现基于价值的强化学习。它们还可以进行规划:每个状态都可以由一个向量元素v来定,状态位于某一节点,则除该节点的值为1之外,所有元素都设置为0;然后将'''v'''乘以'''T'''('''Tv''';'''T'''是转换矩阵,其中'''T'''ij是从状态j到i的转换概率),在一步之后得到未来状态的分布。同样,再次乘以'''T'''('''T2v'''),得到两步之后的分布。重复这个过程,就可以得到节点之间的最短路径。目前已经有基于海马的图模型,例如'''SR'''(successor representations),并且它们对空间的表征类似于位置和网格细胞。<ref>The hippocampus as a predictive map</ref> | | 然而,尽管在物理空间中很容易推测出好的状态空间,但现实中地非空间问题转很难转化为认知地图的形式。一种源自强化学习的方法是将空间学习作为理解图上的关系。在空间中,图的节点定义了物理位置,因此,如果两个位置直接相连,节点之间就有边。重要的是,图也可以将非空间问题形式化。家庭树、社会网络和分子中的原子,都是由实体之间的关系组成的,可以用图来表示。因此,图中的节点代表非空间位置。图定义了状态空间,因此能够实现基于价值的强化学习。它们还可以进行规划:每个状态都可以由一个向量元素v来定,状态位于某一节点,则除该节点的值为1之外,所有元素都设置为0;然后将'''v'''乘以'''T'''('''Tv''';'''T'''是转换矩阵,其中'''T'''ij是从状态j到i的转换概率),在一步之后得到未来状态的分布。同样,再次乘以'''T'''('''T2v'''),得到两步之后的分布。重复这个过程,就可以得到节点之间的最短路径。目前已经有基于海马的图模型,例如'''SR'''(successor representations),并且它们对空间的表征类似于位置和网格细胞。<ref>The hippocampus as a predictive map</ref> |
| | | |
− | | + | === '''潜在状态与序列学习''' === |
− | '''潜在状态与序列学习''' | |
− | | |
| 图可以灵活地表示问题,但是如何要构建状态? 图如何定义每个图的节点,或者RL问题中的每个状态?感觉上的观察不能完全定义状态,因为两个相同的观察可能存在于不同的地点,其后果也大不相同。例如过马路意味着在英国向右看,而在德国向左看。从形式上看,我们的世界不是 "完全可观察的";相反,我们面临着 "部分可观察的 "问题,必须推断出能区分英国和德国道路的潜在状态表征。状态不能单独从感觉外观推断出来。但是,观察到的序列可以唯一地识别状态,因为具有相同感官观察的两个状态会有不同的未来。事实上,海马形成从序列中学习,它的神经表征使用潜在的代表来区分状态16,39-45。例如,啮齿动物的网格细胞最初对两个相同的盒子进行相同的编码。然而,当动物意识到这两个盒子是由一条走廊连接的时候,网格表征就会改变,以代表全局的两个盒子和走廊空间43。这种静止状态的表征,由于其不同的未来而使感觉上的异化的盒子变得模糊不清。物理位置也可以是不一致的;在空间交替任务中40,41。相同的物理位置(例如,中央的 "树干")根据动物以前的左/右选择预测出不同的未来。在这里,海马体为每个感官观察包含多个 "克隆 "细胞74,137。当图被赋予从序列中学习和推断潜在状态的能力时,它们开始预测上述的许多潜在状态单元,例如,通过克隆结构图(clone structured cognitive graph,CSCG)模型。 | | 图可以灵活地表示问题,但是如何要构建状态? 图如何定义每个图的节点,或者RL问题中的每个状态?感觉上的观察不能完全定义状态,因为两个相同的观察可能存在于不同的地点,其后果也大不相同。例如过马路意味着在英国向右看,而在德国向左看。从形式上看,我们的世界不是 "完全可观察的";相反,我们面临着 "部分可观察的 "问题,必须推断出能区分英国和德国道路的潜在状态表征。状态不能单独从感觉外观推断出来。但是,观察到的序列可以唯一地识别状态,因为具有相同感官观察的两个状态会有不同的未来。事实上,海马形成从序列中学习,它的神经表征使用潜在的代表来区分状态16,39-45。例如,啮齿动物的网格细胞最初对两个相同的盒子进行相同的编码。然而,当动物意识到这两个盒子是由一条走廊连接的时候,网格表征就会改变,以代表全局的两个盒子和走廊空间43。这种静止状态的表征,由于其不同的未来而使感觉上的异化的盒子变得模糊不清。物理位置也可以是不一致的;在空间交替任务中40,41。相同的物理位置(例如,中央的 "树干")根据动物以前的左/右选择预测出不同的未来。在这里,海马体为每个感官观察包含多个 "克隆 "细胞74,137。当图被赋予从序列中学习和推断潜在状态的能力时,它们开始预测上述的许多潜在状态单元,例如,通过克隆结构图(clone structured cognitive graph,CSCG)模型。 |
| | | |
| 在CSCG模拟的海马中,包含了对每一种感觉信息的多个克隆细胞。不同的场景下,对同一种的感觉输入,匹配于该感觉输入的不同克隆细胞激活。该模型使用贝叶斯法则推断哪些海马克隆细胞在每个感官观察中应该被激活,并学习克隆细胞之间适当的转移权重。这些过渡权重类似于图的转移矩阵,但关键是状态空间是学习出来的,而不是由建模者提供。 | | 在CSCG模拟的海马中,包含了对每一种感觉信息的多个克隆细胞。不同的场景下,对同一种的感觉输入,匹配于该感觉输入的不同克隆细胞激活。该模型使用贝叶斯法则推断哪些海马克隆细胞在每个感官观察中应该被激活,并学习克隆细胞之间适当的转移权重。这些过渡权重类似于图的转移矩阵,但关键是状态空间是学习出来的,而不是由建模者提供。 |
| | | |
− | | + | === '''路径整合和压缩''' === |
− | '''路径整合和压缩''' | |
− | | |
| 路径整合提供了一种建立潜在状态空间的强大方式。它建立的地图嵌入了空间结构的知识(在物理空间中,北+东+南+西=0)。这意味着,基于路径整合的地图本质上是潜在的和抽象的,因为它们遵循规则,而不是感官观察;此外这种地图允许关系知识被转移到任何适用相同规则的情况。值得注意的是,尽管路径整合不限于空间,但并非所有的图都能使用路径整合。路径整合模型利用一种特殊类型的循环神经网络(RNN),称为连续吸引子神经网络<ref>Representation of spatial orientation by the intrinsic dynamics of the head-direction cell ensemble: a theory</ref>(Continuous attractor neuralnetworks, CANNs), 其中神经元通过权重W循环连接,并接受速度输入a。神经动力学由以下公式给出: | | 路径整合提供了一种建立潜在状态空间的强大方式。它建立的地图嵌入了空间结构的知识(在物理空间中,北+东+南+西=0)。这意味着,基于路径整合的地图本质上是潜在的和抽象的,因为它们遵循规则,而不是感官观察;此外这种地图允许关系知识被转移到任何适用相同规则的情况。值得注意的是,尽管路径整合不限于空间,但并非所有的图都能使用路径整合。路径整合模型利用一种特殊类型的循环神经网络(RNN),称为连续吸引子神经网络<ref>Representation of spatial orientation by the intrinsic dynamics of the head-direction cell ensemble: a theory</ref>(Continuous attractor neuralnetworks, CANNs), 其中神经元通过权重W循环连接,并接受速度输入a。神经动力学由以下公式给出: |
| | | |
第78行: |
第72行: |
| | | |
| | | |
− | '''灵活泛化的模型''' | + | === '''灵活泛化的模型''' === |
− | | |
| 通过建立潜在状态表征的模型,以及使用路径整合的模型。如果这些原则可以结合起来,我们就可以建立一个强大的系统,从感官观察中学习任意的潜在状态(如CSCG),但又能额外地泛化这些表征(如路径整合模型)并任意地组合它们。为了使抽象表征在不同的感觉环境中被重复使用(泛化),相同的抽象位置必须与不同的感觉观察 "相联系"。 | | 通过建立潜在状态表征的模型,以及使用路径整合的模型。如果这些原则可以结合起来,我们就可以建立一个强大的系统,从感官观察中学习任意的潜在状态(如CSCG),但又能额外地泛化这些表征(如路径整合模型)并任意地组合它们。为了使抽象表征在不同的感觉环境中被重复使用(泛化),相同的抽象位置必须与不同的感觉观察 "相联系"。 |
| | | |