第492行: |
第492行: |
| | | |
| =====基于世界模型的强化学习===== | | =====基于世界模型的强化学习===== |
− | 基于[[世界模型]]的[[强化学习]]假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助[[智能体]]对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒化描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。 | + | |
| + | 基于[[世界模型]]的[[强化学习]]假设强化学习主体内部存在一个世界模型,从而可以模拟[[智能主体]]所面对环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,从而帮助[[智能体]]对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒化描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。 |
| + | |
| + | 基于世界模型的强化学习与因果涌现识别也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的,忽略了无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体可以做出更好的决策。在规划(Planning)过程中,智能体也可以使用世界模型来模拟真实世界的动力学。 |
| + | |
| + | 两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行交互,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以被用于强化学习,使世界模型具有更强的因果特性。 |
| | | |
| ===其它潜在应用=== | | ===其它潜在应用=== |