强化学习是指一个''智能体(agent)''应该如何在''环境''中采取''行动'',从而最大限度地获得长期''报酬''的概念。强化学习算法试图找到一种''策略'',将世界''状态''映射到智能体在这些状态中应该采取的行动。强化学习不同于[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]问题,因为不会提供正确的输入/输出对,也没有明确地修正次优行为。 | 强化学习是指一个''智能体(agent)''应该如何在''环境''中采取''行动'',从而最大限度地获得长期''报酬''的概念。强化学习算法试图找到一种''策略'',将世界''状态''映射到智能体在这些状态中应该采取的行动。强化学习不同于[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]问题,因为不会提供正确的输入/输出对,也没有明确地修正次优行为。 |