更改

人群模拟 (查看源代码)

2020年8月4日 (二) 21:29的版本

删除6字节、 2020年8月4日 (二) 21:29

第740行：第740行：

（--[[用户:嘉树|嘉树]]（[[用户讨论:嘉树|讨论]]） learning applies to the way in which Q values are assigned 翻译为学习效果取决于分配 q 值的方式，不知是否正确）

，这完全是基于奖励的。当一个主体接触到一个状态 s 和一个动作 a 时，算法就会估计这个主体执行这个'''状态动作对state action pair'''所能得到的总回报值。在计算这些数据之后，它们被存储在主体的知识中，主体依据这些知识开始行动。

−

~~==here==~~

第748行：第746行：

The agent will constantly alter its behavior depending on the best Q value available to it. And as it explores more and more of the environment, it will eventually learn the most optimal state action pairs to perform in almost every situation.

−

~~代理将不断地改变其行为取决于最佳 q 值可用于它。随着它对环境的探索越来越多，它最终将学习在几乎每种情况下执行的最佳状态动作对。~~

+

主体将依赖最佳Q值不断地改变自己的行为。随着它对环境的探索越来越多，它最终将学习到几乎每种情况下最佳'''状态动作对state action pairs'''。

嘉树

259

个编辑

更改

人群模拟 (查看源代码)

2020年8月4日 (二) 21:29的版本

导航菜单

搜索