更改

跳到导航 跳到搜索
删除6字节 、 2020年8月4日 (二) 21:29
→‎here 翻译1
第740行: 第740行:  
(--[[用户:嘉树|嘉树]]([[用户讨论:嘉树|讨论]]) learning applies to the way in which Q values are assigned 翻译为学习效果取决于分配 q 值的方式,不知是否正确)
 
(--[[用户:嘉树|嘉树]]([[用户讨论:嘉树|讨论]]) learning applies to the way in which Q values are assigned 翻译为学习效果取决于分配 q 值的方式,不知是否正确)
 
,这完全是基于奖励的。当一个主体接触到一个状态 s 和一个动作 a 时,算法就会估计这个主体执行这个'''状态动作对state action pair'''所能得到的总回报值。在计算这些数据之后,它们被存储在主体的知识中,主体依据这些知识开始行动。
 
,这完全是基于奖励的。当一个主体接触到一个状态 s 和一个动作 a 时,算法就会估计这个主体执行这个'''状态动作对state action pair'''所能得到的总回报值。在计算这些数据之后,它们被存储在主体的知识中,主体依据这些知识开始行动。
  −
==here==
        第748行: 第746行:  
The agent will constantly alter its behavior depending on the best Q value available to it. And as it explores more and more of the environment, it will eventually learn the most optimal state action pairs to perform in almost every situation.
 
The agent will constantly alter its behavior depending on the best Q value available to it. And as it explores more and more of the environment, it will eventually learn the most optimal state action pairs to perform in almost every situation.
   −
代理将不断地改变其行为取决于最佳 q 值可用于它。随着它对环境的探索越来越多,它最终将学习在几乎每种情况下执行的最佳状态动作对。
+
主体将依赖最佳Q值不断地改变自己的行为。随着它对环境的探索越来越多,它最终将学习到几乎每种情况下最佳'''状态动作对state action pairs'''。
     
259

个编辑

导航菜单