更改
跳到导航
跳到搜索
第156行:
第156行:
− 在【强化学习】中,数据<math>\textstyle x</math> 通常不被给出,而是由一个代理人与环境的交互生成。 在每个时间点 <math>\textstyle t</math>,,代理做出一个动作 <math>\textstyle y_t</math>,环境根据某种(通常未知)动力学产生一个观测值 <math>\textstyle x_t</math> ,和一个瞬时损失<math>\textstyle c_t</math>。目标是找到一个选择动作的方针,它最小化长期损失的某种衡量。例如,期望积累损失。环境的动力学和每种方针的长期损失通常未知,但可以估计。+
− 更正式地说,环境被建模成【马尔科夫决策过程】 (MDP),具有如下概率分布的状态 <math>\textstyle {s_1,...,s_n}\in S </math>和动作 <math>\textstyle {a_1,...,a_m} \in A</math> :瞬时损失分布 <math>\textstyle P(c_t|s_t)</math>,观测分布 <math>\textstyle P(x_t|s_t)</math> 和转移 <math>\textstyle P(s_{t+1}|s_t, a_t)</math>, 方针被定义为给定观测值的动作上的条件分布。合起来,这二者定义了一个【马尔科夫链】(MC)。目标是找到最小化损失的方针(也就是MC)。+
− 强化学习中,ANN通常被用作整个算法的一部分。【Bertsekas】和【Tsiksiklis】给【动态编程】加上ANN(给出神经动力的编程)并应用到如【车辆路径】和【自然资源管理】或【医药】领域中的多维非线性问题。因为ANN能够减小精度损失,甚至在为数值逼近原始控制问题解而降低离散化网格密度时。+
− 强化学习范式中的任务是控制问题,【游戏】和其他序列决策任务。+
→强化学习(Reinforcement learning)
====强化学习(Reinforcement learning)====
====强化学习(Reinforcement learning)====
在[https://en.wikipedia.org/wiki/Reinforcement_learning 强化学习]中,数据<math>\textstyle x</math> 通常不被给出,而是由一个代理人与环境的交互生成。 在每个时间点 <math>\textstyle {t}</math>,代理做出一个动作 <math>\textstyle y_t</math>,环境根据某种(通常未知)动力学产生一个观测值 <math>\textstyle x_t</math> ,和一个瞬时损失<math>\textstyle c_t</math>。目标是找到一个选择动作的方针,它最小化长期损失的某种衡量。例如,期望积累损失。环境的动力学和每种方针的长期损失通常未知,但可以估计。
更正式地说,环境被建模成[https://en.wikipedia.org/wiki/Markov_decision_process 马尔科夫决策过程] (MDP),具有如下概率分布的状态 <math>\textstyle {s_1,...,s_n}\in S </math>和动作 <math>\textstyle {{a_1,...,a_m} \in A}</math>:瞬时损失分布 <math>\textstyle P(c_t|s_t)</math>,观测分布 <math>\textstyle P(x_t|s_t)</math> 和转移 <math>\textstyle P(s_{t+1}|s_t, a_t)</math>, 方针被定义为给定观测值的动作上的条件分布。合起来,这二者定义了一个[https://en.wikipedia.org/wiki/Markov_chain 马尔科夫链](MC)。目标是找到最小化损失的方针(也就是MC)。
强化学习中,ANN通常被用作整个算法的一部分。[https://en.wikipedia.org/wiki/Dimitri_Bertsekas Bertsekas]和Tsiksiklis给[https://en.wikipedia.org/wiki/Dynamic_programming 动态编程]加上ANN(给出神经动力的编程)并应用到如[https://en.wikipedia.org/wiki/Vehicle_routing 车辆路径]和[https://en.wikipedia.org/wiki/Natural_resource_management 自然资源管理]或[https://en.wikipedia.org/wiki/Medicine 医药]领域中的多维非线性问题。因为ANN能够减小精度损失,甚至在为数值逼近原始控制问题解而降低离散化网格密度时。
强化学习范式中的任务是控制问题,[https://en.wikipedia.org/wiki/Game 游戏]和其他序列决策任务。
==== 收敛递归学习算法(Convergent recursive learning algorithm) ====
==== 收敛递归学习算法(Convergent recursive learning algorithm) ====