页面历史
2024年2月21日 (星期三)
2020年11月22日 (星期日)
2020年11月21日 (星期六)
→Direct policy search
-716
→Further reading
-2,308
→External links
-180
→强化学习算法比较
-15
→Comparison of reinforcement learning algorithms
-624
→Research
+888
→理论
+127
→Theory
+363
Qige96
无编辑摘要
00:50
+399
Qige96
→理论
00:48
-125
Qige96
→时序差分方法
00:45
+1
Qige96
→时序差分方法
00:44
+704
Qige96
→价值函数
00:43
-1,381
Qige96
→Direct policy search
16:02
-716
Qige96
→Further reading
15:38
-2,308
Qige96
→External links
15:36
-180
Qige96
→强化学习算法比较
13:26
-15
Qige96
→Comparison of reinforcement learning algorithms
13:23
-624
Qige96
→Research
12:30
+888
Qige96
→理论
00:08
+127
Qige96
→Theory
00:06
+363
Qige96
→最佳化准则
23:57
+10
Qige96
→价值函数
23:48
+81
Qige96
→价值函数
20:33
-94
Qige96
→Algorithms for control learning
17:26
-262
Qige96
→探索
17:04
+283