更改

跳到导航 跳到搜索
第236行: 第236行:  
假设我们有来自多个领域的数据,包括高维图像序列、动作和奖励,并且不同的领域可能有不同的环境,比如重力和图像上所加噪声水平的变化。AdaRL的基本思想是我们利用简约的图表示(parsimonious graphical representation)来表征系统中变量之间的结构关系,包括不同维度的状态s、以及奖励变量r、动作变量a、以及感知图像o之间的结构。此外,与学习高维输入上的分布偏移的经典方法不同,由于图分解,我们引入了低维向量 θ 以紧凑的方式表征特定领域的信息。特别地,θo 用于表征观察函数的变化,θs 用于转换动态的变化,θr 用于奖励函数的变化。在这个例子中,域在重力和所加白噪声方面是不同的,因此我们可以使用一个二维向量来表征这些变化,其中一维用于重力,另一维用于不同的噪声水平。请注意,这里我们只观察图像序列 ot、奖励 rt 和动作 at,所有其他部分都是根据数据估计的,包括潜在状态 st、状态转移函数、变化因子 θ 以及变量之间的图结构。
 
假设我们有来自多个领域的数据,包括高维图像序列、动作和奖励,并且不同的领域可能有不同的环境,比如重力和图像上所加噪声水平的变化。AdaRL的基本思想是我们利用简约的图表示(parsimonious graphical representation)来表征系统中变量之间的结构关系,包括不同维度的状态s、以及奖励变量r、动作变量a、以及感知图像o之间的结构。此外,与学习高维输入上的分布偏移的经典方法不同,由于图分解,我们引入了低维向量 θ 以紧凑的方式表征特定领域的信息。特别地,θo 用于表征观察函数的变化,θs 用于转换动态的变化,θr 用于奖励函数的变化。在这个例子中,域在重力和所加白噪声方面是不同的,因此我们可以使用一个二维向量来表征这些变化,其中一维用于重力,另一维用于不同的噪声水平。请注意,这里我们只观察图像序列 ot、奖励 rt 和动作 at,所有其他部分都是根据数据估计的,包括潜在状态 st、状态转移函数、变化因子 θ 以及变量之间的图结构。
   −
[[File:图结构.png|300px|left|thumb]]
+
[[File:图结构.png|200px|left|thumb]]
 
我们可以看到,图表示提供了一种紧凑的方式来编码变化的内容和位置(what and where the changes ae)。具体来说,首先从图结构中,我们可以很直观地看出动作预测需要哪些维度的状态。在这个例子中,策略优化只需要 s1 和 s3,而不需要 s2,因为它不会影响未来的奖励。此外,我们从图表示里可以快速知道变化在哪里,并且知道哪些变化需要适应。在这个例子中,只有 θs 捕捉到的重力变化和 θr 捕捉到的可能的奖励变化需要适应,但我们不需要适应 θo 捕捉到的加在图像上的噪声的变化,因为它不会影响未来的奖励。另外,由于具有模块化(modularity)的特性,可以单独考虑各个因素,避免了维数灾难。 因此,通过明确地利用这种紧凑的表示来编码变化,在Cartpole这个例子中如何平衡pole的策略只随着重力而变化,所以在一个新的领域,只需要少量样本来估计低维变化因子,然后我们可以直接推导出新域中的最优策略。 我们可以看到图知识提供了更可解释和更有效的适应。此外,通过识别变化的位置和方式,我们不仅利用了不变部分,还利用了可变部分,因此可以更有效地适应。 值得一提的是,仅依靠不变部分可能会牺牲部分性能,因为一些关键信息会丢失。
 
我们可以看到,图表示提供了一种紧凑的方式来编码变化的内容和位置(what and where the changes ae)。具体来说,首先从图结构中,我们可以很直观地看出动作预测需要哪些维度的状态。在这个例子中,策略优化只需要 s1 和 s3,而不需要 s2,因为它不会影响未来的奖励。此外,我们从图表示里可以快速知道变化在哪里,并且知道哪些变化需要适应。在这个例子中,只有 θs 捕捉到的重力变化和 θr 捕捉到的可能的奖励变化需要适应,但我们不需要适应 θo 捕捉到的加在图像上的噪声的变化,因为它不会影响未来的奖励。另外,由于具有模块化(modularity)的特性,可以单独考虑各个因素,避免了维数灾难。 因此,通过明确地利用这种紧凑的表示来编码变化,在Cartpole这个例子中如何平衡pole的策略只随着重力而变化,所以在一个新的领域,只需要少量样本来估计低维变化因子,然后我们可以直接推导出新域中的最优策略。 我们可以看到图知识提供了更可解释和更有效的适应。此外,通过识别变化的位置和方式,我们不仅利用了不变部分,还利用了可变部分,因此可以更有效地适应。 值得一提的是,仅依靠不变部分可能会牺牲部分性能,因为一些关键信息会丢失。
  
7,129

个编辑

导航菜单