假设我们有来自多个领域的数据,包括高维图像序列、动作和奖励,并且不同的领域可能有不同的环境,比如重力和图像上所加噪声水平的变化。AdaRL的基本思想是我们利用简约的图表示(parsimonious graphical representation)来表征系统中变量之间的结构关系,包括不同维度的状态s、以及奖励变量r、动作变量a、以及感知图像o之间的结构。此外,与学习高维输入上的分布偏移的经典方法不同,由于图分解,我们引入了低维向量 θ 以紧凑的方式表征特定领域的信息。特别地,θo 用于表征观察函数的变化,θs 用于转换动态的变化,θr 用于奖励函数的变化。在这个例子中,域在重力和所加白噪声方面是不同的,因此我们可以使用一个二维向量来表征这些变化,其中一维用于重力,另一维用于不同的噪声水平。请注意,这里我们只观察图像序列 ot、奖励 rt 和动作 at,所有其他部分都是根据数据估计的,包括潜在状态 st、状态转移函数、变化因子 θ 以及变量之间的图结构。 | 假设我们有来自多个领域的数据,包括高维图像序列、动作和奖励,并且不同的领域可能有不同的环境,比如重力和图像上所加噪声水平的变化。AdaRL的基本思想是我们利用简约的图表示(parsimonious graphical representation)来表征系统中变量之间的结构关系,包括不同维度的状态s、以及奖励变量r、动作变量a、以及感知图像o之间的结构。此外,与学习高维输入上的分布偏移的经典方法不同,由于图分解,我们引入了低维向量 θ 以紧凑的方式表征特定领域的信息。特别地,θo 用于表征观察函数的变化,θs 用于转换动态的变化,θr 用于奖励函数的变化。在这个例子中,域在重力和所加白噪声方面是不同的,因此我们可以使用一个二维向量来表征这些变化,其中一维用于重力,另一维用于不同的噪声水平。请注意,这里我们只观察图像序列 ot、奖励 rt 和动作 at,所有其他部分都是根据数据估计的,包括潜在状态 st、状态转移函数、变化因子 θ 以及变量之间的图结构。 |