更改

因果表征学习：问题，方法和应用 (查看源代码)

2022年9月14日 (三) 22:14的版本

添加40字节、 2022年9月14日 (三) 22:14

第236行：第236行：

假设我们有来自多个领域的数据，包括高维图像序列、动作和奖励，并且不同的领域可能有不同的环境，比如重力和图像上所加噪声水平的变化。AdaRL的基本思想是我们利用简约的图表示（parsimonious graphical representation）来表征系统中变量之间的结构关系，包括不同维度的状态s、以及奖励变量r、动作变量a、以及感知图像o之间的结构。此外，与学习高维输入上的分布偏移的经典方法不同，由于图分解，我们引入了低维向量 θ 以紧凑的方式表征特定领域的信息。特别地，θo 用于表征观察函数的变化，θs 用于转换动态的变化，θr 用于奖励函数的变化。在这个例子中，域在重力和所加白噪声方面是不同的，因此我们可以使用一个二维向量来表征这些变化，其中一维用于重力，另一维用于不同的噪声水平。请注意，这里我们只观察图像序列 ot、奖励 rt 和动作 at，所有其他部分都是根据数据估计的，包括潜在状态 st、状态转移函数、变化因子 θ 以及变量之间的图结构。

−

+

[[File:图结构.png|300px|left|thumb]]

我们可以看到，图表示提供了一种紧凑的方式来编码变化的内容和位置（what and where the changes ae)。具体来说，首先从图结构中，我们可以很直观地看出动作预测需要哪些维度的状态。在这个例子中，策略优化只需要 s1 和 s3，而不需要 s2，因为它不会影响未来的奖励。此外，我们从图表示里可以快速知道变化在哪里，并且知道哪些变化需要适应。在这个例子中，只有 θs 捕捉到的重力变化和 θr 捕捉到的可能的奖励变化需要适应，但我们不需要适应 θo 捕捉到的加在图像上的噪声的变化，因为它不会影响未来的奖励。另外，由于具有模块化（modularity）的特性，可以单独考虑各个因素，避免了维数灾难。因此，通过明确地利用这种紧凑的表示来编码变化，在Cartpole这个例子中如何平衡pole的策略只随着重力而变化，所以在一个新的领域，只需要少量样本来估计低维变化因子，然后我们可以直接推导出新域中的最优策略。我们可以看到图知识提供了更可解释和更有效的适应。此外，通过识别变化的位置和方式，我们不仅利用了不变部分，还利用了可变部分，因此可以更有效地适应。值得一提的是，仅依靠不变部分可能会牺牲部分性能，因为一些关键信息会丢失。

<br>

+

==目前的分析工具以及对对来的展望==

===Causal-learn===

薄荷

7,129

个编辑

更改

因果表征学习：问题，方法和应用 (查看源代码)

2022年9月14日 (三) 22:14的版本

导航菜单

搜索