更改

稳定学习 (查看源代码)

2022年7月5日 (二) 23:39的版本

添加6字节、 2022年7月5日 (二) 23:39

无编辑摘要

第27行：第27行：

稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题，当我们用机器学习进行预测建模的时候，如果对测试数据集没有任何先验知识，如何保证模型在未知分布上做出稳定预测，即在保证预测性能的同时，尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习（独立同分布学习, I.I.D.）与迁移学习的关系，后两者的优化目标是在具有测试集分布先验知识的情况下，最大化模型的预测性能（准确率）。同时，稳定学习假设在测试数据中存在多个环境，因此对模型的泛化能力提出了更高的要求。

−

[[File:稳定学习-图1.png|~~400px~~|thumb|center|图2：稳定学习，传统机器学习（I.I.D.学习）和迁移学习的比较]]

+

[[File:稳定学习-图1.png|800px|thumb|center|图2：稳定学习，传统机器学习（I.I.D.学习）和迁移学习的比较]]

在2018年发表在KDD会议的论文中，崔鹏老师团队受到因果推断中利用协变量平衡估计因果效应的思想的启发，提出了一种新的深度全局平衡回归 Deep Global Balancing Regression（DGBR）算法，联合优化一个用于特征选择（降维）的深度自动编码器模型，和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离（isolated）的情况下，该个特征对响应的因果效应，并以此构建了一组使得变量被平衡（variable balancing）的样本权重，让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。

第40行：第40行：

崔鹏老师团队针对具有模型错估（model misspecification，即模型与数据生成机制不一致）稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中，变量间的共线性是如何影响预测稳定性的，并提出了一种一般的数据预处理方法，通过训练集样本重加权来去除预测变量（特征）间的相关性，以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法，提出了去相关加权回归算法（Decorrelated Weighting Regression, DWR），结合了变量去相关正则化与加权回归模型，解决了在连续的预测变量（特征）的设定下，模型的稳定预测问题。

−

[[File:图3.png|~~400px~~|center|thumb|图3：DWR模型和基线模型在不同测试环境下性能的比较；左图：横轴代表不同的环境，纵轴代表预测误差，不同颜色代表不同的模型；右图：横轴代表不同的模型，纵轴代表在不同环境下的平均错误，性能的方差在条柱顶端用黑实线标出。]]

+

[[File:图3.png|800px|center|thumb|图3：DWR模型和基线模型在不同测试环境下性能的比较；左图：横轴代表不同的环境，纵轴代表预测误差，不同颜色代表不同的模型；右图：横轴代表不同的模型，纵轴代表在不同环境下的平均错误，性能的方差在条柱顶端用黑实线标出。]]

去除所有变量之间的相关性固然是找到因果相关，平衡协变量并实现稳定预测的好主意，它的代价是大大降低了有效样本量（efficient sample size），而这在机器学习训练中是灾难性的。Zheyan Shen等人通过使用来自不同环境的未标注数据，提出了一种基于变量聚类的变量分解的算法，称为区分性变量去相关（Differentiated Variable Decorrelation, DVD）。这个方法是注意到保留因果性变量之间的相关性未必会导致模型在未知环境中的性能不稳定。以特征间相关性的在训练集数据和未标注之间的数据稳定性作为聚类的指标，可以将预测变量（特征）进行聚类并为不同的聚类簇，其中一些聚类簇代表了对相应变量具有因果效应的特征集合。在平衡混淆变量时只需要隔离这些聚类簇即可。由于聚类簇的数量远低于特征的维度，因此DVD与样本加权方法DWR相比，保持了更高的有效样本量。

−

[[File:图4.png|~~400px~~|thumb|center|图4：与不加区分地去除所有变量的相关性的方法（DWR）相比，区分性变量去相关方法（DVD）在相同设定下具有更大的有效样本量。]]

+

[[File:图4.png|800px|thumb|center|图4：与不加区分地去除所有变量的相关性的方法（DWR）相比，区分性变量去相关方法（DVD）在相同设定下具有更大的有效样本量。]]

===对抗稳定学习===

第57行：第57行： −

[[File:图5.png|~~400px~~|thumb|center|图5：实验结果。(a)各环境下的测试性能。(b) 关于半径的测试性能。(c) S和V相对于半径的学习系数值。]]

+

[[File:图5.png|800px|thumb|center|图5：实验结果。(a)各环境下的测试性能。(b) 关于半径的测试性能。(c) S和V相对于半径的学习系数值。]]

实验结果表明，SAL算法各向异性地考虑每个协变量以实现更真实的鲁棒性。并且构建了一个更好的不确定性集，在不同分布的数据上取得了一致更好的表现，验证了算法的有效性。

第66行：第66行：

同样地，如果想完全利用训练数据中发现的所有相关性，具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能，这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization（HRM）框架，以实现对数据之间潜在异质性和不变关系的联合学习，从而在分布变化的情况下实现稳定的预测。

−

[[File:图6.png|thumb|center|图6：HRM框架]]

+

[[File:图6.png|800px|thumb|center|图6：HRM框架]]

第83行：第83行：

继续进行了三个真实场景的预测，包括汽车保险预测、人们收入预测和房价预测。

−

[[File:图7.png|~~400px~~|thumb|center|图7：真实场景的预测结果。(a) 汽车保险预测的训练和测试准确性。左子图显示了5种设置的训练结果，右子图显示了它们对应的测试结果。(b) 收入预测的误分类率。(c) 房价预测的预测误差。]]

+

[[File:图7.png|800px|thumb|center|图7：真实场景的预测结果。(a) 汽车保险预测的训练和测试准确性。左子图显示了5种设置的训练结果，右子图显示了它们对应的测试结果。(b) 收入预测的误分类率。(c) 房价预测的预测误差。]]

第117行：第117行：

稳定图学习的任务是学习一个表示无偏连接结构的图Gs，因为环境中的图是从数据生成的，如果数据的收集过程来自具有选择性偏差的环境，则元素之间的虚假相关性会导致图在其他环境中表现不佳。SGL框架能很好地解决这个问题，SGL框架可以分解为两个步骤，包括基于图的集合生成和稳定图学习。基于图的集合生成的详细框架如图8所示。

−

[[File:图8.png|~~400px~~|thumb|center|图8：基于图的集合生成的详细框架。]]

+

[[File:图8.png|800px|thumb|center|图8：基于图的集合生成的详细框架。]]

稳定图学习过程图解如图9所示。

−

[[File:图9.png|~~400px~~|thumb|center|图9：稳定图学习的过程图解。]]

+

[[File:图9.png|800px|thumb|center|图9：稳定图学习的过程图解。]]

在模拟实验中，如图10所示，在几乎所有的实验中，SGL框架的性能要稳定得多，特别是当两个环境之间的差异更显着时，它比所有基线方法都达到更高的平均准确度。

−

[[File:图10.png|~~400px~~|thumb|center|图10：模拟实验结果。每个子图对应一个实验，紫色曲线表示SGL框架生成的图Gs的实验表现。]]

+

[[File:图10.png|800px|thumb|center|图10：模拟实验结果。每个子图对应一个实验，紫色曲线表示SGL框架生成的图Gs的实验表现。]]

而相应地，在真实实验里，崔鹏老师团队研究了商品推荐的常见实际应用中的稳定图结构问题。

第131行：第131行：

从表1可以看出，SGL框架生成的图Gs可以平衡两种环境下的相关性，更稳定地达到最高平均预测率。

−

[[File:表1.png|~~400px~~|thumb|center|表1：使用从商品网络中学习的项目嵌入进行带有曝光偏差的购买行为预测。]]

+

[[File:表1.png|800px|thumb|center|表1：使用从商品网络中学习的项目嵌入进行带有曝光偏差的购买行为预测。]]

如表2所示。SGL框架可以很好地弥补单一环境下的信息损失，通过学习商品之间的本质关系，生成整体性能最佳的图Gs。

−

[[File:表2.png|~~400px~~|thumb|center|表2：使用从商品网络中学习到的项目嵌入来预测不同性别群体的购买行为。]]

+

[[File:表2.png|800px|thumb|center|表2：使用从商品网络中学习到的项目嵌入来预测不同性别群体的购买行为。]]

图生成的数据选择性偏差可能导致有偏差的图结构在Non-I.I.D.场景中性能不佳。针对该问题提出的SGL框架可以提高学习图的泛化能力，并能很好地适应不同类型的图表和收集的数据。

第146行：第146行：

为了解决这个问题，浙江大学况琨老师团队提出了一种新的GNNs稳定预测框架，它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失，从而使GNNs能够很好地泛化。换句话说，是为GNNs设计了一种新的稳定预测框架，该框架能捕获每个节点的稳定属性，在此基础上学习节点表示并进行预测（局部稳定），并规范GNNs在异构环境中的训练（全局稳定）。该方法的本质如图11所示。

−

[[File:图11.png|~~400px~~|thumb|center|图11：整体架构。由两个基本组成部分组成，即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习，以及显式平衡不同训练的全局稳定学习环境。]]

+

[[File:图11.png|800px|thumb|center|图11：整体架构。由两个基本组成部分组成，即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习，以及显式平衡不同训练的全局稳定学习环境。]]

在图基准实验中，浙江大学况琨老师团队使用OGB数据集和传统基准Citeseer数据集，构建两层GCN和GAT。所有其他方法（包括我们的方法）也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250，Citeseer的隐藏层神经节点个数为64，学习率为0.002。

第154行：第154行： −

[[File:图12.png|~~400px~~|thumb|center|图12：在OGB-Arxiv数据集上的测试结果。]]

+

[[File:图12.png|800px|thumb|center|图12：在OGB-Arxiv数据集上的测试结果。]]

−

[[File:图13.png|~~400px~~|thumb|center|图13：在Citeseer数据集上的测试结果]]

+

[[File:图13.png|800px|thumb|center|图13：在Citeseer数据集上的测试结果]]

为了证明稳定预测框架在实际应用中的有效性，浙江大学况琨老师团队收集真实世界的嘈杂数据集，对推荐系统的用户-项目二分图进行了实验。如图14、15的实验结果表明，稳定预测框架比其他基线方法取得了明显更稳定的结果。

−

[[File:图14.png|~~400px~~|thumb|center|图14：具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。]]

+

[[File:图14.png|800px|thumb|center|图14：具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。]]

−

[[File:图15.png|~~400px~~|thumb|center|图15：具有真实世界环境的推荐数据集的结果（每天作为一个单独的环境）。]]

+

[[File:图15.png|800px|thumb|center|图15：具有真实世界环境的推荐数据集的结果（每天作为一个单独的环境）。]]

====深度神经网络中的稳定学习====

第170行：第170行：

崔鹏老师团队提出了一种称为StableNet的方法。该方法通过全局加权样本来解决分布偏移问题，以直接对每个输入样本的所有特征进行去相关，从而消除相关和不相关特征之间的统计相关性。这是一种基于随机傅立叶特征 (Random Fourier Features, RFF) 的新型非线性特征去相关方法，具有线性计算复杂度。同时，它也是有效的优化机制，通过迭代保存和重新加载模型的特征和权重来全局感知和消除相关性，还能在训练数据量大时减少存储的使用和计算成本。此外，如图16所示，StableNet可以有效地剔除不相关的特征（例如，水）并利用真正相关的特征进行预测，从而在野外非平稳环境中获得更稳定的性能。

−

[[File:图16.png|~~400px~~|thumb|center|图16：当识别狗的训练图像包含很多水时，StableNet模型主要关注于狗。]]

+

[[File:图16.png|800px|thumb|center|图16：当识别狗的训练图像包含很多水时，StableNet模型主要关注于狗。]]

−

[[File:图17.png|~~400px~~|thumb|center|图17：StableNet的整体架构。]]

+

[[File:图17.png|800px|thumb|center|图17：StableNet的整体架构。]]

第180行：第180行：

在消融研究中，通过随机选择用于计算具有不同比率的依赖关系的特征来进一步降低特征维度。图18显示了具有不同维度随机傅里叶特征的实验结果。

−

[[File:图18.png|~~400px~~|thumb|center|图18：消融研究的结果。]]

+

[[File:图18.png|800px|thumb|center|图18：消融研究的结果。]]

图像分类模型的一种直观解释是识别对最终决策有很大影响的像素。所以，在显着性图像上，为了演示模型在进行预测时是关注对象还是上下文（域），对类别得分函数相对于输入像素的梯度进行了可视化。可视化结果如图19所示。

−

[[File:图19.png|~~400px~~|thumb|center|图19：StableNet的显着性图像。像素越亮，它对预测的贡献就越大。]]

+

[[File:图19.png|800px|thumb|center|图19：StableNet的显着性图像。像素越亮，它对预测的贡献就越大。]]

第198行：第198行：

公平变量并不会影响评估决策支持算法的公平性。因此，崔鹏老师团队通过设置公平变量将条件公平定义为更合理的公平度量。通过选取不同的公平变量，崔鹏老师团队证明了传统的公平概念，例如统计公平和机会均等，是条件公平符号的特例。并且提出了一种可求导的条件公平正则化器（Derivable Conditional Fairness Regularizer, DCFR），它可以集成到任何决策模型中，以跟踪算法决策的精度和公平性之间的权衡。

−

[[File:图20.png|~~400px~~|thumb|center|图20：DCFR的框架。]]

+

[[File:图20.png|800px|thumb|center|图20：DCFR的框架。]]

为了公平比较，在实验中，选择也使用对抗性表示学习的方法来解决问题的公平优化算法作对照。有UNFAIR、ALFR、CFAIR和LAFTR，以及它的变体LAFTR-DP和LAFTR-EO。

−

[[File:图21.png|~~400px~~|thumb|center|图21：各种数据集（从上到下依次为收入数据集、荷兰人口普查数据集、COMPAS数据集）上不同公平性指标（从左到右依次为Δ𝐷𝑃、Δ𝐸𝑂、Δ𝐶𝐹）的准确性-公平性权衡曲线。DCFR以粗线显示。]]

+

[[File:图21.png|800px|thumb|center|图21：各种数据集（从上到下依次为收入数据集、荷兰人口普查数据集、COMPAS数据集）上不同公平性指标（从左到右依次为Δ𝐷𝑃、Δ𝐸𝑂、Δ𝐶𝐹）的准确性-公平性权衡曲线。DCFR以粗线显示。]]

很明显，在实验中DCFR更有优势，在准确性和公平性上达到更好的权衡效果。对于统计公平和机会均等任务，DCFR的退化变体能有与专为这些任务设计的最先进基线方法相当的性能，有时甚至还能有更好的结果。综上所述，DCFR在真实数据集上非常有效，并在条件公平目标上取得了良好的性能。并且随着公平变量的数量增加，其表现会更好。

第213行：第213行：

研究表明，深度神经网络学习到的表征可以转移到我们没有充足标记数据的其他领域中，并进行类似的预测任务。然而，当我们过渡到模型中的更高神经层时，表征变得更加适用于特定任务而不通用。关于这个问题，深度域适应的研究提出通过强制深度模型学习更多跨域可迁移的表征来缓解。这其实是通过将域适应方法整合到深度学习管道中来实现的。然而，相关性并不总是可转移的。亚利桑那州立大学（Arizona State University，ASU）刘欢老师团队提出了一个用于无监督域适应 (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示学习框架，以学习用于目标域预测的可迁移特征表示，如图22所示。其实就是使用来自源域的重新加权样本来模拟虚拟目标域，并估计特征对结果的因果影响。

−

[[File:图22.png|~~400px~~|thumb|center|图22：DCDAN概述。]]

+

[[File:图22.png|800px|thumb|center|图22：DCDAN概述。]]

DCDAN由一个正则化项组成，该正则化项通过平衡从数据中学习到的特征表示的分布来学习源数据的平衡权重。这些权重的设计有助于模型捕捉特征对目标变量的因果影响，而不是它们的相关性。此外，我们的模型包括深度神经网络的加权损失函数，其中每个样本的权重来自正则化项，损失函数负责学习预测域不变特征，以及将学习到的表征映射到输出的分类器或因果机制。将学习组件的样本权重嵌入到模型的管道中，并将这些权重与表征联合学习，这样不仅可以从深度模型中受益，还能学习对目标具有可转移性和良好预测效果的因果特征。

−

[[File:图23.png|~~400px~~|thumb|center|图23：DCDAN生成的数据集中样本示例(EQ2)和热图。图23(a)显示了来自数据的示例图像，图23(b)显示了从VQA-X数据集中提取的图23(a)的因果特征的基本事实，图23(c) 显示了DCDAN为因果表征生成的热图]]

+

[[File:图23.png|800px|thumb|center|图23：DCDAN生成的数据集中样本示例(EQ2)和热图。图23(a)显示了来自数据的示例图像，图23(b)显示了从VQA-X数据集中提取的图23(a)的因果特征的基本事实，图23(c) 显示了DCDAN为因果表征生成的热图]]

为了验证该框架的有效性，亚利桑那州立大学（Arizona State University，ASU）刘欢老师团队将ResNet-50、DDC、DAN、Deep CORAL、DANN、HAFN设置为对照方法来进行实验。

−

[[File:图24.png|~~400px~~|thumb|center|图24：DCDAN和Resnet-50 在VQA-X数据子集上生成的热图。]]

+

[[File:图24.png|800px|thumb|center|图24：DCDAN和Resnet-50 在VQA-X数据子集上生成的热图。]]

−

[[File:图25.png|~~400px~~|thumb|center|图25：在任务上具有不同超参数、和的DCDAN的准确性。]]

+

[[File:图25.png|800px|thumb|center|图25：在任务上具有不同超参数、和的DCDAN的准确性。]]

在实验中，DCDAN在许多情况下优于基线方法，结果表明DCDAN可以执行无监督的域自适应，显示了它在学习因果表示方面的有效性。而且这还验证了因果特征表示有助于学习跨域的可迁移特征，进一步证实了因果损失和分类损失之间的良好权衡可以导致学习更多可转移的特征。

薄荷

7,129

个编辑