第134行: |
第134行: |
| 在模拟实验中,如图10所示,在几乎所有的实验中,SGL框架的性能要稳定得多,特别是当两个环境之间的差异更显着时,它比所有基线方法都达到更高的平均准确度。 | | 在模拟实验中,如图10所示,在几乎所有的实验中,SGL框架的性能要稳定得多,特别是当两个环境之间的差异更显着时,它比所有基线方法都达到更高的平均准确度。 |
| | | |
− | 图10:模拟实验结果。每个子图对应一个实验,紫色曲线表示SGL框架生成的图Gs的实验表现。 | + | [[File:图10.png|400px|thumb|center|图10:模拟实验结果。每个子图对应一个实验,紫色曲线表示SGL框架生成的图Gs的实验表现。]] |
− | | |
| | | |
| 而相应地,在真实实验里,崔鹏老师团队研究了商品推荐的常见实际应用中的稳定图结构问题。 | | 而相应地,在真实实验里,崔鹏老师团队研究了商品推荐的常见实际应用中的稳定图结构问题。 |
第141行: |
第140行: |
| 从表1可以看出,SGL框架生成的图Gs可以平衡两种环境下的相关性,更稳定地达到最高平均预测率。 | | 从表1可以看出,SGL框架生成的图Gs可以平衡两种环境下的相关性,更稳定地达到最高平均预测率。 |
| | | |
− | 表1:使用从商品网络中学习的项目嵌入进行带有曝光偏差的购买行为预测。 | + | [[File:表1.png|400px|thumb|center|表1:使用从商品网络中学习的项目嵌入进行带有曝光偏差的购买行为预测。]] |
| | | |
| 如表2所示。SGL框架可以很好地弥补单一环境下的信息损失,通过学习商品之间的本质关系,生成整体性能最佳的图Gs。 | | 如表2所示。SGL框架可以很好地弥补单一环境下的信息损失,通过学习商品之间的本质关系,生成整体性能最佳的图Gs。 |
| | | |
− | 表2:使用从商品网络中学习到的项目嵌入来预测不同性别群体的购买行为。 | + | [[File:表2.png|400px|thumb|center|表2:使用从商品网络中学习到的项目嵌入来预测不同性别群体的购买行为。]] |
| | | |
| 图生成的数据选择性偏差可能导致有偏差的图结构在Non-I.I.D.场景中性能不佳。针对该问题提出的SGL框架可以提高学习图的泛化能力,并能很好地适应不同类型的图表和收集的数据。 | | 图生成的数据选择性偏差可能导致有偏差的图结构在Non-I.I.D.场景中性能不佳。针对该问题提出的SGL框架可以提高学习图的泛化能力,并能很好地适应不同类型的图表和收集的数据。 |
第156行: |
第155行: |
| 为了解决这个问题,浙江大学况琨老师团队提出了一种新的GNNs稳定预测框架,它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失,从而使GNNs能够很好地泛化。换句话说,是为GNNs设计了一种新的稳定预测框架,该框架能捕获每个节点的稳定属性,在此基础上学习节点表示并进行预测(局部稳定),并规范GNNs在异构环境中的训练(全局稳定)。该方法的本质如图11所示。 | | 为了解决这个问题,浙江大学况琨老师团队提出了一种新的GNNs稳定预测框架,它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失,从而使GNNs能够很好地泛化。换句话说,是为GNNs设计了一种新的稳定预测框架,该框架能捕获每个节点的稳定属性,在此基础上学习节点表示并进行预测(局部稳定),并规范GNNs在异构环境中的训练(全局稳定)。该方法的本质如图11所示。 |
| | | |
− | 图11:整体架构。由两个基本组成部分组成,即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习,以及显式平衡不同训练的全局稳定学习环境。 | + | [[File:图11.png|400px|thumb|center|图11:整体架构。由两个基本组成部分组成,即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习,以及显式平衡不同训练的全局稳定学习环境。]] |
− | | |
| | | |
| 在图基准实验中,浙江大学况琨老师团队使用OGB数据集和传统基准Citeseer数据集,构建两层GCN和GAT。所有其他方法(包括我们的方法)也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250,Citeseer的隐藏层神经节点个数为64,学习率为0.002。 | | 在图基准实验中,浙江大学况琨老师团队使用OGB数据集和传统基准Citeseer数据集,构建两层GCN和GAT。所有其他方法(包括我们的方法)也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250,Citeseer的隐藏层神经节点个数为64,学习率为0.002。 |
第164行: |
第162行: |
| 测试结果如图12和图13所示。稳定预测框架有着更稳定的实验结果。当测试分布与训练分布的差异更大时,大多数GNNs会遭受分布变化并且产生较差的性能(例如,图12a的右侧)。尽管稳定预测框架在分布更接近训练的测试环境中牺牲了一些性能(例如,图12a的左侧),但获得了显着更高的 Average_Score 和更低的 Stability_Error。 | | 测试结果如图12和图13所示。稳定预测框架有着更稳定的实验结果。当测试分布与训练分布的差异更大时,大多数GNNs会遭受分布变化并且产生较差的性能(例如,图12a的右侧)。尽管稳定预测框架在分布更接近训练的测试环境中牺牲了一些性能(例如,图12a的左侧),但获得了显着更高的 Average_Score 和更低的 Stability_Error。 |
| | | |
− | 图12:在OGB-Arxiv数据集上的测试结果。
| |
| | | |
− | 图13:在Citeseer数据集上的测试结果
| + | [[File:图12.png|400px|thumb|center|图12:在OGB-Arxiv数据集上的测试结果。]] |
| | | |
| + | [[File:图13.png|400px|thumb|center|图13:在Citeseer数据集上的测试结果]] |
| | | |
| 为了证明稳定预测框架在实际应用中的有效性,浙江大学况琨老师团队收集真实世界的嘈杂数据集,对推荐系统的用户-项目二分图进行了实验。如图14、15的实验结果表明,稳定预测框架比其他基线方法取得了明显更稳定的结果。 | | 为了证明稳定预测框架在实际应用中的有效性,浙江大学况琨老师团队收集真实世界的嘈杂数据集,对推荐系统的用户-项目二分图进行了实验。如图14、15的实验结果表明,稳定预测框架比其他基线方法取得了明显更稳定的结果。 |
| | | |
− | 图14:具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。 | + | [[File:图14.png|400px|thumb|center|图14:具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。]] |
− | | + | [[File:图15.png|400px|thumb|center|图15:具有真实世界环境的推荐数据集的结果(每天作为一个单独的环境)。]] |
− | 图15:具有真实世界环境的推荐数据集的结果(每天作为一个单独的环境)。 | |
− | | |
| | | |
| ====深度神经网络中的稳定学习==== | | ====深度神经网络中的稳定学习==== |
第183行: |
第179行: |
| 崔鹏老师团队提出了一种称为StableNet的方法。该方法通过全局加权样本来解决分布偏移问题,以直接对每个输入样本的所有特征进行去相关,从而消除相关和不相关特征之间的统计相关性。这是一种基于随机傅立叶特征 (Random Fourier Features, RFF) 的新型非线性特征去相关方法,具有线性计算复杂度。同时,它也是有效的优化机制,通过迭代保存和重新加载模型的特征和权重来全局感知和消除相关性,还能在训练数据量大时减少存储的使用和计算成本。此外,如图16所示,StableNet可以有效地剔除不相关的特征(例如,水)并利用真正相关的特征进行预测,从而在野外非平稳环境中获得更稳定的性能。 | | 崔鹏老师团队提出了一种称为StableNet的方法。该方法通过全局加权样本来解决分布偏移问题,以直接对每个输入样本的所有特征进行去相关,从而消除相关和不相关特征之间的统计相关性。这是一种基于随机傅立叶特征 (Random Fourier Features, RFF) 的新型非线性特征去相关方法,具有线性计算复杂度。同时,它也是有效的优化机制,通过迭代保存和重新加载模型的特征和权重来全局感知和消除相关性,还能在训练数据量大时减少存储的使用和计算成本。此外,如图16所示,StableNet可以有效地剔除不相关的特征(例如,水)并利用真正相关的特征进行预测,从而在野外非平稳环境中获得更稳定的性能。 |
| | | |
| + | [[File:图16.png|400px|thumb|center|图16:当识别狗的训练图像包含很多水时,StableNet模型主要关注于狗。]] |
| | | |
− | 图16:当识别狗的训练图像包含很多水时,StableNet模型主要关注于狗。
| + | [[File:图17.png|400px|thumb|center|图17:StableNet的整体架构。]] |
− | | |
− | 图17:StableNet的整体架构。 | |
| | | |
| | | |
第194行: |
第189行: |
| 在消融研究中,通过随机选择用于计算具有不同比率的依赖关系的特征来进一步降低特征维度。图18显示了具有不同维度随机傅里叶特征的实验结果。 | | 在消融研究中,通过随机选择用于计算具有不同比率的依赖关系的特征来进一步降低特征维度。图18显示了具有不同维度随机傅里叶特征的实验结果。 |
| | | |
− | 图18:消融研究的结果。 | + | [[File:图18.png|400px|thumb|center|图18:消融研究的结果。]] |
| | | |
| | | |
| 图像分类模型的一种直观解释是识别对最终决策有很大影响的像素。所以,在显着性图像上,为了演示模型在进行预测时是关注对象还是上下文(域),对类别得分函数相对于输入像素的梯度进行了可视化。可视化结果如图19所示。 | | 图像分类模型的一种直观解释是识别对最终决策有很大影响的像素。所以,在显着性图像上,为了演示模型在进行预测时是关注对象还是上下文(域),对类别得分函数相对于输入像素的梯度进行了可视化。可视化结果如图19所示。 |
| | | |
− | 图19:StableNet的显着性图像。像素越亮,它对预测的贡献就越大。 | + | [[File:图19.png|400px|thumb|center|图19:StableNet的显着性图像。像素越亮,它对预测的贡献就越大。]] |
| | | |
| | | |
第212行: |
第207行: |
| 公平变量并不会影响评估决策支持算法的公平性。因此,崔鹏老师团队通过设置公平变量将条件公平定义为更合理的公平度量。通过选取不同的公平变量,崔鹏老师团队证明了传统的公平概念,例如统计公平和机会均等,是条件公平符号的特例。并且提出了一种可求导的条件公平正则化器(Derivable Conditional Fairness Regularizer, DCFR),它可以集成到任何决策模型中,以跟踪算法决策的精度和公平性之间的权衡。 | | 公平变量并不会影响评估决策支持算法的公平性。因此,崔鹏老师团队通过设置公平变量将条件公平定义为更合理的公平度量。通过选取不同的公平变量,崔鹏老师团队证明了传统的公平概念,例如统计公平和机会均等,是条件公平符号的特例。并且提出了一种可求导的条件公平正则化器(Derivable Conditional Fairness Regularizer, DCFR),它可以集成到任何决策模型中,以跟踪算法决策的精度和公平性之间的权衡。 |
| | | |
− | 图20:DCFR的框架。 | + | [[File:图20.png|400px|thumb|center|图20:DCFR的框架。]] |
− | | |
| | | |
| 为了公平比较,在实验中,选择也使用对抗性表示学习的方法来解决问题的公平优化算法作对照。有UNFAIR、ALFR、CFAIR和LAFTR,以及它的变体LAFTR-DP和LAFTR-EO。 | | 为了公平比较,在实验中,选择也使用对抗性表示学习的方法来解决问题的公平优化算法作对照。有UNFAIR、ALFR、CFAIR和LAFTR,以及它的变体LAFTR-DP和LAFTR-EO。 |
| | | |
− | 图21:各种数据集(从上到下依次为收入数据集、荷兰人口普查数据集、COMPAS数据集)上不同公平性指标(从左到右依次为Δ𝐷𝑃、Δ𝐸𝑂、Δ𝐶𝐹)的准确性-公平性权衡曲线。DCFR以粗线显示。 | + | [[File:图21.png|400px|thumb|center|图21:各种数据集(从上到下依次为收入数据集、荷兰人口普查数据集、COMPAS数据集)上不同公平性指标(从左到右依次为Δ𝐷𝑃、Δ𝐸𝑂、Δ𝐶𝐹)的准确性-公平性权衡曲线。DCFR以粗线显示。]] |
− | | |
| | | |
| 很明显,在实验中DCFR更有优势,在准确性和公平性上达到更好的权衡效果。对于统计公平和机会均等任务,DCFR的退化变体能有与专为这些任务设计的最先进基线方法相当的性能,有时甚至还能有更好的结果。综上所述,DCFR在真实数据集上非常有效,并在条件公平目标上取得了良好的性能。并且随着公平变量的数量增加,其表现会更好。 | | 很明显,在实验中DCFR更有优势,在准确性和公平性上达到更好的权衡效果。对于统计公平和机会均等任务,DCFR的退化变体能有与专为这些任务设计的最先进基线方法相当的性能,有时甚至还能有更好的结果。综上所述,DCFR在真实数据集上非常有效,并在条件公平目标上取得了良好的性能。并且随着公平变量的数量增加,其表现会更好。 |
第229行: |
第222行: |
| 研究表明,深度神经网络学习到的表征可以转移到我们没有充足标记数据的其他领域中,并进行类似的预测任务。然而,当我们过渡到模型中的更高神经层时,表征变得更加适用于特定任务而不通用。关于这个问题,深度域适应的研究提出通过强制深度模型学习更多跨域可迁移的表征来缓解。这其实是通过将域适应方法整合到深度学习管道中来实现的。然而,相关性并不总是可转移的。亚利桑那州立大学(Arizona State University,ASU)刘欢老师团队提出了一个用于无监督域适应 (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示学习框架,以学习用于目标域预测的可迁移特征表示,如图22所示。其实就是使用来自源域的重新加权样本来模拟虚拟目标域,并估计特征对结果的因果影响。 | | 研究表明,深度神经网络学习到的表征可以转移到我们没有充足标记数据的其他领域中,并进行类似的预测任务。然而,当我们过渡到模型中的更高神经层时,表征变得更加适用于特定任务而不通用。关于这个问题,深度域适应的研究提出通过强制深度模型学习更多跨域可迁移的表征来缓解。这其实是通过将域适应方法整合到深度学习管道中来实现的。然而,相关性并不总是可转移的。亚利桑那州立大学(Arizona State University,ASU)刘欢老师团队提出了一个用于无监督域适应 (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示学习框架,以学习用于目标域预测的可迁移特征表示,如图22所示。其实就是使用来自源域的重新加权样本来模拟虚拟目标域,并估计特征对结果的因果影响。 |
| | | |
− | 图22:DCDAN概述。 | + | [[File:图22.png|400px|thumb|center|图22:DCDAN概述。]] |
− | | |
| | | |
| DCDAN由一个正则化项组成,该正则化项通过平衡从数据中学习到的特征表示的分布来学习源数据的平衡权重。这些权重的设计有助于模型捕捉特征对目标变量的因果影响,而不是它们的相关性。此外,我们的模型包括深度神经网络的加权损失函数,其中每个样本的权重来自正则化项,损失函数负责学习预测域不变特征,以及将学习到的表征映射到输出的分类器或因果机制。将学习组件的样本权重嵌入到模型的管道中,并将这些权重与表征联合学习,这样不仅可以从深度模型中受益,还能学习对目标具有可转移性和良好预测效果的因果特征。 | | DCDAN由一个正则化项组成,该正则化项通过平衡从数据中学习到的特征表示的分布来学习源数据的平衡权重。这些权重的设计有助于模型捕捉特征对目标变量的因果影响,而不是它们的相关性。此外,我们的模型包括深度神经网络的加权损失函数,其中每个样本的权重来自正则化项,损失函数负责学习预测域不变特征,以及将学习到的表征映射到输出的分类器或因果机制。将学习组件的样本权重嵌入到模型的管道中,并将这些权重与表征联合学习,这样不仅可以从深度模型中受益,还能学习对目标具有可转移性和良好预测效果的因果特征。 |
| | | |
− | 图23:DCDAN生成的数据集中样本示例(EQ2)和热图。图23(a)显示了来自数据的示例图像,图23(b)显示了从VQA-X数据集中提取的图23(a)的因果特征的基本事实,图23(c) 显示了DCDAN为因果表征生成的热图 | + | [[File:图23.png|400px|thumb|center|图23:DCDAN生成的数据集中样本示例(EQ2)和热图。图23(a)显示了来自数据的示例图像,图23(b)显示了从VQA-X数据集中提取的图23(a)的因果特征的基本事实,图23(c) 显示了DCDAN为因果表征生成的热图]] |
− | | |
| | | |
| 为了验证该框架的有效性,亚利桑那州立大学(Arizona State University,ASU)刘欢老师团队将ResNet-50、DDC、DAN、Deep CORAL、DANN、HAFN设置为对照方法来进行实验。 | | 为了验证该框架的有效性,亚利桑那州立大学(Arizona State University,ASU)刘欢老师团队将ResNet-50、DDC、DAN、Deep CORAL、DANN、HAFN设置为对照方法来进行实验。 |
| | | |
− | 图24:DCDAN和Resnet-50 在VQA-X数据子集上生成的热图。
| |
− |
| |
− | 图25:在任务上具有不同超参数、和的DCDAN的准确性。
| |
| | | |
| + | [[File:图24.png|400px|thumb|center|图24:DCDAN和Resnet-50 在VQA-X数据子集上生成的热图。]] |
| + | [[File:图25.png|400px|thumb|center|图25:在任务上具有不同超参数、和的DCDAN的准确性。]] |
| | | |
| 在实验中,DCDAN在许多情况下优于基线方法,结果表明DCDAN可以执行无监督的域自适应,显示了它在学习因果表示方面的有效性。而且这还验证了因果特征表示有助于学习跨域的可迁移特征,进一步证实了因果损失和分类损失之间的良好权衡可以导致学习更多可转移的特征。 | | 在实验中,DCDAN在许多情况下优于基线方法,结果表明DCDAN可以执行无监督的域自适应,显示了它在学习因果表示方面的有效性。而且这还验证了因果特征表示有助于学习跨域的可迁移特征,进一步证实了因果损失和分类损失之间的良好权衡可以导致学习更多可转移的特征。 |