更改

大小无更改 、 2023年3月28日 (二) 15:50
无编辑摘要
第18行: 第18行:  
因为常见的机器学习算法是基于输入变量和输出变量的相关性做预测,当它遇到变量之间的虚假相关时,便无法避免上述三个风险因素。数据中的相关性能归类成三种模式:因果导致的相关,混淆导致的相关和选择性偏差导致的相关,如图1所示。
 
因为常见的机器学习算法是基于输入变量和输出变量的相关性做预测,当它遇到变量之间的虚假相关时,便无法避免上述三个风险因素。数据中的相关性能归类成三种模式:因果导致的相关,混淆导致的相关和选择性偏差导致的相关,如图1所示。
   −
[[File:稳定学习-图2.png|800px|thumb|center|图1:相关性的三种模式,(a)因果相关;(b)混淆导致的相关;(c)数据选择性偏差导致的相关。]]
+
[[File:稳定学习-图1.png|800px|thumb|center|图1:相关性的三种模式,(a)因果相关;(b)混淆导致的相关;(c)数据选择性偏差导致的相关。]]
 +
 
       
在这三种产生相关性的模式中,只有因果关系产生的相关性反映了变量之间的内在依赖关系;另外两种类型是对特征的联合分布和数据收集过程敏感的虚假相关。由于黑盒模型甚至没有尝试区分产生这些相关性的三种不同模式,它们的预测性能在很大程度上取决于测试分布与训练分布的偏离程度,从而导致在不同的测试分布下性能不稳定。同时,基于虚假相关性的预测模型也可能是不公平的,因为它还放大了选择性偏差。
 
在这三种产生相关性的模式中,只有因果关系产生的相关性反映了变量之间的内在依赖关系;另外两种类型是对特征的联合分布和数据收集过程敏感的虚假相关。由于黑盒模型甚至没有尝试区分产生这些相关性的三种不同模式,它们的预测性能在很大程度上取决于测试分布与训练分布的偏离程度,从而导致在不同的测试分布下性能不稳定。同时,基于虚假相关性的预测模型也可能是不公平的,因为它还放大了选择性偏差。
 +
      第29行: 第31行:  
稳定学习的概念是在2018年的KDD会议上由清华大学副教授崔鹏团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
 
稳定学习的概念是在2018年的KDD会议上由清华大学副教授崔鹏团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
   −
[[File:稳定学习-图1.png|800px|thumb|center|图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较]]
+
[[File:稳定学习-图2.png|800px|thumb|center|图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较]]在2018年发表在KDD会议的论文中,他们受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。
 
  −
在2018年发表在KDD会议的论文中,他们受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。