更改

无编辑摘要
第5行: 第5行:  
机器学习模型已经在许多面向互联网的场景取得成功。在诸如预测点击量或对图像进行分类等应用场景中,模型做出错误决策的代价似乎并不高,因此从业者采用“性能驱动”的模式优化人工智能技术,即只关注该模型在完成目标任务时体现出的性能而不太关注技术发生错误时的风险。当任务环境发生变化,预测出现错误的时候,人们通过频繁地更新黑盒模型以保证预测的性能。然而,在诸如医疗保健、工业制造、金融和司法等与社会生活息息相关的领域,机器学习模型做出的错误预测的后果往往是难以接受的,这些场景也因此被称为风险敏感的场景。由于数据获取困难以及伦理问题,在风险敏感的场景中因为环境变化而重新训练机器学习模型的代价会比较昂贵,因此模型的短期预测性能之外的特性也十分重要。为了促进机器学习模型在更多风险敏感场景的应用,我们需要仔细分析机器学习模型面临的技术性风险,并采取办法克服这些风险。
 
机器学习模型已经在许多面向互联网的场景取得成功。在诸如预测点击量或对图像进行分类等应用场景中,模型做出错误决策的代价似乎并不高,因此从业者采用“性能驱动”的模式优化人工智能技术,即只关注该模型在完成目标任务时体现出的性能而不太关注技术发生错误时的风险。当任务环境发生变化,预测出现错误的时候,人们通过频繁地更新黑盒模型以保证预测的性能。然而,在诸如医疗保健、工业制造、金融和司法等与社会生活息息相关的领域,机器学习模型做出的错误预测的后果往往是难以接受的,这些场景也因此被称为风险敏感的场景。由于数据获取困难以及伦理问题,在风险敏感的场景中因为环境变化而重新训练机器学习模型的代价会比较昂贵,因此模型的短期预测性能之外的特性也十分重要。为了促进机器学习模型在更多风险敏感场景的应用,我们需要仔细分析机器学习模型面临的技术性风险,并采取办法克服这些风险。
   −
  −
清华大学崔鹏副教授和斯坦福大学的Susan Athey在一篇今年发表于''Nature Machine Intelligence''的观点论文中深入分析了机器学习发风险来源,他们提出缺乏稳定性、可解释性和公平性是当今机器学习中必须解决的最关键和最紧迫的三个风险因素,并指出可以利用因果关系的观点来改善机器学习和预测建模。
        第20行: 第18行:       −
崔鹏老师在这篇发表在''Nature Machine Intelligence''的观点论文中提出,为了从根本上解决稳定性、可解释性和公平性的风险,人们需要在机器学习框架中接受并强调因果关系。因果关系实际上刻画了数据生成机制,如果能够识别和估计数据的因果结构,预测建模自然可以作为副产品来解决。遵循着强调因果关系的技术路径,研究者必须解决因果推断的所有挑战。至此,机器学习和因果推断之间形成了共识。崔鹏老师团队和国内外其他团队在这个问题上进行了诸多探索,并形成了“稳定学习”的方向,朝着沟通机器学习和因果推断的目标前进。
+
崔鹏发表在''Nature Machine Intelligence''的观点论文中提出,为了从根本上解决稳定性、可解释性和公平性的风险,人们需要在机器学习框架中接受并强调因果关系。因果关系实际上刻画了数据生成机制,如果能够识别和估计数据的因果结构,预测建模自然可以作为副产品来解决。遵循着强调因果关系的技术路径,研究者必须解决因果推断的所有挑战。至此,机器学习和因果推断之间形成了共识。崔鹏老师团队和国内外其他团队在这个问题上进行了诸多探索,并形成了“稳定学习”的方向,朝着沟通机器学习和因果推断的目标前进。
    
==稳定学习的提出<ref>Kuang, K., et al. Stable Prediction across Unknown Environments. in ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.</ref>==
 
==稳定学习的提出<ref>Kuang, K., et al. Stable Prediction across Unknown Environments. in ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.</ref>==
稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
+
稳定学习的概念是在2018年的KDD会议上由清华大学副教授崔鹏团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
    
[[File:稳定学习-图1.png|800px|thumb|center|图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较]]
 
[[File:稳定学习-图1.png|800px|thumb|center|图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较]]
   −
在2018年发表在KDD会议的论文中,崔鹏老师团队受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。
+
在2018年发表在KDD会议的论文中,他们受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。
      第36行: 第34行:  
===基于样本加权的变量去相关<ref>Shen, Z., et al. Stable Learning via Differentiated Variable Decorrelation. in 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: ACM.</ref><ref>Shen, Z., et al., Stable Learning via Sample Reweighting. AAAI2020, 2019.</ref><ref>Kuang, K., et al. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. in Association for the Advancement of Artificial Intelligence. 2020.</ref>===
 
===基于样本加权的变量去相关<ref>Shen, Z., et al. Stable Learning via Differentiated Variable Decorrelation. in 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: ACM.</ref><ref>Shen, Z., et al., Stable Learning via Sample Reweighting. AAAI2020, 2019.</ref><ref>Kuang, K., et al. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. in Association for the Advancement of Artificial Intelligence. 2020.</ref>===
   −
崔鹏老师团队针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。
+
针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。
    
[[File:图3.png|800px|center|thumb|图3:DWR模型和基线模型在不同测试环境下性能的比较;左图:横轴代表不同的环境,纵轴代表预测误差,不同颜色代表不同的模型;右图:横轴代表不同的模型,纵轴代表在不同环境下的平均错误,性能的方差在条柱顶端用黑实线标出。]]
 
[[File:图3.png|800px|center|thumb|图3:DWR模型和基线模型在不同测试环境下性能的比较;左图:横轴代表不同的环境,纵轴代表预测误差,不同颜色代表不同的模型;右图:横轴代表不同的模型,纵轴代表在不同环境下的平均错误,性能的方差在条柱顶端用黑实线标出。]]
第62行: 第60行:  
===异质性风险最小化<ref>Liu, J., et al. Heterogeneous Risk Minimization. in International Conference on Machine Learning. 2021.</ref><ref>Liu, J., et al. Kernelized Heterogeneous Risk Minimization. in 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.</ref>===
 
===异质性风险最小化<ref>Liu, J., et al. Heterogeneous Risk Minimization. in International Conference on Machine Learning. 2021.</ref><ref>Liu, J., et al. Kernelized Heterogeneous Risk Minimization. in 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.</ref>===
   −
同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。
+
同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。
    
[[File:图6.png|800px|thumb|center|图6:HRM框架]]
 
[[File:图6.png|800px|thumb|center|图6:HRM框架]]
第142行: 第140行:       −
为了解决这个问题,浙江大学况琨老师团队提出了一种新的GNNs稳定预测框架,它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失,从而使GNNs能够很好地泛化。换句话说,是为GNNs设计了一种新的稳定预测框架,该框架能捕获每个节点的稳定属性,在此基础上学习节点表示并进行预测(局部稳定),并规范GNNs在异构环境中的训练(全局稳定)。该方法的本质如图11所示。
+
为了解决这个问题,浙江大学助理教授况琨提出了一种新的GNNs稳定预测框架,它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失,从而使GNNs能够很好地泛化。换句话说,是为GNNs设计了一种新的稳定预测框架,该框架能捕获每个节点的稳定属性,在此基础上学习节点表示并进行预测(局部稳定),并规范GNNs在异构环境中的训练(全局稳定)。该方法的本质如图11所示。
    
[[File:图11.png|800px|thumb|center|图11:整体架构。由两个基本组成部分组成,即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习,以及显式平衡不同训练的全局稳定学习环境。]]
 
[[File:图11.png|800px|thumb|center|图11:整体架构。由两个基本组成部分组成,即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习,以及显式平衡不同训练的全局稳定学习环境。]]
   −
在图基准实验中,浙江大学况琨老师团队使用OGB数据集和传统基准Citeseer数据集,构建两层GCN和GAT。所有其他方法(包括我们的方法)也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250,Citeseer的隐藏层神经节点个数为64,学习率为0.002。
+
在图基准实验中,况琨团队使用OGB数据集和传统基准Citeseer数据集,构建两层GCN和GAT。所有其他方法(包括我们的方法)也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250,Citeseer的隐藏层神经节点个数为64,学习率为0.002。
      第156行: 第154行:  
[[File:图13.png|800px|thumb|center|图13:在Citeseer数据集上的测试结果]]
 
[[File:图13.png|800px|thumb|center|图13:在Citeseer数据集上的测试结果]]
   −
为了证明稳定预测框架在实际应用中的有效性,浙江大学况琨老师团队收集真实世界的嘈杂数据集,对推荐系统的用户-项目二分图进行了实验。如图14、15的实验结果表明,稳定预测框架比其他基线方法取得了明显更稳定的结果。
+
为了证明稳定预测框架在实际应用中的有效性,他们收集真实世界的嘈杂数据集,对推荐系统的用户-项目二分图进行了实验。如图14、15的实验结果表明,稳定预测框架比其他基线方法取得了明显更稳定的结果。
    
[[File:图14.png|800px|thumb|center|图14:具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。]]
 
[[File:图14.png|800px|thumb|center|图14:具有由节点属性引起的分布偏移的真实世界推荐数据集的结果。]]
第163行: 第161行:  
====深度神经网络中的稳定学习<ref>Zhang, X., et al. Deep Stable Learning for Out-Of-Distribution Generalization. in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021.</ref>====
 
====深度神经网络中的稳定学习<ref>Zhang, X., et al. Deep Stable Learning for Out-Of-Distribution Generalization. in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021.</ref>====
   −
基于深度神经网络的方法在测试数据和训练数据共享相似分布时取得了惊人的性能,但有时可能会失败。因此,消除训练和测试数据之间分布变化的影响对于构建性能有希望的深度模型至关重要。崔鹏老师团队建议通过学习训练样本的权重来消除特征之间的依赖关系来解决这个问题,这有助于深度模型摆脱虚假关联,进而更多地关注判别特征和标签之间的真正联系。
+
基于深度神经网络的方法在测试数据和训练数据共享相似分布时取得了惊人的性能,但有时可能会失败。因此,消除训练和测试数据之间分布变化的影响对于构建性能有希望的深度模型至关重要。崔鹏建议通过学习训练样本的权重来消除特征之间的依赖关系来解决这个问题,这有助于深度模型摆脱虚假关联,进而更多地关注判别特征和标签之间的真正联系。
      −
崔鹏老师团队提出了一种称为StableNet的方法。该方法通过全局加权样本来解决分布偏移问题,以直接对每个输入样本的所有特征进行去相关,从而消除相关和不相关特征之间的统计相关性。这是一种基于随机傅立叶特征 (Random Fourier Features, RFF) 的新型非线性特征去相关方法,具有线性计算复杂度。同时,它也是有效的优化机制,通过迭代保存和重新加载模型的特征和权重来全局感知和消除相关性,还能在训练数据量大时减少存储的使用和计算成本。此外,如图16所示,StableNet可以有效地剔除不相关的特征(例如,水)并利用真正相关的特征进行预测,从而在野外非平稳环境中获得更稳定的性能。
+
崔鹏提出了一种称为StableNet的方法。该方法通过全局加权样本来解决分布偏移问题,以直接对每个输入样本的所有特征进行去相关,从而消除相关和不相关特征之间的统计相关性。这是一种基于随机傅立叶特征 (Random Fourier Features, RFF) 的新型非线性特征去相关方法,具有线性计算复杂度。同时,它也是有效的优化机制,通过迭代保存和重新加载模型的特征和权重来全局感知和消除相关性,还能在训练数据量大时减少存储的使用和计算成本。此外,如图16所示,StableNet可以有效地剔除不相关的特征(例如,水)并利用真正相关的特征进行预测,从而在野外非平稳环境中获得更稳定的性能。
    
[[File:图16.png|800px|thumb|center|图16:当识别狗的训练图像包含很多水时,StableNet模型主要关注于狗。]]
 
[[File:图16.png|800px|thumb|center|图16:当识别狗的训练图像包含很多水时,StableNet模型主要关注于狗。]]
第191行: 第189行:  
===稳定学习与公平性<ref>Xu, R., et al. Algorithmic Decision Making with Conditional Fairness. in ACM Conferences. 2020: ACM.</ref>===
 
===稳定学习与公平性<ref>Xu, R., et al. Algorithmic Decision Making with Conditional Fairness. in ACM Conferences. 2020: ACM.</ref>===
   −
如今,公平问题已经成为了决策系统中的重要问题。已经有很多学者提出了各种公平的概念来衡量算法的不公平程度。珀尔研究了伯克利大学研究生入学性别偏见的案例。数据显示,总体而言,男性申请人的入学率较高,但在研究院系选择时,结果有所不同。由院系选择引起的偏差应该被认为是公平的,但传统的群体公平观念由于没有考虑院系选择而无法判断公平。受此启发,基于因果关系的公平理念应运而生。在这些论文中,作者首先假设了特征之间的因果图,然后,他们可以将敏感属性对结果的不公平因果效应定义为一个度量。然而,这些公平性概念需要非常有力的假设,而且它们不可扩展。在实践中,经常存在一组我们称之为公平变量的变量,它们是决策前的协变量,例如用户的选择。
+
如今,公平问题已经成为了决策系统中的重要问题。已经有很多学者提出了各种公平的概念来衡量算法的不公平程度。[[Judea Pearl]]研究了伯克利大学研究生入学性别偏见的案例。数据显示,总体而言,男性申请人的入学率较高,但在研究院系选择时,结果有所不同。由院系选择引起的偏差应该被认为是公平的,但传统的群体公平观念由于没有考虑院系选择而无法判断公平。受此启发,基于因果关系的公平理念应运而生。在这些论文中,作者首先假设了特征之间的因果图,然后,他们可以将敏感属性对结果的不公平因果效应定义为一个度量。然而,这些公平性概念需要非常有力的假设,而且它们不可扩展。在实践中,经常存在一组我们称之为公平变量的变量,它们是决策前的协变量,例如用户的选择。