更改

跳到导航 跳到搜索
添加432字节 、 2022年7月7日 (四) 22:20
1、标注参考文献引用位置
第1行: 第1行: −
==机器学习面临的挑战==
+
==机器学习面临的挑战<ref>Peng, C. and A. Susan, Stable learning establishes some common ground between causal inference and machine learning. Nature machine intelligence, 2022. 4(2): p. 110-115.</ref>==
    
机器学习模型已经在许多面向互联网的场景取得成功。在诸如预测点击量或对图像进行分类等应用场景中,模型做出错误决策的代价似乎并不高,因此从业者采用“性能驱动”的模式优化人工智能技术,即只关注该模型在完成目标任务时体现出的性能而不太关注技术发生错误时的风险。当任务环境发生变化,预测出现错误的时候,人们通过频繁地更新黑盒模型以保证预测的性能。然而,在诸如医疗保健、工业制造、金融和司法等与社会生活息息相关的领域,机器学习模型做出的错误预测的后果往往是难以接受的,这些场景也因此被称为风险敏感的场景。由于数据获取困难以及伦理问题,在风险敏感的场景中因为环境变化而重新训练机器学习模型的代价会比较昂贵,因此模型的短期预测性能之外的特性也十分重要。为了促进机器学习模型在更多风险敏感场景的应用,我们需要仔细分析机器学习模型面临的技术性风险,并采取办法克服这些风险。
 
机器学习模型已经在许多面向互联网的场景取得成功。在诸如预测点击量或对图像进行分类等应用场景中,模型做出错误决策的代价似乎并不高,因此从业者采用“性能驱动”的模式优化人工智能技术,即只关注该模型在完成目标任务时体现出的性能而不太关注技术发生错误时的风险。当任务环境发生变化,预测出现错误的时候,人们通过频繁地更新黑盒模型以保证预测的性能。然而,在诸如医疗保健、工业制造、金融和司法等与社会生活息息相关的领域,机器学习模型做出的错误预测的后果往往是难以接受的,这些场景也因此被称为风险敏感的场景。由于数据获取困难以及伦理问题,在风险敏感的场景中因为环境变化而重新训练机器学习模型的代价会比较昂贵,因此模型的短期预测性能之外的特性也十分重要。为了促进机器学习模型在更多风险敏感场景的应用,我们需要仔细分析机器学习模型面临的技术性风险,并采取办法克服这些风险。
第24行: 第24行:       −
==稳定学习的提出==
+
==稳定学习的提出<ref>Kuang, K., et al. Stable Prediction across Unknown Environments. in ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.</ref>==
 
稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
 
稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。
   第36行: 第36行:       −
===基于样本加权的变量去相关===
+
===基于样本加权的变量去相关<ref>Shen, Z., et al. Stable Learning via Differentiated Variable Decorrelation. in 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: ACM.</ref><ref>Shen, Z., et al., Stable Learning via Sample Reweighting. AAAI2020, 2019.</ref><ref>Kuang, K., et al. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. in Association for the Advancement of Artificial Intelligence. 2020.</ref>===
    
崔鹏老师团队针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。
 
崔鹏老师团队针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。
第46行: 第46行:  
[[File:图4.png|800px|thumb|center|图4:与不加区分地去除所有变量的相关性的方法(DWR)相比,区分性变量去相关方法(DVD)在相同设定下具有更大的有效样本量。]]
 
[[File:图4.png|800px|thumb|center|图4:与不加区分地去除所有变量的相关性的方法(DWR)相比,区分性变量去相关方法(DVD)在相同设定下具有更大的有效样本量。]]
   −
===对抗稳定学习===
+
===对抗稳定学习<ref>Liu, J., et al. Stable Adversarial Learning under Distributional Shifts. in Association for the Advancement of Artificial Intelligence, 2021. 2020.</ref>===
    
由于人们总是想最大化地利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法在分布变化下很容易受到攻击。崔鹏老师团队提出了稳定对抗学习 (Stable Adversarial Learning, SAL) 算法,以一种更有原则和统一的方式来解决这个问题,该算法利用异构数据源构建更实用的不确定性集并进行差异化鲁棒性优化,其中协变量根据其与目标相关性的稳定性进行区分。
 
由于人们总是想最大化地利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法在分布变化下很容易受到攻击。崔鹏老师团队提出了稳定对抗学习 (Stable Adversarial Learning, SAL) 算法,以一种更有原则和统一的方式来解决这个问题,该算法利用异构数据源构建更实用的不确定性集并进行差异化鲁棒性优化,其中协变量根据其与目标相关性的稳定性进行区分。
第62行: 第62行:       −
===异质性风险最小化===
+
===异质性风险最小化<ref>Liu, J., et al. Heterogeneous Risk Minimization. in International Conference on Machine Learning. 2021.</ref><ref>Liu, J., et al. Kernelized Heterogeneous Risk Minimization. in 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.</ref>===
    
同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。
 
同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。
第89行: 第89行:       −
===稳定学习的理论解释===
+
===稳定学习的理论解释<ref>Xu, R., et al., Why Stable Learning Works? A Theory of Covariate Shift Generalization. 2021.</ref>===
    
协变量偏移泛化是分布外泛化 (out-of-distribution, OOD) 中的典型案例,它要求在未知测试分布上具有良好的性能,并且该测试分布与训练分布差距体现在协变量迁移上。在涉及回归算法和深度神经网络的几种学习模型上,稳定的学习算法在处理协变量移位泛化方面已经显示出一定的有效性。崔鹏老师团队通过将稳定学习算法解释为特征选择的过程,向理论分析迈进了一步。
 
协变量偏移泛化是分布外泛化 (out-of-distribution, OOD) 中的典型案例,它要求在未知测试分布上具有良好的性能,并且该测试分布与训练分布差距体现在协变量迁移上。在涉及回归算法和深度神经网络的几种学习模型上,稳定的学习算法在处理协变量移位泛化方面已经显示出一定的有效性。崔鹏老师团队通过将稳定学习算法解释为特征选择的过程,向理论分析迈进了一步。
第111行: 第111行:  
==稳定学习的应用==
 
==稳定学习的应用==
 
===图上的稳定学习===
 
===图上的稳定学习===
=== 具有选择性偏差的多个环境中学习稳定图 ===
+
=== 具有选择性偏差的多个环境中学习稳定图<ref>He, Y., et al. Learning Stable Graphs from Multiple Environments with Selection Bias. in ACM Conferences. 2020: ACM.</ref> ===
 
如今,图已成为一种通用且强大的表示,通过其结构中编码的底层模式来描述不同类型实体之间的丰富关系。然而,图生成的数据收集过程充满了已知或未知的样本选择性偏差,尤其是在非平稳和异构的环境中,实体之间会存在虚假关联。针对从具有选择性偏差的多个环境中学习稳定图的问题,崔鹏老师团队设计了一个无监督的稳定图学习 (Stable Graph Learning, SGL) 框架,用于从集合数据中学习稳定图,该框架由GCN (Graph Convolutional Networks) 模块和针对高维稀疏集合数据的E-VAE (element-wise VAE) 模块组成。
 
如今,图已成为一种通用且强大的表示,通过其结构中编码的底层模式来描述不同类型实体之间的丰富关系。然而,图生成的数据收集过程充满了已知或未知的样本选择性偏差,尤其是在非平稳和异构的环境中,实体之间会存在虚假关联。针对从具有选择性偏差的多个环境中学习稳定图的问题,崔鹏老师团队设计了一个无监督的稳定图学习 (Stable Graph Learning, SGL) 框架,用于从集合数据中学习稳定图,该框架由GCN (Graph Convolutional Networks) 模块和针对高维稀疏集合数据的E-VAE (element-wise VAE) 模块组成。
   第140行: 第140行:       −
====具有不可知分布偏移的图的稳定预测 ====
+
====具有不可知分布偏移的图的稳定预测<ref>Zhang, S., et al., Stable Prediction on Graphs with Agnostic Distribution Shift. 2021.</ref> ====
 
图神经网络 Graph Neural Networks(GNNs)已被证明在具有随机分离的训练和测试数据的各种图任务上是有效的。然而,在实际应用中,训练图的分布可能与测试图的分布不同。此外,在训练GNNs时,测试数据的分布始终是不可知的。因此,大家面临着图学习训练和测试之间的不可知分布转变,这将导致传统GNNs在不同测试环境中的推理不稳定。
 
图神经网络 Graph Neural Networks(GNNs)已被证明在具有随机分离的训练和测试数据的各种图任务上是有效的。然而,在实际应用中,训练图的分布可能与测试图的分布不同。此外,在训练GNNs时,测试数据的分布始终是不可知的。因此,大家面临着图学习训练和测试之间的不可知分布转变,这将导致传统GNNs在不同测试环境中的推理不稳定。
   第163行: 第163行:  
[[File:图15.png|800px|thumb|center|图15:具有真实世界环境的推荐数据集的结果(每天作为一个单独的环境)。]]
 
[[File:图15.png|800px|thumb|center|图15:具有真实世界环境的推荐数据集的结果(每天作为一个单独的环境)。]]
   −
====深度神经网络中的稳定学习====
+
====深度神经网络中的稳定学习<ref>Zhang, X., et al. Deep Stable Learning for Out-Of-Distribution Generalization. in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021.</ref>====
    
基于深度神经网络的方法在测试数据和训练数据共享相似分布时取得了惊人的性能,但有时可能会失败。因此,消除训练和测试数据之间分布变化的影响对于构建性能有希望的深度模型至关重要。崔鹏老师团队建议通过学习训练样本的权重来消除特征之间的依赖关系来解决这个问题,这有助于深度模型摆脱虚假关联,进而更多地关注判别特征和标签之间的真正联系。
 
基于深度神经网络的方法在测试数据和训练数据共享相似分布时取得了惊人的性能,但有时可能会失败。因此,消除训练和测试数据之间分布变化的影响对于构建性能有希望的深度模型至关重要。崔鹏老师团队建议通过学习训练样本的权重来消除特征之间的依赖关系来解决这个问题,这有助于深度模型摆脱虚假关联,进而更多地关注判别特征和标签之间的真正联系。
第191行: 第191行:       −
===稳定学习与公平性===
+
===稳定学习与公平性<ref>Xu, R., et al. Algorithmic Decision Making with Conditional Fairness. in ACM Conferences. 2020: ACM.</ref>===
    
如今,公平问题已经成为了决策系统中的重要问题。已经有很多学者提出了各种公平的概念来衡量算法的不公平程度。珀尔研究了伯克利大学研究生入学性别偏见的案例。数据显示,总体而言,男性申请人的入学率较高,但在研究院系选择时,结果有所不同。由院系选择引起的偏差应该被认为是公平的,但传统的群体公平观念由于没有考虑院系选择而无法判断公平。受此启发,基于因果关系的公平理念应运而生。在这些论文中,作者首先假设了特征之间的因果图,然后,他们可以将敏感属性对结果的不公平因果效应定义为一个度量。然而,这些公平性概念需要非常有力的假设,而且它们不可扩展。在实践中,经常存在一组我们称之为公平变量的变量,它们是决策前的协变量,例如用户的选择。
 
如今,公平问题已经成为了决策系统中的重要问题。已经有很多学者提出了各种公平的概念来衡量算法的不公平程度。珀尔研究了伯克利大学研究生入学性别偏见的案例。数据显示,总体而言,男性申请人的入学率较高,但在研究院系选择时,结果有所不同。由院系选择引起的偏差应该被认为是公平的,但传统的群体公平观念由于没有考虑院系选择而无法判断公平。受此启发,基于因果关系的公平理念应运而生。在这些论文中,作者首先假设了特征之间的因果图,然后,他们可以将敏感属性对结果的不公平因果效应定义为一个度量。然而,这些公平性概念需要非常有力的假设,而且它们不可扩展。在实践中,经常存在一组我们称之为公平变量的变量,它们是决策前的协变量,例如用户的选择。
第207行: 第207行:       −
===稳定学习与领域自适应===
+
===稳定学习与领域自适应<ref>Moraffah, R., et al., Deep causal representation learning for unsupervised domain adaptation. 2019.</ref>===
 
稳定学习最初的定义是不需要目标域信息的,这里的领域自适应是一种利用了目标域信息的做法,可以理解为拓展了最初的稳定学习的含义。
 
稳定学习最初的定义是不需要目标域信息的,这里的领域自适应是一种利用了目标域信息的做法,可以理解为拓展了最初的稳定学习的含义。
   第233行: 第233行:     
==参考文献==
 
==参考文献==
[1]. Peng, C. and A. Susan, Stable learning establishes some common ground between causal inference and machine learning. Nature machine intelligence, 2022. 4(2): p. 110-115.
+
<references />
   −
[2]. Kuang, K., et al. Stable Prediction across Unknown Environments. in ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
+
== 编辑推荐 ==
   −
[3]. Shen, Z., et al. Stable Learning via Differentiated Variable Decorrelation. in 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: ACM.
+
=== 相关文章 ===
   −
[4]. Shen, Z., et al., Stable Learning via Sample Reweighting. AAAI2020, 2019.
+
# He, Y., et al., CausPref: Causal Preference Learning for Out-of-Distribution Recommendation. arXiv.org, 2022.
 
+
# Zimu Wang, Y.H.J.L., Invariant Preference Learning for General Debiasing in Recommendation. ACM SIGKDD 2022, 2022.
[5]. Kuang, K., et al. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. in Association for the Advancement of Artificial Intelligence. 2020.
+
# Zheyan Shen, J.L.Y.H., Towards Out-Of-Distribution Generalization:A Survey. Arxiv, 2021.
 
  −
[6]. Liu, J., et al. Stable Adversarial Learning under Distributional Shifts. in Association for the Advancement of Artificial Intelligence, 2021. 2020.
  −
 
  −
[7]. Liu, J., et al. Heterogeneous Risk Minimization. in International Conference on Machine Learning. 2021.
  −
 
  −
[8]. Liu, J., et al. Kernelized Heterogeneous Risk Minimization. in 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.
  −
 
  −
[9]. Xu, R., et al. Algorithmic Decision Making with Conditional Fairness. in ACM Conferences. 2020: ACM.
  −
 
  −
[10]. Zhang, X., et al. Deep Stable Learning for Out-Of-Distribution Generalization. in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021.
  −
 
  −
[11]. He, Y., et al. Learning Stable Graphs from Multiple Environments with Selection Bias. in ACM Conferences. 2020: ACM.
  −
 
  −
[12]. Zhang, S., et al., Stable Prediction on Graphs with Agnostic Distribution Shift. 2021.
  −
 
  −
[13]. Xu, R., et al., Why Stable Learning Works? A Theory of Covariate Shift Generalization. 2021.
  −
 
  −
[14]. Moraffah, R., et al., Deep causal representation learning for unsupervised domain adaptation. 2019.
 
4

个编辑

导航菜单