第12行: |
第12行: |
| 因为常见的机器学习算法是基于输入变量和输出变量的相关性做预测,当它遇到变量之间的虚假相关时,便无法避免上述三个风险因素。数据中的相关性能归类成三种模式:因果导致的相关,混淆导致的相关和选择性偏差导致的相关,如图1所示。 | | 因为常见的机器学习算法是基于输入变量和输出变量的相关性做预测,当它遇到变量之间的虚假相关时,便无法避免上述三个风险因素。数据中的相关性能归类成三种模式:因果导致的相关,混淆导致的相关和选择性偏差导致的相关,如图1所示。 |
| | | |
− | | + | [[File:稳定学习-图2.png|400px|thumb|center|图1:相关性的三种模式,(a)因果相关;(b)混淆导致的相关;(c)数据选择性偏差导致的相关。]] |
− | 图1:相关性的三种模式,(a)因果相关;(b)混淆导致的相关;(c)数据选择性偏差导致的相关。 | |
| | | |
| | | |
第28行: |
第27行: |
| 稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。 | | 稳定学习的概念是在2018年的KDD会议上由崔鹏老师团队提出的。它旨在解决这样一个问题,当我们用机器学习进行预测建模的时候,如果对测试数据集没有任何先验知识,如何保证模型在未知分布上做出稳定预测,即在保证预测性能的同时,尽量减小它在未知测试集的方差。图2展示了稳定学习和传统机器学习(独立同分布学习, I.I.D.)与迁移学习的关系,后两者的优化目标是在具有测试集分布先验知识的情况下,最大化模型的预测性能(准确率)。同时,稳定学习假设在测试数据中存在多个环境,因此对模型的泛化能力提出了更高的要求。 |
| | | |
− | 图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较 | + | [[File:稳定学习-图1.png|400px|thumb|center|图2:稳定学习,传统机器学习(I.I.D.学习)和迁移学习的比较]] |
− | | |
| | | |
| 在2018年发表在KDD会议的论文中,崔鹏老师团队受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。 | | 在2018年发表在KDD会议的论文中,崔鹏老师团队受到因果推断中利用协变量平衡估计因果效应的思想的启发,提出了一种新的深度全局平衡回归 Deep Global Balancing Regression(DGBR)算法,联合优化一个用于特征选择(降维)的深度自动编码器模型,和一个用于未知环境下稳定预测的全局平衡模型。这个全局平衡模型评估了任意一个特征在被隔离(isolated)的情况下,该个特征对响应的因果效应,并以此构建了一组使得变量被平衡(variable balancing)的样本权重,让加权后的样本的所有特征都尽可能相互独立。这个算法在高维度的数据中也适用。 |
第42行: |
第40行: |
| 崔鹏老师团队针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。 | | 崔鹏老师团队针对具有模型错估(model misspecification,即模型与数据生成机制不一致)稳定预测问题进行了进一步探索。Zheyan Shen等人研究了在线性模型中,变量间的共线性是如何影响预测稳定性的,并提出了一种一般的数据预处理方法,通过训练集样本重加权来去除预测变量(特征)间的相关性,以减小共线性效应。况琨等人的工作则进一步改进了DGBR算法,提出了去相关加权回归算法(Decorrelated Weighting Regression, DWR),结合了变量去相关正则化与加权回归模型,解决了在连续的预测变量(特征)的设定下,模型的稳定预测问题。 |
| | | |
− | 图3:DWR模型和基线模型在不同测试环境下性能的比较;左图:横轴代表不同的环境,纵轴代表预测误差,不同颜色代表不同的模型;右图:横轴代表不同的模型,纵轴代表在不同环境下的平均错误,性能的方差在条柱顶端用黑实线标出。 | + | [[File:图3.png|400px|center|thumb|图3:DWR模型和基线模型在不同测试环境下性能的比较;左图:横轴代表不同的环境,纵轴代表预测误差,不同颜色代表不同的模型;右图:横轴代表不同的模型,纵轴代表在不同环境下的平均错误,性能的方差在条柱顶端用黑实线标出。]] |
− | | |
| | | |
| 去除所有变量之间的相关性固然是找到因果相关,平衡协变量并实现稳定预测的好主意,它的代价是大大降低了有效样本量(efficient sample size),而这在机器学习训练中是灾难性的。Zheyan Shen等人通过使用来自不同环境的未标注数据,提出了一种基于变量聚类的变量分解的算法,称为区分性变量去相关(Differentiated Variable Decorrelation, DVD)。这个方法是注意到保留因果性变量之间的相关性未必会导致模型在未知环境中的性能不稳定。以特征间相关性的在训练集数据和未标注之间的数据稳定性作为聚类的指标,可以将预测变量(特征)进行聚类并为不同的聚类簇,其中一些聚类簇代表了对相应变量具有因果效应的特征集合。在平衡混淆变量时只需要隔离这些聚类簇即可。由于聚类簇的数量远低于特征的维度,因此DVD与样本加权方法DWR相比,保持了更高的有效样本量。 | | 去除所有变量之间的相关性固然是找到因果相关,平衡协变量并实现稳定预测的好主意,它的代价是大大降低了有效样本量(efficient sample size),而这在机器学习训练中是灾难性的。Zheyan Shen等人通过使用来自不同环境的未标注数据,提出了一种基于变量聚类的变量分解的算法,称为区分性变量去相关(Differentiated Variable Decorrelation, DVD)。这个方法是注意到保留因果性变量之间的相关性未必会导致模型在未知环境中的性能不稳定。以特征间相关性的在训练集数据和未标注之间的数据稳定性作为聚类的指标,可以将预测变量(特征)进行聚类并为不同的聚类簇,其中一些聚类簇代表了对相应变量具有因果效应的特征集合。在平衡混淆变量时只需要隔离这些聚类簇即可。由于聚类簇的数量远低于特征的维度,因此DVD与样本加权方法DWR相比,保持了更高的有效样本量。 |
| | | |
− | 图4:与不加区分地去除所有变量的相关性的方法(DWR)相比,区分性变量去相关方法(DVD)在相同设定下具有更大的有效样本量。 | + | [[File:图4.png|400px|thumb|center|图4:与不加区分地去除所有变量的相关性的方法(DWR)相比,区分性变量去相关方法(DVD)在相同设定下具有更大的有效样本量。]] |
− | | |
| | | |
| ===对抗稳定学习=== | | ===对抗稳定学习=== |
第60行: |
第56行: |
| 在实验中,将SAL算法与经验风险最小化 Empirical Risk Minimization(ERM)框架、Wasserstein分布式鲁棒学习框架、不变风险最小化 Invariant Risk Minimization(IRM)框架进行比较: | | 在实验中,将SAL算法与经验风险最小化 Empirical Risk Minimization(ERM)框架、Wasserstein分布式鲁棒学习框架、不变风险最小化 Invariant Risk Minimization(IRM)框架进行比较: |
| | | |
− | 图5:实验结果。(a)各环境下的测试性能。(b) 关于半径的测试性能。(c) S和V相对于半径的学习系数值。
| |
| | | |
| + | [[File:图5.png|400px|thumb|center|图5:实验结果。(a)各环境下的测试性能。(b) 关于半径的测试性能。(c) S和V相对于半径的学习系数值。]] |
| | | |
| 实验结果表明,SAL算法各向异性地考虑每个协变量以实现更真实的鲁棒性。并且构建了一个更好的不确定性集,在不同分布的数据上取得了一致更好的表现,验证了算法的有效性。 | | 实验结果表明,SAL算法各向异性地考虑每个协变量以实现更真实的鲁棒性。并且构建了一个更好的不确定性集,在不同分布的数据上取得了一致更好的表现,验证了算法的有效性。 |
第70行: |
第66行: |
| 同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。 | | 同样地,如果想完全利用训练数据中发现的所有相关性,具有经验风险最小化的机器学习算法通常还会具有较差的泛化性能,这些相关性在分布变化下不稳定。崔鹏老师团队提出了异质性风险最小化 Heterogeneous Risk Minimization(HRM)框架,以实现对数据之间潜在异质性和不变关系的联合学习,从而在分布变化的情况下实现稳定的预测。 |
| | | |
− | 图6:HRM框架 | + | [[File:图6.png|thumb|center|图6:HRM框架]] |
| + | |
| | | |
| 总体框架如图6所示,该框架包含两个模块,用于异质性识别的前端和用于不变预测的后端Mp。给定异质性数据,它从异质性识别模块Mc开始,利用学习的变体Ψ(X)表示生成异质性环境εlearn。然后分布外泛化预测模块Mp使用学习到的环境来学习MIPΦ(X)以及不变预测模型f(Φ(X))。之后,我们推导出变体Ψ(X)以进一步提升模块Mc。至于“转换”步骤,基于我们的设定,我们在这项工作中采用了特征选择,通过它可以在学习更多不变的特征时获得更多的变异特征。 | | 总体框架如图6所示,该框架包含两个模块,用于异质性识别的前端和用于不变预测的后端Mp。给定异质性数据,它从异质性识别模块Mc开始,利用学习的变体Ψ(X)表示生成异质性环境εlearn。然后分布外泛化预测模块Mp使用学习到的环境来学习MIPΦ(X)以及不变预测模型f(Φ(X))。之后,我们推导出变体Ψ(X)以进一步提升模块Mc。至于“转换”步骤,基于我们的设定,我们在这项工作中采用了特征选择,通过它可以在学习更多不变的特征时获得更多的变异特征。 |
第86行: |
第83行: |
| 继续进行了三个真实场景的预测,包括汽车保险预测、人们收入预测和房价预测。 | | 继续进行了三个真实场景的预测,包括汽车保险预测、人们收入预测和房价预测。 |
| | | |
− | | + | [[File:图7.png|400px|thumb|center|图7:真实场景的预测结果。(a) 汽车保险预测的训练和测试准确性。左子图显示了5种设置的训练结果,右子图显示了它们对应的测试结果。(b) 收入预测的误分类率。(c) 房价预测的预测误差。]] |
− | 图7:真实场景的预测结果。 | |
− | | |
− | (a) 汽车保险预测的训练和测试准确性。左子图显示了5种设置的训练结果,右子图显示了它们对应的测试结果。(b) 收入预测的误分类率。(c) 房价预测的预测误差。 | |
| | | |
| | | |
第123行: |
第117行: |
| 稳定图学习的任务是学习一个表示无偏连接结构的图Gs,因为环境中的图是从数据生成的,如果数据的收集过程来自具有选择性偏差的环境,则元素之间的虚假相关性会导致图在其他环境中表现不佳。SGL框架能很好地解决这个问题,SGL框架可以分解为两个步骤,包括基于图的集合生成和稳定图学习。基于图的集合生成的详细框架如图8所示。 | | 稳定图学习的任务是学习一个表示无偏连接结构的图Gs,因为环境中的图是从数据生成的,如果数据的收集过程来自具有选择性偏差的环境,则元素之间的虚假相关性会导致图在其他环境中表现不佳。SGL框架能很好地解决这个问题,SGL框架可以分解为两个步骤,包括基于图的集合生成和稳定图学习。基于图的集合生成的详细框架如图8所示。 |
| | | |
− | | + | [[File:图8.png|400px|thumb|center|图8:基于图的集合生成的详细框架。]] |
− | 图8:基于图的集合生成的详细框架。 | |
− | | |
| | | |
| 稳定图学习过程图解如图9所示。 | | 稳定图学习过程图解如图9所示。 |
| | | |
− | 图9:稳定图学习的过程图解。 | + | [[File:图9.png|400px|thumb|center|图9:稳定图学习的过程图解。]] |
− | | |
| | | |
| 在模拟实验中,如图10所示,在几乎所有的实验中,SGL框架的性能要稳定得多,特别是当两个环境之间的差异更显着时,它比所有基线方法都达到更高的平均准确度。 | | 在模拟实验中,如图10所示,在几乎所有的实验中,SGL框架的性能要稳定得多,特别是当两个环境之间的差异更显着时,它比所有基线方法都达到更高的平均准确度。 |