更改

跳到导航 跳到搜索
添加57字节 、 2024年8月16日 (星期五)
无编辑摘要
第54行: 第54行:  
== 机器学习领域的分布外泛化问题 ==
 
== 机器学习领域的分布外泛化问题 ==
   −
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降<ref>Cui, Peng, Athey, et al. Stable learning establishes some common ground between causal inference and machine learning''. nature machine intelligence'', 2022, 4(2): 110-115</ref>。
+
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降<ref name=":4">Cui, Peng, Athey, et al. Stable learning establishes some common ground between causal inference and machine learning''. nature machine intelligence'', 2022, 4(2): 110-115</ref>。
    
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,可以看见整个狗。经过大量数据训练后,若给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能是一半。
 
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,可以看见整个狗。经过大量数据训练后,若给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能是一半。
第372行: 第372行:       −
'''引理4'''
+
'''引理4'''——编码器的信息瓶颈:
    
对于任意向量<math>
 
对于任意向量<math>
第399行: 第399行:     
=== 样本重加权 ===
 
=== 样本重加权 ===
输入数据的分布会对结果产生一定的影响,为了减少此影响,学者需要对样本进行重加权,也就是通过为数据中的每个单元分配适当的权重来改变输入数据的分布,解决选择偏差问题。在因果机器学习、因果推断领域、因果特征学习(Causal feature learning)和稳定学习(Stable learning)中发挥着重要作用。可以使结果减少偏见的影响,提高模型在未知环境下的泛化能力。
+
输入数据的分布会对结果产生一定的影响,为了减少此影响,学者需要对样本进行重加权,也就是通过为数据中的每个单元分配适当的权重来改变输入数据的分布,解决选择偏差问题。在因果机器学习、因果推断领域、因果特征学习(Causal feature learning)和稳定学习(Stable learning)中发挥着重要作用。可以使结果减少偏见的影响,提高模型在未知环境下的泛化能力<ref name=":4" />。
    
为了使用逆概率加权技术,我们需要估计样本的概率分布。KDE(Kernel Density Estimation)是一种常用的估计方法,它可以有效地消除离群值对整体概率分布估计的影响。
 
为了使用逆概率加权技术,我们需要估计样本的概率分布。KDE(Kernel Density Estimation)是一种常用的估计方法,它可以有效地消除离群值对整体概率分布估计的影响。
196

个编辑

导航菜单