更改

删除26字节 、 2018年8月23日 (四) 23:14
第119行: 第119行:     
学习的可能性在神经网络吸引了最多的兴趣。给定一个特定的“任务”和一类函数<math>\textstyle F</math>待解决,学习意味着使用一组观测值寻找<math>{f^{*}} \in F</math>,它以某种最优的道理解决任务。
 
学习的可能性在神经网络吸引了最多的兴趣。给定一个特定的“任务”和一类函数<math>\textstyle F</math>待解决,学习意味着使用一组观测值寻找<math>{f^{*}} \in F</math>,它以某种最优的道理解决任务。
这引发了定义一个损失函数 <math>\textstyle C : F \rightarrow \mathbb{R}</math> 使得对于最优解 <math>{f^{*}}</math>, <math>\textstyle C(f^*) \leq C(f)</math> <math>\textstyle \forall f \in F</math>—— 也就是没有解有比最优解更小的损失。
+
这引发了定义一个损失函数 <math>{C} : {F} \rightarrow \mathbb{R}</math>使得对于最优解 <math>{f^{*}}</math>, <math>\textstyle C(f^*) \leq C(f)</math> <math>\textstyle \forall f \in F</math>—— 也就是没有解有比最优解更小的损失。
 
损失函数<math>{C}</math>是学习中一个重要的概念,因为它是衡量一个特定的解距离一个解决问题的最优解有多远。学习算法搜索解空间寻找一个有最小可能损失的函数。
 
损失函数<math>{C}</math>是学习中一个重要的概念,因为它是衡量一个特定的解距离一个解决问题的最优解有多远。学习算法搜索解空间寻找一个有最小可能损失的函数。
   −
对于解依赖数据的应用,损失必须必要地作为观测值的函数,否则模型会数据无关。通常定义为一个只能近似的[https://en.wikipedia.org/wiki/Statistic 统计量]。一个简单的例子是考虑找到最小化<math>\textstyle C=E\left[(f(x) - y)^2\right]</math>的模型 <math>\textstyle f</math>,对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样,这样,对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此,损失被在数据的一个样本上而不是在整个分布上最小化。
+
对于解依赖数据的应用,损失必须必要地作为观测值的函数,否则模型会数据无关。通常定义为一个只能近似的[https://en.wikipedia.org/wiki/Statistic 统计量]。一个简单的例子是考虑找到最小化<math>{C}=E\left[(f(x) - y)^2\right]</math>的模型 <math>{f}</math>,对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样,这样,对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此,损失被在数据的一个样本上而不是在整个分布上最小化。
    
当 <math>\textstyle N \rightarrow \infty</math>,必须使用【在线机器学习】的某种形式 ,其中损失随着每次观测到新的样本而减小。尽管通常当<math>\textstyle \mathcal{D}</math>固定时使用在线机器学习,它在分布随时间缓慢变化时最有用。在神经网络方法中,一些种类的在线机器学习通常被用于无限数据集。
 
当 <math>\textstyle N \rightarrow \infty</math>,必须使用【在线机器学习】的某种形式 ,其中损失随着每次观测到新的样本而减小。尽管通常当<math>\textstyle \mathcal{D}</math>固定时使用在线机器学习,它在分布随时间缓慢变化时最有用。在神经网络方法中,一些种类的在线机器学习通常被用于无限数据集。