更改

人工神经网络 (查看源代码)

2018年8月23日 (四) 23:14的版本

删除26字节、 2018年8月23日 (四) 23:14

第119行：第119行：

学习的可能性在神经网络吸引了最多的兴趣。给定一个特定的“任务”和一类函数<math>\textstyle F</math>待解决，学习意味着使用一组观测值寻找<math>{f^{*}} \in F</math>，它以某种最优的道理解决任务。

−

这引发了定义一个损失函数 <math>~~\textstyle~~ C : F \rightarrow \mathbb{R}</math> 使得对于最优解 <math>{f^{*}}</math>, <math>\textstyle C(f^*) \leq C(f)</math> <math>\textstyle \forall f \in F</math>—— 也就是没有解有比最优解更小的损失。

+

这引发了定义一个损失函数 <math>{C} : {F} \rightarrow \mathbb{R}</math>使得对于最优解 <math>{f^{*}}</math>, <math>\textstyle C(f^*) \leq C(f)</math> <math>\textstyle \forall f \in F</math>—— 也就是没有解有比最优解更小的损失。

损失函数<math>{C}</math>是学习中一个重要的概念，因为它是衡量一个特定的解距离一个解决问题的最优解有多远。学习算法搜索解空间寻找一个有最小可能损失的函数。

−

对于解依赖数据的应用，损失必须必要地作为观测值的函数，否则模型会数据无关。通常定义为一个只能近似的[https://en.wikipedia.org/wiki/Statistic 统计量]。一个简单的例子是考虑找到最小化<math>~~\textstyle~~ C=E\left[(f(x) - y)^2\right]</math>的模型 <math>~~\textstyle~~ f</math>，对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样，这样，对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此，损失被在数据的一个样本上而不是在整个分布上最小化。

+

对于解依赖数据的应用，损失必须必要地作为观测值的函数，否则模型会数据无关。通常定义为一个只能近似的[https://en.wikipedia.org/wiki/Statistic 统计量]。一个简单的例子是考虑找到最小化<math>{C}=E\left[(f(x) - y)^2\right]</math>的模型 <math>{f}</math>，对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样，这样，对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此，损失被在数据的一个样本上而不是在整个分布上最小化。

当 <math>\textstyle N \rightarrow \infty</math>，必须使用【在线机器学习】的某种形式，其中损失随着每次观测到新的样本而减小。尽管通常当<math>\textstyle \mathcal{D}</math>固定时使用在线机器学习，它在分布随时间缓慢变化时最有用。在神经网络方法中，一些种类的在线机器学习通常被用于无限数据集。

匿名用户

http://c2.com/cgi/wiki?$1>Cynthia

更改

人工神经网络 (查看源代码)

2018年8月23日 (四) 23:14的版本

导航菜单

搜索