更改
跳到导航
跳到搜索
第310行:
第310行:
− +
− +
− +
− +
− +
→多层核机器(Multilayer kernel machine)
=== 多层核机器(Multilayer kernel machine) ===
=== 多层核机器(Multilayer kernel machine) ===
多层核机器 (MKM) 是通过迭代应用弱非线性核学习高度非线性函数的方法。它们使用【核主成分分析】 (KPCA),<ref name="ref60">{{cite journal|last2=Smola|first2=Alexander|date=1998|title=Nonlinear component analysis as a kernel eigenvalue problem|journal=Neural computation|volume=(44)|issue=5|pages=1299–1319|doi=10.1162/089976698300017467|last1=Scholkopf|first1=B|citeseerx=10.1.1.53.8911}}</ref>作为一种【无监督】贪心的逐层预训练步深度学习方法。<ref name="ref59">{{cite journal|date=2012|title=Kernel Methods for Deep Learning|url=http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf|pages=1–9|last1=Cho|first1=Youngmin}}</ref>
多层核机器 (MKM) 是通过迭代应用弱非线性核学习高度非线性函数的方法。它们使用[https://en.wikipedia.org/wiki/Kernel_principal_component_analysis 核主成分分析] (KPCA),<ref name="ref60">{{cite journal|last2=Smola|first2=Alexander|date=1998|title=Nonlinear component analysis as a kernel eigenvalue problem|journal=Neural computation|volume=(44)|issue=5|pages=1299–1319|doi=10.1162/089976698300017467|last1=Scholkopf|first1=B|citeseerx=10.1.1.53.8911}}</ref>作为一种无监督贪心的逐层预训练步深度学习方法。<ref name="ref59">{{cite journal|date=2012|title=Kernel Methods for Deep Learning|url=http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf|pages=1–9|last1=Cho|first1=Youngmin}}</ref>
学到前面层 <math>{l}</math>的特征, 提取在核产生特征域的投影层 <math>{l}</math>的<math>n_l</math>【主成分】(PC) 。为了寻找每层更新表征的【降维】,【监督策略】从KPCA提取的特征中选择最佳有益特征。过程是:
学到前面层 <math>{l}</math>的特征, 提取在核产生特征域的投影层 <math>{l}</math>的<math>n_l</math>[https://en.wikipedia.org/wiki/Principal_component_analysis 主成分](PC) 。为了寻找每层更新表征的[https://en.wikipedia.org/wiki/Dimensionality_reduction 降维],[https://en.wikipedia.org/wiki/Supervised_learning 监督策略]从KPCA提取的特征中选择最佳有益特征。过程是:
*排序 <math>n_l</math> 特征,根据它们带类标签的【交互信息】;
*排序 <math>n_l</math> 特征,根据它们带类标签的[https://en.wikipedia.org/wiki/Mutual_information 交互信息];
* 对 ''K'' 和 <math>m_l \in\{1, \ldots, n_l\}</math>的不同值,计算【k最近邻】(K-NN)分类器的分类错误率,在【验证集】中只使用 <math>m_l</math>最有益特征;
* 对 ''K'' 和 <math>m_l \in\{1, \ldots, n_l\}</math>的不同值,计算[https://en.wikipedia.org/wiki/K-nearest_neighbor k最近邻](K-NN)分类器的分类错误率,在[https://en.wikipedia.org/wiki/Validation_set 验证集]中只使用 <math>m_l</math>最有益特征;
* 使分类器达到最低错误率的<math>m_l</math> 的值决定保持特征的数量。
* 使分类器达到最低错误率的<math>m_l</math> 的值决定保持特征的数量。
KPCA方法的一些缺点是MKM的建立单元。
KPCA方法的一些缺点是MKM的建立单元。
使用用于深度学习的核机器一个更直接的方法被发展,用于口语理解。<ref>{{Cite journal|last=Deng|first=Li|last2=Tur|first2=Gokhan|last3=He|first3=Xiaodong|last4=Hakkani-Tür|first4=Dilek|date=2012-12-01|title=Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding|url=https://www.microsoft.com/en-us/research/publication/use-of-kernel-deep-convex-networks-and-end-to-end-learning-for-spoken-language-understanding/|journal=Microsoft Research|language=en-US}}</ref> 主旨是使用核机器近似有无限隐藏单元的浅神经网络,然后使用【叠加】结合核机器的输出和核机器的建立下一个更高级的原始输入。深度凸网络的级数是整个系统的超参数,使用交叉验证确定。
使用用于深度学习的核机器一个更直接的方法被发展,用于口语理解。<ref>{{Cite journal|last=Deng|first=Li|last2=Tur|first2=Gokhan|last3=He|first3=Xiaodong|last4=Hakkani-Tür|first4=Dilek|date=2012-12-01|title=Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding|url=https://www.microsoft.com/en-us/research/publication/use-of-kernel-deep-convex-networks-and-end-to-end-learning-for-spoken-language-understanding/|journal=Microsoft Research|language=en-US}}</ref> 主旨是使用核机器近似有无限隐藏单元的浅神经网络,然后使用[https://en.wikipedia.org/wiki/Deep_learning#Deep_stacking_networks 叠加]结合核机器的输出和核机器的建立下一个更高级的原始输入。深度凸网络的级数是整个系统的超参数,使用交叉验证确定。
== 神经结构搜索(Neural architecture search) ==
== 神经结构搜索(Neural architecture search) ==