− | 直到20世纪80年代,大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始,随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入,自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长(参见'''[[摩尔定律 Moore's Law]]''')和'''[[乔姆斯基语言学理论 Chomskyan Theories of Linguistics]]的'''主导地位的削弱(如'''[[转换语法 Transformational Grammar]]''')。乔姆斯基语言学理论并不认同语料库语言学,而'''[[语料库语言学 Corpus Linguistic]]'''却是语言处理机器学习方法的基础。<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]]. The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref>一些最早被使用的机器学习算法,比如'''[[决策树Decision Tree]]''',使用“如果...那么..."(if-then)硬判决系统,类似于之前既有的人工制定的规则。然而,'''[[词性标注 Part-of-speech Tagging]]'''将'''[[隐马尔可夫模型 Hidden Markov Models ]]'''引入到自然语言处理中,并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重,从而做出'''[[软判决 Soft Decision]]'''和'''[[概率决策 Probabilistic Decision]]'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入,尤其是包含错误的输入(在实际数据中这是非常常见的),并且将多个子任务整合到较大系统中时,结果通常更加可靠。 | + | 直到20世纪80年代,大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始,随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入,自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长(参见'''[[摩尔定律]]''')和'''[[乔姆斯基语言学理论]]的'''主导地位的削弱(如'''[[转换语法]]''')。乔姆斯基语言学理论并不认同语料库语言学,而'''[[语料库语言学]]'''却是语言处理机器学习方法的基础。<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]]. The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref>一些最早被使用的机器学习算法,比如'''[[决策树Decision Tree]]''',使用“如果...那么..."(if-then)硬判决系统,类似于之前既有的人工制定的规则。然而,'''[[词性标注 Part-of-speech Tagging]]'''将'''[[隐马尔可夫模型 ]]'''引入到自然语言处理中,并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重,从而做出'''软判决'''和'''概率决策'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入,尤其是包含错误的输入(在实际数据中这是非常常见的),并且将多个子任务整合到较大系统中时,结果通常更加可靠。 |
| *'''1990年代''':许多早期瞩目的成功出现在'''[[机器翻译 Machine Translation]]'''领域,特别是IBM研究所的工作,他们先后开发了更复杂的统计模型。这些系统得以利用加拿大议会和欧盟编制的多语言文本语料库,因为法律要求所有行政诉讼必须翻译成相应政府系统官方语言。然而其他大多数系统都必须为所执行的任务专门开发的语料库,这一直是其成功的主要限制因素。因此,大量的研究开始利用有限的数据进行更有效地学习。 | | *'''1990年代''':许多早期瞩目的成功出现在'''[[机器翻译 Machine Translation]]'''领域,特别是IBM研究所的工作,他们先后开发了更复杂的统计模型。这些系统得以利用加拿大议会和欧盟编制的多语言文本语料库,因为法律要求所有行政诉讼必须翻译成相应政府系统官方语言。然而其他大多数系统都必须为所执行的任务专门开发的语料库,这一直是其成功的主要限制因素。因此,大量的研究开始利用有限的数据进行更有效地学习。 |
− | *'''2000年代''':近期研究更多地集中在'''[[无监督学习 Unsupervised Learning]]'''和'''[[半监督学习 Semi-supervised Learning]]'''算法上。这些算法可以从无标注但有预期答案的数据或标注和未标注兼有的数据中学习。一般而言,这种任务比'''[[监督学习 Supervised Learning]]'''困难,并且在同量数据下,产生的结果通常不精确。然而如果算法具有较低的'''[[时间复杂度 Time Complexity]]''',且无标注的数据量巨大(包括万维网),可以有效弥补结果不精确的问题。 | + | *'''2000年代''':近期研究更多地集中在'''无监督学习'''和'''半监督学习'''算法上。这些算法可以从无标注但有预期答案的数据或标注和未标注兼有的数据中学习。一般而言,这种任务比'''监督学习'''困难,并且在同量数据下,产生的结果通常不精确。然而如果算法具有较低的'''[[时间复杂度]]''',且无标注的数据量巨大(包括万维网),可以有效弥补结果不精确的问题。 |