更改

自然语言处理 (查看源代码)

2020年9月27日 (日) 14:30的版本

删除1,318字节、 2020年9月27日 (日) 14:30

第17行：第17行：

*'''1970年代''': 20世纪70年代，程序员开始编写'''概念本体论'''程序，将真实世界的信息结构化为计算机可理解的数据，如 MARGIE (Schank，1975)、 SAM (Cullingford，1978)、 PAM (Wilensky，1978)、 TaleSpin (Meehan，1976)、 QUALM (Lehnert，1977)、 Politics (Carbonell，1979)和 Plot Units (Lehnert，1981)。与此同时也出现了许多聊天机器人，如 PARRY，Racter 和 Jabberwacky。

−

*'''1980年代''':1980年代和1990年代初标志着NLP中符号方法(symbolic methods)的鼎盛时期。当时的重点领域包括基于规则的解析（例如，HPSG作为生成语法的计算操作化的发展），形态学（例如，二级形态学<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki]]|authorlink=Kimmo Koskenniemi}}</ref>），语义学（例如，Lesk算法），'''''参考reference'''''（例如，向心理论<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>）和其他自然语言理解领域继续进行其他研究，例如与Racter和Jabberwacky合作开发的聊天机器人。一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高。<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=Evaluation of natural language processing systems: Issues and approaches|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|s2cid=30688575|issn=1558-2256}}</ref>

+

*'''1980年代''':1980年代和1990年代初标志着NLP中符号方法(symbolic methods)的鼎盛时期。当时的重点领域包括基于规则的解析（例如，HPSG作为生成语法的计算操作化的发展），形态学（例如，二级形态学<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki]]|authorlink=Kimmo Koskenniemi}}</ref>），语义学（例如，Lesk算法），'''''<font color="#ff8000">参考reference</font>'''''（例如，向心理论<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>）和其他自然语言理解领域继续进行其他研究，例如与Racter和Jabberwacky合作开发的聊天机器人。一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高。<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=Evaluation of natural language processing systems: Issues and approaches|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|s2cid=30688575|issn=1558-2256}}</ref>

−

+

−

--[[用户:打豆豆|打豆豆]]（[[用户讨论:打豆豆|讨论]]）"一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高"一句为意译，“参考reference”为意译

=== 统计自然语言处理（1990s-2010s） ===

−

直到20世纪80年代，大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始，随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入，自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长（参见'''[[摩尔定律]]'''）和'''[[乔姆斯基语言学理论]]的'''主导地位的削弱（如'''[[转换语法]]'''）。乔姆斯基语言学理论并不认同语料库语言学，而'''[[语料库语言学]]'''却是语言处理机器学习方法的基础。<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]]. The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref>一些最早被使用的机器学习算法，比如'''[[决策树]]'''，使用“如果...那么..."(if-then)硬判决系统，类似于之前既有的人工制定的规则。然而，'''词性标注'''将'''[[隐马尔可夫模型 ]]'''引入到自然语言处理中，并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重，从而做出'''软判决'''和'''概率决策'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入，尤其是包含错误的输入（在实际数据中这是非常常见的），并且将多个子任务整合到较大系统中时，结果通常更加可靠。

+

直到20世纪80年代，大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始，随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入，自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长（参见'''[[摩尔定律]]'''）和'''[[乔姆斯基语言学理论]]的'''主导地位的削弱（如'''[[转换语法]]'''）。乔姆斯基语言学理论并不认同语料库语言学，而'''[[语料库语言学]]'''却是语言处理机器学习方法的基础。一些最早被使用的机器学习算法，比如'''[[决策树]]'''，使用“如果...那么..."(if-then)硬判决系统，类似于之前既有的人工制定的规则。然而，'''词性标注'''将'''[[隐马尔可夫模型 ]]'''引入到自然语言处理中，并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重，从而做出'''软判决'''和'''概率决策'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入，尤其是包含错误的输入（在实际数据中这是非常常见的），并且将多个子任务整合到较大系统中时，结果通常更加可靠。

−

~~--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）"对词性标注的需求使得隐马尔可夫模型被引入到自然语言处理中"一句为意译~~

*'''1990年代'''：许多早期瞩目的成功出现在'''[[机器翻译 Machine Translation]]'''领域，特别是IBM研究所的工作，他们先后开发了更复杂的统计模型。这些系统得以利用加拿大议会和欧盟编制的多语言文本语料库，因为法律要求所有行政诉讼必须翻译成相应政府系统官方语言。然而其他大多数系统都必须为所执行的任务专门开发的语料库，这一直是其成功的主要限制因素。因此，大量的研究开始利用有限的数据进行更有效地学习。

打豆豆

421

个编辑

更改

自然语言处理 (查看源代码)

2020年9月27日 (日) 14:30的版本

导航菜单

搜索