更改

自然语言处理 Natural language processing (查看源代码)

2020年9月27日 (日) 15:16的版本

删除1,230字节、 2020年9月27日 (日) 15:16

无编辑摘要

第1行：第1行： +

{{#seo:

+

|keywords=自然语言处理,NLP,人工智能

+

|description=语音识别,自然语言理解,自然语言生成

+

}}

+

[[File:200px-Automated_online_assistant.jpg|thumb| 200px |网页自动化在线客服，一个自然语言处理起重要作用的例子。<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|title = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 = Haruechaiyasak|publisher = ACM |date = October 27–30, 2009 |conference = MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France }}</ref>]]

第17行：第22行：

*'''1970年代''': 20世纪70年代，程序员开始编写'''概念本体论'''程序，将真实世界的信息结构化为计算机可理解的数据，如 MARGIE (Schank，1975)、 SAM (Cullingford，1978)、 PAM (Wilensky，1978)、 TaleSpin (Meehan，1976)、 QUALM (Lehnert，1977)、 Politics (Carbonell，1979)和 Plot Units (Lehnert，1981)。与此同时也出现了许多聊天机器人，如 PARRY，Racter 和 Jabberwacky。

−

*'''1980年代''':1980年代和1990年代初标志着NLP中符号方法(symbolic methods)的鼎盛时期。当时的重点领域包括基于规则的解析（例如，HPSG作为生成语法的计算操作化的发展），形态学（例如，二级形态学<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki~~]]|authorlink=Kimmo Koskenniemi~~}}</ref>），语义学（例如，Lesk算法），'''''参考reference'''''（例如，向心理论<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>）和其他自然语言理解领域继续进行其他研究，例如与Racter和Jabberwacky合作开发的聊天机器人。一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高。<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=Evaluation of natural language processing systems: Issues and approaches|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580~~|s2cid=30688575~~|issn=1558-2256}}</ref>

+

*'''1980年代''':1980年代和1990年代初标志着NLP中符号方法(symbolic methods)的鼎盛时期。当时的重点领域包括基于规则的解析（例如，HPSG作为生成语法的计算操作化的发展），形态学（例如，二级形态学<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, University of Helsinki}}</ref>），语义学（例如，Lesk算法），'''''<font color="#ff8000">参考reference</font>'''''（例如，向心理论<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>）和其他自然语言理解领域继续进行其他研究，例如与Racter和Jabberwacky合作开发的聊天机器人。一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高。<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=Evaluation of natural language processing systems: Issues and approaches|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|issn=1558-2256}}</ref>

−

--[[用户:打豆豆|打豆豆]]（[[用户讨论:打豆豆|讨论]]）"一个重要的发展（最终导致1990年代的统计转变）是在此期间定量评估的重要性日益提高"一句为意译，“参考reference”为意译

=== 统计自然语言处理（1990s-2010s） ===

−

直到20世纪80年代，大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始，随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入，自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长（参见'''[[摩尔定律]]'''）和'''[[乔姆斯基语言学理论]]的'''主导地位的削弱（如'''[[转换语法]]'''）。乔姆斯基语言学理论并不认同语料库语言学，而'''[[语料库语言学]]'''却是语言处理机器学习方法的基础。<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]]. The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref>一些最早被使用的机器学习算法，比如'''[[决策树]]'''，使用“如果...那么..."(if-then)硬判决系统，类似于之前既有的人工制定的规则。然而，'''词性标注'''将'''[[隐马尔可夫模型 ]]'''引入到自然语言处理中，并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重，从而做出'''软判决'''和'''概率决策'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入，尤其是包含错误的输入（在实际数据中这是非常常见的），并且将多个子任务整合到较大系统中时，结果通常更加可靠。

+

直到20世纪80年代，大多数自然语言处理系统仍依赖于复杂的、人工制定的规则。然而从20世纪80年代末开始，随着语言处理'''[[机器学习 Machine Learning]]'''算法的引入，自然语言处理领域掀起了一场革命。这是由于计算能力的稳步增长（参见'''[[摩尔定律]]'''）和'''[[乔姆斯基语言学理论]]的'''主导地位的削弱（如'''[[转换语法]]'''）。乔姆斯基语言学理论并不认同语料库语言学，而'''[[语料库语言学]]'''却是语言处理机器学习方法的基础。一些最早被使用的机器学习算法，比如'''[[决策树]]'''，使用“如果...那么..."(if-then)硬判决系统，类似于之前既有的人工制定的规则。然而，'''词性标注'''将'''[[隐马尔可夫模型 ]]'''引入到自然语言处理中，并且研究重点被放在了统计模型上。统计模型将输入数据的各个特征都赋上实值权重，从而做出'''软判决'''和'''概率决策'''。许多语音识别系统现所依赖的缓存语言模型就是这种统计模型的例子。这种模型在给定非预期输入，尤其是包含错误的输入（在实际数据中这是非常常见的），并且将多个子任务整合到较大系统中时，结果通常更加可靠。

−

~~--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）"对词性标注的需求使得隐马尔可夫模型被引入到自然语言处理中"一句为意译~~

*'''1990年代'''：许多早期瞩目的成功出现在'''[[机器翻译 Machine Translation]]'''领域，特别是IBM研究所的工作，他们先后开发了更复杂的统计模型。这些系统得以利用加拿大议会和欧盟编制的多语言文本语料库，因为法律要求所有行政诉讼必须翻译成相应政府系统官方语言。然而其他大多数系统都必须为所执行的任务专门开发的语料库，这一直是其成功的主要限制因素。因此，大量的研究开始利用有限的数据进行更有效地学习。

第33行：第34行：

=== 神经NLP（2010s-至今） ===

−

二十一世纪一零年代，'''表示学习'''和'''[[深度神经网络]]'''式的机器学习方法在自然语言处理中得到了广泛的应用，部分原因是一系列的结果表明这些技术可以在许多自然语言任务中获得最先进的结果<ref name=goldberg:nnlp17>{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=A Primer on Neural Network Models for Natural Language Processing |journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 }}</ref><ref name=goodfellow:book16>{{cite book |first=Ian |last=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=Deep Learning |location= |publisher=MIT Press |year=2016 |isbn= }}</ref>，比如语言建模、语法分析等<ref name=jozefowicz:lm16>{{cite book |first=Rafal |last=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=Exploring the Limits of Language Modeling |bibcode=2016arXiv160202410J }}</ref><ref name=choe:emnlp16>{{cite journal |first=Do Kook |last=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=Parsing as Language Modeling }}</ref><ref name="vinyals:nips15">{{cite journal |last=Vinyals |first=Oriol |last2=Kaiser |first2=Lukasz |displayauthors=1 |journal=Nips2015 |title=Grammar as a Foreign Language |year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref>。流行的技术包括使用'''词嵌入'''来获取单词的语义属性，以及增加高级任务的端到端学习(如问答) ，而不是依赖于分立的中间任务流程(如词性标记和依赖性分析)。在某些领域，这种转变使得NLP系统的设计发生了重大变化，因此，基于深层神经网络的方法可以被视为一种有别于统计自然语言处理的新范式。例如，神经机器翻译(Neural machine ~~translation，NMT)~~一词强调了这样一个事实：基于深度学习的机器翻译方法直接学习序列到序列变换，从而避免了统计机器翻译(Statistical machine ~~translation，SMT)~~中使用的词对齐和语言建模等中间步骤。

+

二十一世纪一零年代，'''表示学习'''和'''[[深度神经网络]]'''式的机器学习方法在自然语言处理中得到了广泛的应用，部分原因是一系列的结果表明这些技术可以在许多自然语言任务中获得最先进的结果<ref name=goldberg:nnlp17>{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=A Primer on Neural Network Models for Natural Language Processing |journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 }}</ref><ref name=goodfellow:book16>{{cite book |first=Ian |last=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=Deep Learning |location= |publisher=MIT Press |year=2016 |isbn= }}</ref>，比如语言建模、语法分析等<ref name=jozefowicz:lm16>{{cite book |first=Rafal |last=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=Exploring the Limits of Language Modeling |bibcode=2016arXiv160202410J }}</ref><ref name=choe:emnlp16>{{cite journal |first=Do Kook |last=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=Parsing as Language Modeling }}</ref><ref name="vinyals:nips15">{{cite journal |last=Vinyals |first=Oriol |last2=Kaiser |first2=Lukasz |displayauthors=1 |journal=Nips2015 |title=Grammar as a Foreign Language |year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref>。流行的技术包括使用'''词嵌入'''来获取单词的语义属性，以及增加高级任务的端到端学习(如问答) ，而不是依赖于分立的中间任务流程(如词性标记和依赖性分析)。在某些领域，这种转变使得NLP系统的设计发生了重大变化，因此，基于深层神经网络的方法可以被视为一种有别于统计自然语言处理的新范式。例如，神经机器翻译 Neural machine translation NMT 一词强调了这样一个事实：基于深度学习的机器翻译方法直接学习序列到序列变换，从而避免了统计机器翻译 Statistical machine translation SMT 中使用的词对齐和语言建模等中间步骤。

==基于规则的NLP vs. 统计NLP（SNLP)==

第68行：第69行：

'''词性标注''': 给定一个句子，确定每个词的词性(Part of speech, POS)。许多单词，尤其是常见的单词，可以拥有多种词性。例如，“book”可以是名词（书本）(“ the book on the table”)或动词（预订）(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言，所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。

−

'''语法分析: 确定给定句子的'''语法树'''(语法分析)。自然语言的语法是模糊的，典型的句子有多种可能的分析: 也许会让人有些吃惊，一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''依存分析 Dependency Parsing'''和'''成分分析 Constituency Parsing'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ，而成分分析侧重于使用'''概率上下文无关文法 PCFG'''构建语法树(参见'''随机语法 Stochastic Grammar''')。

+

'''语法分析''': 确定给定句子的'''语法树'''(语法分析)。自然语言的语法是模糊的，典型的句子有多种可能的分析: 也许会让人有些吃惊，一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''依存分析 Dependency Parsing'''和'''成分分析 Constituency Parsing'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ，而成分分析侧重于使用'''概率上下文无关文法(PCFG)'''构建语法树(参见'''随机语法 Stochastic Grammar''')。

'''断句'''(也被称为'''句子边界消歧''') : 给定一段文本，找到句子边界。句子的边界通常用句号或其他标点符号来标记，但是这些标点符号也会被用于其他目的(例如，标记缩写)。

第212行：第213行：

AI界大神吕博士与我们简要讨论了一下深度学习在自然语言处理中的最近研究状况，还将分享他对语言智能几个重要问题的想法，包括：

−

1) 人工智能中联结主义与符号主义的融合

+

* 人工智能中联结主义与符号主义的融合

−

2) 语言学习的新范式

+

* 语言学习的新范式

===集智相关课程===

第224行：第225行：

===好课分享：[https://campus.swarma.org/course/807 产学结合：自然语言处理及其应用]===

本课程中，讲解自然语言处理的最新学术理论与业界实践，涉及语言模型、机器翻译、情感分析、文本理解、文本生成五大主题。

+

----

−

本中文词条由[[用户:~~打豆豆~~|~~打豆豆~~]]、[[用户:薄荷|薄荷]]编辑，欢迎在讨论页面留言。

+

本中文词条由[[用户:Thingamabob|Thingamabob]]审校，[[用户:打豆豆|打豆豆]]编辑，欢迎在讨论页面留言。

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

薄荷

7,129

个编辑

更改

自然语言处理 Natural language processing (查看源代码)

2020年9月27日 (日) 15:16的版本

导航菜单

搜索