更改

自然语言处理 (查看源代码)

2020年9月26日 (六) 14:29的版本

删除855字节、 2020年9月26日 (六) 14:29

无编辑摘要

第1行：第1行：

[[File:200px-Automated_online_assistant.jpg|thumb| 200px |网页自动化在线客服，一个自然语言处理起重要作用的例子。<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|title = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 = Haruechaiyasak|publisher = ACM |date = October 27–30, 2009 |conference = MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France }}</ref>]]

−

'''[[自然语言处理 ~~Natural Language Processing~~]]'''是'''[[语言学 ~~Linguistics~~]]'''、'''[[计算机科学 ~~Computer Science~~]]'''、'''[[信息工程 ~~Infomation Engineering~~]]'''和'''[[人工智能 ~~Artificial Intelligence~~]]'''等领域的分支学科。它涉及到计算机与人类语言（自然语言）之间的交互，特别是如何编写计算机程序来处理和分析大量的自然语言数据。

+

'''[[自然语言处理]]'''是'''[[语言学]]'''、'''[[计算机科学]]'''、'''[[信息工程]]'''和'''[[人工智能]]'''等领域的分支学科。它涉及到计算机与人类语言（自然语言）之间的交互，特别是如何编写计算机程序来处理和分析大量的自然语言数据。

−

自然语言处理主要面临着'''[[语音识别 ~~Speech Recognition~~]]'''、'''[[自然语言理解 ~~Natural Language Understanding~~]]'''和'''[[自然语言生成 ~~Natural Language Generation~~]]'''三大挑战。

+

自然语言处理主要面临着'''[[语音识别]]'''、'''[[自然语言理解 ]]'''和'''[[自然语言生成]]'''三大挑战。

==历史==

第58行：第58行：

尽管自然语言处理的各种任务紧密交错，但为了方便，它们常被细分为不同的类别。下面给出一个粗略的分类。

−

===~~句法(Syntax)~~===

+

===语法===

−

'''[[语法归纳 ~~Grammar Induction]]~~'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。

+

'''语法归纳'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。

−

'''[[词形还原 ~~Lemmatization]]~~''': 只去掉词形变化的词尾，并返回词的基本形式，也称'''[[词目 Lemma]]'''。

+

'''词形还原''': 只去掉词形变化的词尾，并返回词的基本形式，也称'''[[词目 Lemma]]'''。

−

'''[[语素切分 ~~Morphological Segmentation]]~~''': 将单词分成独立的'''[[语素 Morpheme]]'''，并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素，特别是'''[[屈折语素 Inflectional Morphology]]'''，因此通常可以完全忽略这个任务，而简单地将一个单词的所有可能形式(例如，"open，opens，opened，opening")作为单独的单词。然而，在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ，这种方法是不可取的，因为每个词都有成千上万种可能的词形。

+

'''语素切分''': 将单词分成独立的'''[[语素 Morpheme]]'''，并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素，特别是'''[[屈折语素 Inflectional Morphology]]'''，因此通常可以完全忽略这个任务，而简单地将一个单词的所有可能形式(例如，"open，opens，opened，opening")作为单独的单词。然而，在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ，这种方法是不可取的，因为每个词都有成千上万种可能的词形。

−

'''[[词性标注 ~~Part-of-speech Tagging]]~~''': 给定一个句子，确定每个词的词性(part of speech, POS)。许多单词，尤其是常见的单词，可以拥有多种词性。例如，“book”可以是名词（书本）(“ the book on the table”)或动词（预订）(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言，所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。

+

'''词性标注''': 给定一个句子，确定每个词的词性(part of speech, POS)。许多单词，尤其是常见的单词，可以拥有多种词性。例如，“book”可以是名词（书本）(“ the book on the table”)或动词（预订）(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言，所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）“‘out’至少有五种不同的词性”一句为意译

−

'''[[语法分析 ~~Parsing]]'''~~: 确定给定句子的'''[[语法树 ~~Parse tree]]~~'''(语法分析)。自然语言的语法是模糊的，典型的句子有多种可能的分析: 也许会让人有些吃惊，一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''[[依存分析 Dependency Parsing]]'''和'''[[成分分析 Constituency Parsing]]'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ，而成分分析侧重于使用'''[[概率上下文无关文法 Probabilistic Context-free Grammar, PCFG]]'''(probabilistic context-free grammar,PCFG)构建语法树(参见'''[[随机语法 Stochastic Grammar]]''')。

+

'''语法分析: 确定给定句子的'''语法树'''(语法分析)。自然语言的语法是模糊的，典型的句子有多种可能的分析: 也许会让人有些吃惊，一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''[[依存分析 Dependency Parsing]]'''和'''[[成分分析 Constituency Parsing]]'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ，而成分分析侧重于使用'''[[概率上下文无关文法 Probabilistic Context-free Grammar, PCFG]]'''(probabilistic context-free grammar,PCFG)构建语法树(参见'''[[随机语法 Stochastic Grammar]]''')。

−

'''[[断句 ~~Sentence breaking]]~~'''(也被称为'''[[句子边界消歧 ~~Sentence Boundary Disambiguation]]~~''') : 给定一段文本，找到句子边界。句子的边界通常用句号或其他标点符号来标记，但是这些标点符号也会被用于其他目的(例如，标记缩写)。

+

'''断句'''(也被称为'''句子边界消歧''') : 给定一段文本，找到句子边界。句子的边界通常用句号或其他标点符号来标记，但是这些标点符号也会被用于其他目的(例如，标记缩写)。

−

'''[[词根化 ~~Stemming]]~~''': 把词形变化(或者派生出来的)的词缩减到其词根形式的过程。(例如，close 是“ closed”、“ closing”、“ close”、“ closer”等的词根。).

+

'''词根化''': 把词形变化(或者派生出来的)的词缩减到其词根形式的过程。(例如，close 是“ closed”、“ closing”、“ close”、“ closer”等的词根。).

−

'''[[分词 ~~Word Segmentation]]~~''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的，因为单词通常由空格分隔。然而，对于汉语、日语和泰语的文字，并没有类似这种方式的词语边界标记，在这些语言中，文本分词是一项重要的任务，要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建[[词包]](bag of words，BOW)。

+

'''分词''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的，因为单词通常由空格分隔。然而，对于汉语、日语和泰语的文字，并没有类似这种方式的词语边界标记，在这些语言中，文本分词是一项重要的任务，要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建词包(bag of words，BOW)。

−

'''[[术语抽取 ~~Terminology Extraction]~~]''': 术语抽取的目标是从给定的语料库中自动提取相关术语。

+

'''术语抽取]''': 术语抽取的目标是从给定的语料库中自动提取相关术语。

−

===语义~~(Semantics)~~===

+

===语义===

−

'''[[词汇语义学 ~~Lexical Semantics]]~~''': 每个词在上下文中的计算意义是什么？

+

'''词汇语义学''': 每个词在上下文中的计算意义是什么？

−

'''[[分布语义 ~~Distributional semantics]~~]''': 我们如何从数据中学习语义表示？

+

'''分布语义]''': 我们如何从数据中学习语义表示？

'''[[机器翻译 Machine Translation]]''': 将文本从一种语言自动翻译成另一种语言。这是最困难的问题之一，也是“人工智能完备”问题的一部分，即需要人类拥有的所有不同类型的知识(语法、语义、对现实世界的事实的认知等)才能妥善解决。

第90行：第90行：

'''[[命名实体识别 Named entity Recognition, NER]]''': 给定一个文本流，确定文本中的哪些词能映射到专有名称，如人或地点，以及这些名称的类型(例如:人名、地点名、组织名)。虽然大写有助于识别英语等语言中的命名实体，但这种信息对于确定命名实体的类型无用，而且，在多数情况下，这种信息是不准确、不充分的。比如，一个句子的第一个字母也是大写的，以及命名实体通常跨越几个单词，只有某些是大写的。此外，许多其他非西方文字的语言(如汉语或阿拉伯语)没有大写，甚至有大写的语言也不一定能用它来区分名字。例如，德语中多有名词都大写，法语和西班牙语中作为形容词的名称不大写。

−

'''[[自然语言生成]]''': 将计算机数据库或语义意图中的信息转换为人类可读的语言。

+

'''自然语言生成''': 将计算机数据库或语义意图中的信息转换为人类可读的语言。

−

'''[[自然语言理解 ~~Natural Language Understanding~~]]''': 将文本块转换成更加正式的表示形式，比如更易于计算机程序处理的'''[[一阶逻辑结构 First-order Logic Structure]]'''。自然语言理解包括从多种可能的语义中识别预期的语义，这些语义可以由有序符号表现的自然语言表达中派生出来。引入和创建语言元模型和本体是有效但经验化的做法。自然语言语义要求清楚明了，而不能是混有隐含的猜测，如封闭世界假设与开放世界假设、主观的是 / 否与客观的真 / 假<ref>{{cite journal |first=Yucong |last=Duan |first2=Christophe |last2=Cruz |year=2011 |url=http://www.ijimt.org/abstract/100-E00187.htm |title=Formalizing Semantic of Natural Language through Conceptualization from Existence |archiveurl=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm |archivedate=2011-10-09 |journal=International Journal of Innovation, Management and Technology |volume=2 |issue=1 |pages=37–42 }}</ref>。

+

'''[[自然语言理解]]''': 将文本块转换成更加正式的表示形式，比如更易于计算机程序处理的'''[[一阶逻辑结构 First-order Logic Structure]]'''。自然语言理解包括从多种可能的语义中识别预期的语义，这些语义可以由有序符号表现的自然语言表达中派生出来。引入和创建语言元模型和本体是有效但经验化的做法。自然语言语义要求清楚明了，而不能是混有隐含的猜测，如封闭世界假设与开放世界假设、主观的是 / 否与客观的真 / 假<ref>{{cite journal |first=Yucong |last=Duan |first2=Christophe |last2=Cruz |year=2011 |url=http://www.ijimt.org/abstract/100-E00187.htm |title=Formalizing Semantic of Natural Language through Conceptualization from Existence |archiveurl=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm |archivedate=2011-10-09 |journal=International Journal of Innovation, Management and Technology |volume=2 |issue=1 |pages=37–42 }}</ref>。

−

'''[[光学字符识别 ~~Optical Character Recognition,~~OCR)]]''' : 给定一幅印有文字的图像，识别相应的文本。

+

'''[[光学字符识别 OCR)]]''' : 给定一幅印有文字的图像，识别相应的文本。

问答: 给出一个用人类语言表述的问题，确定它的答案。典型的问题都有一个明确的正确答案（例如“加拿大的首都是哪里? ”），但有时候也需要考虑开放式的问题（比如“生命的意义是什么? ”）。最近一些工作在研究更复杂的问题.<ref>{{cite journal |title=Versatile question answering systems: seeing in synthesis |last=Mittal |journal= International Journal of Intelligent Information and Database Systems|volume=5 |issue=2 |pages=119–142 |year=2011 |doi=10.1504/IJIIDS.2011.038968 |url=https://hal.archives-ouvertes.fr/hal-01104648/file/Mittal_VersatileQA_IJIIDS.pdf }}</ref>。

−

'''[[文本蕴涵识别 ~~Recognizing Textual Entailment]]~~''': 给定两个文本片段，确定其中一个是否蕴含了另一个，或者是否蕴含了另一个的否定，或者是否允许另一个文本中立<ref name=rte:11>PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>。

+

'''文本蕴涵识别 ''': 给定两个文本片段，确定其中一个是否蕴含了另一个，或者是否蕴含了另一个的否定，或者是否允许另一个文本中立<ref name=rte:11>PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>。

−

'''[[关系抽取 ~~Relation Extraction]]~~''': 给定一个文本块，识别命名实体之间的关系(例如:谁嫁给了谁)。

+

'''关系抽取''': 给定一个文本块，识别命名实体之间的关系(例如:谁嫁给了谁)。

−

'''[[情感分析 ~~Sentiment Analysis~~]]'''（参见'''[[多模态情感分析 ~~Multimodal Sentiment Analysis~~]]'''）: 从一组文档中提取主观信息，通常使用在线评论来确定特定对象的“极性”。情感分析在识别社会媒体中的舆论趋势和市场营销中尤其有效。

+

'''[[情感分析]]'''（参见'''[[多模态情感分析]]'''）: 从一组文档中提取主观信息，通常使用在线评论来确定特定对象的“极性”。情感分析在识别社会媒体中的舆论趋势和市场营销中尤其有效。

'''[[话题分割和识别]]''': 给定一个文本块，将其分成几个部分，每个部分都有一个主题，并确定各个部分的主题。

−

'''[[词义消歧 ~~Word Sense Disambiguation~~]]''': 从词语的多个意思中选出最符合上下文的一个意思。为了解决这个问题，我们通常会从字典或如WordNet的在线资源中取一系列的单词和相关的词义。

+

'''[[词义消歧]]''': 从词语的多个意思中选出最符合上下文的一个意思。为了解决这个问题，我们通常会从字典或如WordNet的在线资源中取一系列的单词和相关的词义。

−

===话语~~(Discourse)~~===

+

===话语===

−

'''[[自动摘要 ~~Automatic Summarization~~]]'''：自动生成一个可读的文本摘要。常用于提供已知类型如研究论文、报纸财经版的文章等文本的摘要。

+

'''[[自动摘要]]'''：自动生成一个可读的文本摘要。常用于提供已知类型如研究论文、报纸财经版的文章等文本的摘要。

−

'''[[共指消解 ~~Coreference Resolution~~]]''': 给定一个句子或更大的文本块，确定哪些单词（“指称”）指的是相同的对象（“实体”）。指代消解就是这项任务的一个具体实例，它专门研究代词与所指名词或名称的匹配问题。共指消解的一般任务还包括识别指称之间的“桥接关系”。例如，在“他从前门进入了约翰的房子”这句话中，“前门”是一种指称，需要确定的桥接关系是：所指的门是约翰的房子的前门(而不是其他一些也可以指称的结构)。

+

'''[[共指消解]]''': 给定一个句子或更大的文本块，确定哪些单词（“指称”）指的是相同的对象（“实体”）。指代消解就是这项任务的一个具体实例，它专门研究代词与所指名词或名称的匹配问题。共指消解的一般任务还包括识别指称之间的“桥接关系”。例如，在“他从前门进入了约翰的房子”这句话中，“前门”是一种指称，需要确定的桥接关系是：所指的门是约翰的房子的前门(而不是其他一些也可以指称的结构)。

−

'''[[话语分析 ~~Discourse Analysis~~]]'''：这个部分包括几个相关任务。一个是识别相连文本的语篇结构，即句子之间的话语关系(例如:详述、解释、对比)。还有识别和分类文本块中的言语行为(例如:是-否问题，内容问题，陈述，断言等)

+

'''[[话语分析]]'''：这个部分包括几个相关任务。一个是识别相连文本的语篇结构，即句子之间的话语关系(例如:详述、解释、对比)。还有识别和分类文本块中的言语行为(例如:是-否问题，内容问题，陈述，断言等)

−

===语音~~(Speech)~~===

+

===语音===

−

'''[[语音识别 ~~Speech Recognition~~]]''': 给定一个或多个人说话的声音片段，确定语音的文本内容。这是文本转语音的反过程，是一个极其困难被称为“人工智能完备”(见上文)的问题。自然语音中连续的单词之间几乎没有停顿，因此语音分割是语音识别的一个必要的子任务(见下文)。在大多数口语中，连续字母的声音在“协同发音”中相互融合，因此将模拟信号转换为离散字符会是一个非常困难的过程。此外，由于说同一个词时不同人的口音不同，所以语音识别软件必须能够识别文本相同的不同输入。

+

'''[[语音识别]]''': 给定一个或多个人说话的声音片段，确定语音的文本内容。这是文本转语音的反过程，是一个极其困难被称为“人工智能完备”(见上文)的问题。自然语音中连续的单词之间几乎没有停顿，因此语音分割是语音识别的一个必要的子任务(见下文)。在大多数口语中，连续字母的声音在“协同发音”中相互融合，因此将模拟信号转换为离散字符会是一个非常困难的过程。此外，由于说同一个词时不同人的口音不同，所以语音识别软件必须能够识别文本相同的不同输入。

−

'''[[语音分割 ~~Speech Segmentation~~]]''': 给一个人或人说话的声音片段，将其分成单词。这是语音识别的一个子任务，通常两者一起出现。

+

'''[[语音分割]]''': 给一个人或人说话的声音片段，将其分成单词。这是语音识别的一个子任务，通常两者一起出现。

−

'''[[语音合成 ~~Text-to-speech~~ ]]''': 给定一个文本，把这些文字转换为口语表达。语音合成可以用来帮助视力受损的人<ref>{{Citation|last=Yi|first=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli|citeseerx=10.1.1.668.869}}</ref>。

+

'''[[语音合成]]''': 给定一个文本，把这些文字转换为口语表达。语音合成可以用来帮助视力受损的人<ref>{{Citation|last=Yi|first=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli|citeseerx=10.1.1.668.869}}</ref>。

−

===~~对话（Dialogue)~~===

+

===对话===

第一部由人工智能创作的作品于2018年出版，名为《路》(1 the Road) ，以小说的形式发售，包含6000万字。

打豆豆

421

个编辑