更改

删除855字节 、 2020年9月26日 (六) 14:29
无编辑摘要
第1行: 第1行:  
[[File:200px-Automated_online_assistant.jpg|thumb| 200px |网页自动化在线客服,一个自然语言处理起重要作用的例子。<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|title = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 =  Haruechaiyasak|publisher =  ACM |date = October 27–30, 2009 |conference =  MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France }}</ref>]]
 
[[File:200px-Automated_online_assistant.jpg|thumb| 200px |网页自动化在线客服,一个自然语言处理起重要作用的例子。<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|title = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 =  Haruechaiyasak|publisher =  ACM |date = October 27–30, 2009 |conference =  MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France }}</ref>]]
   −
'''[[自然语言处理 Natural Language Processing]]'''是'''[[语言学 Linguistics]]'''、'''[[计算机科学 Computer Science]]'''、'''[[信息工程 Infomation Engineering]]'''和'''[[人工智能 Artificial Intelligence]]'''等领域的分支学科。它涉及到计算机与人类语言(自然语言)之间的交互,特别是如何编写计算机程序来处理和分析大量的自然语言数据。
+
'''[[自然语言处理]]'''是'''[[语言学]]'''、'''[[计算机科学]]'''、'''[[信息工程]]'''和'''[[人工智能]]'''等领域的分支学科。它涉及到计算机与人类语言(自然语言)之间的交互,特别是如何编写计算机程序来处理和分析大量的自然语言数据。
   −
自然语言处理主要面临着'''[[语音识别 Speech Recognition]]'''、'''[[自然语言理解 Natural Language Understanding]]'''和'''[[自然语言生成 Natural Language Generation]]'''三大挑战。
+
自然语言处理主要面临着'''[[语音识别]]'''、'''[[自然语言理解 ]]'''和'''[[自然语言生成]]'''三大挑战。
    
==历史==
 
==历史==
第58行: 第58行:  
尽管自然语言处理的各种任务紧密交错,但为了方便,它们常被细分为不同的类别。下面给出一个粗略的分类。
 
尽管自然语言处理的各种任务紧密交错,但为了方便,它们常被细分为不同的类别。下面给出一个粗略的分类。
   −
===句法(Syntax)===
+
===语法===
   −
'''[[语法归纳 Grammar Induction]]'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。
+
'''语法归纳'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。
   −
'''[[词形还原 Lemmatization]]''': 只去掉词形变化的词尾,并返回词的基本形式,也称'''[[词目 Lemma]]'''。
+
'''词形还原''': 只去掉词形变化的词尾,并返回词的基本形式,也称'''[[词目 Lemma]]'''。
   −
'''[[语素切分 Morphological Segmentation]]''': 将单词分成独立的'''[[语素 Morpheme]]''',并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素,特别是'''[[屈折语素 Inflectional Morphology]]''',因此通常可以完全忽略这个任务,而简单地将一个单词的所有可能形式(例如,"open,opens,opened,opening")作为单独的单词。然而,在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ,这种方法是不可取的,因为每个词都有成千上万种可能的词形。
+
'''语素切分''': 将单词分成独立的'''[[语素 Morpheme]]''',并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素,特别是'''[[屈折语素 Inflectional Morphology]]''',因此通常可以完全忽略这个任务,而简单地将一个单词的所有可能形式(例如,"open,opens,opened,opening")作为单独的单词。然而,在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ,这种方法是不可取的,因为每个词都有成千上万种可能的词形。
   −
'''[[词性标注 Part-of-speech Tagging]]''': 给定一个句子,确定每个词的词性(part of speech, POS)。许多单词,尤其是常见的单词,可以拥有多种词性。例如,“book”可以是名词(书本)(“ the book on the table”)或动词(预订)(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言,所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。
+
'''词性标注''': 给定一个句子,确定每个词的词性(part of speech, POS)。许多单词,尤其是常见的单词,可以拥有多种词性。例如,“book”可以是名词(书本)(“ the book on the table”)或动词(预订)(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言,所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。
    
  --[[用户:Thingamabob|Thingamabob]]([[用户讨论:Thingamabob|讨论]])“‘out’至少有五种不同的词性”一句为意译
 
  --[[用户:Thingamabob|Thingamabob]]([[用户讨论:Thingamabob|讨论]])“‘out’至少有五种不同的词性”一句为意译
   −
'''[[语法分析 Parsing]]''': 确定给定句子的'''[[语法树 Parse tree]]'''(语法分析)。自然语言的语法是模糊的,典型的句子有多种可能的分析: 也许会让人有些吃惊,一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''[[依存分析 Dependency Parsing]]'''和'''[[成分分析 Constituency Parsing]]'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ,而成分分析侧重于使用'''[[概率上下文无关文法 Probabilistic Context-free Grammar, PCFG]]'''(probabilistic context-free grammar,PCFG)构建语法树(参见'''[[随机语法 Stochastic Grammar]]''')。
+
'''语法分析: 确定给定句子的'''语法树'''(语法分析)。自然语言的语法是模糊的,典型的句子有多种可能的分析: 也许会让人有些吃惊,一个典型的句子可能有成千上万个潜在的语法分析(其中大多数对于人类来说是毫无意义的)。分析类型主要有两种: '''[[依存分析 Dependency Parsing]]'''和'''[[成分分析 Constituency Parsing]]'''。依存句法分析侧重于句子中单词之间的关系(标记主要对象和谓语等) ,而成分分析侧重于使用'''[[概率上下文无关文法 Probabilistic Context-free Grammar, PCFG]]'''(probabilistic context-free grammar,PCFG)构建语法树(参见'''[[随机语法 Stochastic Grammar]]''')。
   −
'''[[断句 Sentence breaking]]'''(也被称为'''[[句子边界消歧 Sentence Boundary Disambiguation]]''') : 给定一段文本,找到句子边界。句子的边界通常用句号或其他标点符号来标记,但是这些标点符号也会被用于其他目的(例如,标记缩写)。
+
'''断句'''(也被称为'''句子边界消歧''') : 给定一段文本,找到句子边界。句子的边界通常用句号或其他标点符号来标记,但是这些标点符号也会被用于其他目的(例如,标记缩写)。
   −
'''[[词根化 Stemming]]''': 把词形变化(或者派生出来的)的词缩减到其词根形式的过程。(例如,close 是“ closed”、“ closing”、“ close”、“ closer”等的词根。).
+
'''词根化''': 把词形变化(或者派生出来的)的词缩减到其词根形式的过程。(例如,close 是“ closed”、“ closing”、“ close”、“ closer”等的词根。).
   −
'''[[分词 Word Segmentation]]''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的,因为单词通常由空格分隔。然而,对于汉语、日语和泰语的文字,并没有类似这种方式的词语边界标记,在这些语言中,文本分词是一项重要的任务,要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建[[词包]](bag of words,BOW)。
+
'''分词''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的,因为单词通常由空格分隔。然而,对于汉语、日语和泰语的文字,并没有类似这种方式的词语边界标记,在这些语言中,文本分词是一项重要的任务,要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建词包(bag of words,BOW)。
   −
'''[[术语抽取 Terminology Extraction]]''': 术语抽取的目标是从给定的语料库中自动提取相关术语。
+
'''术语抽取]''': 术语抽取的目标是从给定的语料库中自动提取相关术语。
   −
===语义(Semantics)===
+
===语义===
   −
'''[[词汇语义学 Lexical Semantics]]''': 每个词在上下文中的计算意义是什么?
+
'''词汇语义学''': 每个词在上下文中的计算意义是什么?
   −
'''[[分布语义 Distributional semantics]]''': 我们如何从数据中学习语义表示?
+
'''分布语义]''': 我们如何从数据中学习语义表示?
    
'''[[机器翻译 Machine Translation]]''': 将文本从一种语言自动翻译成另一种语言。这是最困难的问题之一,也是“人工智能完备”问题的一部分,即需要人类拥有的所有不同类型的知识(语法、语义、对现实世界的事实的认知等)才能妥善解决。
 
'''[[机器翻译 Machine Translation]]''': 将文本从一种语言自动翻译成另一种语言。这是最困难的问题之一,也是“人工智能完备”问题的一部分,即需要人类拥有的所有不同类型的知识(语法、语义、对现实世界的事实的认知等)才能妥善解决。
第90行: 第90行:  
'''[[命名实体识别 Named entity Recognition, NER]]''': 给定一个文本流,确定文本中的哪些词能映射到专有名称,如人或地点,以及这些名称的类型(例如:人名、地点名、组织名)。虽然大写有助于识别英语等语言中的命名实体,但这种信息对于确定命名实体的类型无用,而且,在多数情况下,这种信息是不准确、不充分的。比如,一个句子的第一个字母也是大写的,以及命名实体通常跨越几个单词,只有某些是大写的。此外,许多其他非西方文字的语言(如汉语或阿拉伯语)没有大写,甚至有大写的语言也不一定能用它来区分名字。例如,德语中多有名词都大写,法语和西班牙语中作为形容词的名称不大写。
 
'''[[命名实体识别 Named entity Recognition, NER]]''': 给定一个文本流,确定文本中的哪些词能映射到专有名称,如人或地点,以及这些名称的类型(例如:人名、地点名、组织名)。虽然大写有助于识别英语等语言中的命名实体,但这种信息对于确定命名实体的类型无用,而且,在多数情况下,这种信息是不准确、不充分的。比如,一个句子的第一个字母也是大写的,以及命名实体通常跨越几个单词,只有某些是大写的。此外,许多其他非西方文字的语言(如汉语或阿拉伯语)没有大写,甚至有大写的语言也不一定能用它来区分名字。例如,德语中多有名词都大写,法语和西班牙语中作为形容词的名称不大写。
   −
'''[[自然语言生成]]''': 将计算机数据库或语义意图中的信息转换为人类可读的语言。
+
'''自然语言生成''': 将计算机数据库或语义意图中的信息转换为人类可读的语言。
   −
'''[[自然语言理解 Natural Language Understanding]]''': 将文本块转换成更加正式的表示形式,比如更易于计算机程序处理的'''[[一阶逻辑结构 First-order Logic Structure]]'''。自然语言理解包括从多种可能的语义中识别预期的语义,这些语义可以由有序符号表现的自然语言表达中派生出来。引入和创建语言元模型和本体是有效但经验化的做法。自然语言语义要求清楚明了,而不能是混有隐含的猜测,如封闭世界假设与开放世界假设、主观的是 / 否与客观的真 / 假<ref>{{cite journal |first=Yucong |last=Duan |first2=Christophe |last2=Cruz |year=2011 |url=http://www.ijimt.org/abstract/100-E00187.htm |title=Formalizing Semantic of Natural Language through Conceptualization from Existence |archiveurl=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm |archivedate=2011-10-09 |journal=International Journal of Innovation, Management and Technology |volume=2 |issue=1 |pages=37–42 }}</ref>。
+
'''[[自然语言理解]]''': 将文本块转换成更加正式的表示形式,比如更易于计算机程序处理的'''[[一阶逻辑结构 First-order Logic Structure]]'''。自然语言理解包括从多种可能的语义中识别预期的语义,这些语义可以由有序符号表现的自然语言表达中派生出来。引入和创建语言元模型和本体是有效但经验化的做法。自然语言语义要求清楚明了,而不能是混有隐含的猜测,如封闭世界假设与开放世界假设、主观的是 / 否与客观的真 / 假<ref>{{cite journal |first=Yucong |last=Duan |first2=Christophe |last2=Cruz |year=2011 |url=http://www.ijimt.org/abstract/100-E00187.htm |title=Formalizing Semantic of Natural Language through Conceptualization from Existence |archiveurl=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm |archivedate=2011-10-09 |journal=International Journal of Innovation, Management and Technology |volume=2 |issue=1 |pages=37–42 }}</ref>。
   −
'''[[光学字符识别 Optical Character Recognition,OCR)]]''' : 给定一幅印有文字的图像,识别相应的文本。
+
'''[[光学字符识别 OCR)]]''' : 给定一幅印有文字的图像,识别相应的文本。
    
问答: 给出一个用人类语言表述的问题,确定它的答案。典型的问题都有一个明确的正确答案(例如“加拿大的首都是哪里? ”),但有时候也需要考虑开放式的问题(比如“生命的意义是什么? ”)。最近一些工作在研究更复杂的问题.<ref>{{cite journal |title=Versatile question answering systems: seeing in synthesis |last=Mittal |journal= International Journal of Intelligent Information and Database Systems|volume=5 |issue=2 |pages=119–142 |year=2011 |doi=10.1504/IJIIDS.2011.038968 |url=https://hal.archives-ouvertes.fr/hal-01104648/file/Mittal_VersatileQA_IJIIDS.pdf }}</ref>。
 
问答: 给出一个用人类语言表述的问题,确定它的答案。典型的问题都有一个明确的正确答案(例如“加拿大的首都是哪里? ”),但有时候也需要考虑开放式的问题(比如“生命的意义是什么? ”)。最近一些工作在研究更复杂的问题.<ref>{{cite journal |title=Versatile question answering systems: seeing in synthesis |last=Mittal |journal= International Journal of Intelligent Information and Database Systems|volume=5 |issue=2 |pages=119–142 |year=2011 |doi=10.1504/IJIIDS.2011.038968 |url=https://hal.archives-ouvertes.fr/hal-01104648/file/Mittal_VersatileQA_IJIIDS.pdf }}</ref>。
   −
'''[[文本蕴涵识别 Recognizing Textual Entailment]]''': 给定两个文本片段,确定其中一个是否蕴含了另一个,或者是否蕴含了另一个的否定,或者是否允许另一个文本中立<ref name=rte:11>PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>。
+
'''文本蕴涵识别 ''': 给定两个文本片段,确定其中一个是否蕴含了另一个,或者是否蕴含了另一个的否定,或者是否允许另一个文本中立<ref name=rte:11>PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref>。
      −
'''[[关系抽取 Relation Extraction]]''': 给定一个文本块,识别命名实体之间的关系(例如:谁嫁给了谁)。
+
'''关系抽取''': 给定一个文本块,识别命名实体之间的关系(例如:谁嫁给了谁)。
   −
'''[[情感分析 Sentiment Analysis]]'''(参见'''[[多模态情感分析 Multimodal Sentiment Analysis]]'''): 从一组文档中提取主观信息,通常使用在线评论来确定特定对象的“极性”。情感分析在识别社会媒体中的舆论趋势和市场营销中尤其有效。
+
'''[[情感分析]]'''(参见'''[[多模态情感分析]]'''): 从一组文档中提取主观信息,通常使用在线评论来确定特定对象的“极性”。情感分析在识别社会媒体中的舆论趋势和市场营销中尤其有效。
    
'''[[话题分割和识别]]''': 给定一个文本块,将其分成几个部分,每个部分都有一个主题,并确定各个部分的主题。
 
'''[[话题分割和识别]]''': 给定一个文本块,将其分成几个部分,每个部分都有一个主题,并确定各个部分的主题。
   −
'''[[词义消歧 Word Sense Disambiguation]]''': 从词语的多个意思中选出最符合上下文的一个意思。为了解决这个问题,我们通常会从字典或如WordNet的在线资源中取一系列的单词和相关的词义。
+
'''[[词义消歧]]''': 从词语的多个意思中选出最符合上下文的一个意思。为了解决这个问题,我们通常会从字典或如WordNet的在线资源中取一系列的单词和相关的词义。
   −
===话语(Discourse)===
+
===话语===
   −
'''[[自动摘要 Automatic Summarization]]''':自动生成一个可读的文本摘要。常用于提供已知类型如研究论文、报纸财经版的文章等文本的摘要。
+
'''[[自动摘要]]''':自动生成一个可读的文本摘要。常用于提供已知类型如研究论文、报纸财经版的文章等文本的摘要。
   −
'''[[共指消解 Coreference Resolution]]''': 给定一个句子或更大的文本块,确定哪些单词(“指称”)指的是相同的对象(“实体”)。指代消解就是这项任务的一个具体实例,它专门研究代词与所指名词或名称的匹配问题。共指消解的一般任务还包括识别指称之间的“桥接关系”。例如,在“他从前门进入了约翰的房子”这句话中,“前门”是一种指称,需要确定的桥接关系是:所指的门是约翰的房子的前门(而不是其他一些也可以指称的结构)。
+
'''[[共指消解]]''': 给定一个句子或更大的文本块,确定哪些单词(“指称”)指的是相同的对象(“实体”)。指代消解就是这项任务的一个具体实例,它专门研究代词与所指名词或名称的匹配问题。共指消解的一般任务还包括识别指称之间的“桥接关系”。例如,在“他从前门进入了约翰的房子”这句话中,“前门”是一种指称,需要确定的桥接关系是:所指的门是约翰的房子的前门(而不是其他一些也可以指称的结构)。
   −
'''[[话语分析 Discourse Analysis]]''':这个部分包括几个相关任务。一个是识别相连文本的语篇结构,即句子之间的话语关系(例如:详述、解释、对比)。还有识别和分类文本块中的言语行为(例如:是-否问题,内容问题,陈述,断言等)
+
'''[[话语分析]]''':这个部分包括几个相关任务。一个是识别相连文本的语篇结构,即句子之间的话语关系(例如:详述、解释、对比)。还有识别和分类文本块中的言语行为(例如:是-否问题,内容问题,陈述,断言等)
   −
===语音(Speech)===
+
===语音===
   −
'''[[语音识别 Speech Recognition]]''': 给定一个或多个人说话的声音片段,确定语音的文本内容。这是文本转语音的反过程,是一个极其困难被称为“人工智能完备”(见上文)的问题。自然语音中连续的单词之间几乎没有停顿,因此语音分割是语音识别的一个必要的子任务(见下文)。在大多数口语中,连续字母的声音在“协同发音”中相互融合,因此将模拟信号转换为离散字符会是一个非常困难的过程。此外,由于说同一个词时不同人的口音不同,所以语音识别软件必须能够识别文本相同的不同输入。
+
'''[[语音识别]]''': 给定一个或多个人说话的声音片段,确定语音的文本内容。这是文本转语音的反过程,是一个极其困难被称为“人工智能完备”(见上文)的问题。自然语音中连续的单词之间几乎没有停顿,因此语音分割是语音识别的一个必要的子任务(见下文)。在大多数口语中,连续字母的声音在“协同发音”中相互融合,因此将模拟信号转换为离散字符会是一个非常困难的过程。此外,由于说同一个词时不同人的口音不同,所以语音识别软件必须能够识别文本相同的不同输入。
   −
'''[[语音分割 Speech Segmentation]]''': 给一个人或人说话的声音片段,将其分成单词。这是语音识别的一个子任务,通常两者一起出现。
+
'''[[语音分割]]''': 给一个人或人说话的声音片段,将其分成单词。这是语音识别的一个子任务,通常两者一起出现。
   −
'''[[语音合成 Text-to-speech ]]''': 给定一个文本,把这些文字转换为口语表达。语音合成可以用来帮助视力受损的人<ref>{{Citation|last=Yi|first=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli|citeseerx=10.1.1.668.869}}</ref>。
+
'''[[语音合成]]''': 给定一个文本,把这些文字转换为口语表达。语音合成可以用来帮助视力受损的人<ref>{{Citation|last=Yi|first=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli|citeseerx=10.1.1.668.869}}</ref>。
   −
===对话(Dialogue)===
+
===对话===
    
第一部由人工智能创作的作品于2018年出版,名为《路》(1 the Road) ,以小说的形式发售,包含6000万字。
 
第一部由人工智能创作的作品于2018年出版,名为《路》(1 the Road) ,以小说的形式发售,包含6000万字。
421

个编辑