更改

跳到导航 跳到搜索
删除27字节 、 2020年9月26日 (六) 15:41
第62行: 第62行:  
'''语法归纳'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。
 
'''语法归纳'''<ref>{{cite journal |last=Klein |first=Dan |first2=Christopher D. |last2=Manning |url=http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf |title=Natural language grammar induction using a constituent-context model |journal=Advances in Neural Information Processing Systems |year=2002 }}</ref>: 生成描述语言句法结构的规范语法。
   −
'''词形还原''': 只去掉词形变化的词尾,并返回词的基本形式,也称'''[[词目 Lemma]]'''。
+
'''词形还原''': 只去掉词形变化的词尾,并返回词的基本形式,也称'''词目'''。
   −
'''语素切分''': 将单词分成独立的'''[[语素 Morpheme]]''',并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素,特别是'''[[屈折语素 Inflectional Morphology]]''',因此通常可以完全忽略这个任务,而简单地将一个单词的所有可能形式(例如,"open,opens,opened,opening")作为单独的单词。然而,在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ,这种方法是不可取的,因为每个词都有成千上万种可能的词形。
+
'''语素切分''': 将单词分成独立的'''语素''',并确定语素的类别。这项任务的难度很大程度上取决于所考虑的语言的形态(即句子的结构)的复杂性。英语有相当简单的语素,特别是'''屈折语素 Inflectional Morphology''',因此通常可以完全忽略这个任务,而简单地将一个单词的所有可能形式(例如,"open,opens,opened,opening")作为单独的单词。然而,在诸如土耳其语或曼尼普尔语这样的语言中<ref>{{cite journal |last=Kishorjit |first=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=Manipuri Morpheme Identification |journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> ,这种方法是不可取的,因为每个词都有成千上万种可能的词形。
   −
'''词性标注''': 给定一个句子,确定每个词的词性(part of speech, POS)。许多单词,尤其是常见的单词,可以拥有多种词性。例如,“book”可以是名词(书本)(“ the book on the table”)或动词(预订)(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言,所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。
+
'''词性标注''': 给定一个句子,确定每个词的词性(Part of speech, POS)。许多单词,尤其是常见的单词,可以拥有多种词性。例如,“book”可以是名词(书本)(“ the book on the table”)或动词(预订)(“to book a flight”); “set”可以是名词、动词或形容词; “out”至少有五种不同的词性。有些语言比其他语言有更多的这种模糊性。像英语这样几乎没有屈折形态的语言尤其容易出现这种歧义。汉语是一种在动词化过程中会变音调的语言,所以容易出现歧义现象。这样的词形变化不容易通过正字法中使用的实体来传达预期的意思。
    
  --[[用户:Thingamabob|Thingamabob]]([[用户讨论:Thingamabob|讨论]])“‘out’至少有五种不同的词性”一句为意译
 
  --[[用户:Thingamabob|Thingamabob]]([[用户讨论:Thingamabob|讨论]])“‘out’至少有五种不同的词性”一句为意译
421

个编辑

导航菜单