'''分词''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的,因为单词通常由空格分隔。然而,对于汉语、日语和泰语的文字,并没有类似这种方式的词语边界标记,在这些语言中,文本分词是一项重要的任务,要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建词包(bag of words,BOW)。 | '''分词''': 把一段连续的文本分割成单独的词语。对于像英语之类的语言是相对简单的,因为单词通常由空格分隔。然而,对于汉语、日语和泰语的文字,并没有类似这种方式的词语边界标记,在这些语言中,文本分词是一项重要的任务,要求掌握语言中词汇和词形的知识。有时这个过程也被用于数据挖掘中创建词包(bag of words,BOW)。 |