更改
跳到导航
跳到搜索
第39行:
第39行:
− [[File:4.png]]+
→从非结构化文本中提取专家术语集群
===从非结构化文本中提取专家术语集群===
===从非结构化文本中提取专家术语集群===
自动识别相关的专家术语是理解词典中较不突出部分的结构所需的困难且重要的任务。术语通常定义特定域的特征。我们开发了一种基于语料库的方法,使用非结构化文本中的共现网络,提取卫星术语的相干聚类 - 词典边缘的术语。通过在共现图中提取社区来识别聚类,之后我们最大的被丢弃并且通过中心性对剩余组中的词进行排名。该方法在大型语料库上是计算上易处理的,不需要文档结构和最小规范化。结果表明,该方法确实在语料库中提取了具有不同内容,风格和结构的连贯卫星术语组。
自动识别相关的专家术语是理解词典中较不突出部分的结构所需的困难且重要的任务。术语通常定义特定域的特征。我们开发了一种基于语料库的方法,使用非结构化文本中的共现网络,提取卫星术语的相干聚类 - 词典边缘的术语。通过在共现图中提取社区来识别聚类,之后我们最大的被丢弃并且通过中心性对剩余组中的词进行排名。该方法在大型语料库上是计算上易处理的,不需要文档结构和最小规范化。结果表明,该方法确实在语料库中提取了具有不同内容,风格和结构的连贯卫星术语组。