自动内容提取


自动内容提取 Automatic content extraction(ACE)是由美国国家标准与技术研究所(NIST)在1999年至2008年间召开的一个研究项目,目的是开发先进的信息抽取/文本分析技术,后续还有信息理解会议(MUC)和之前的文本分析会议。

目标

总的来说,ACE 程序的动机和解决的问题与之前的 MUC 程序相同。然而,ACE 程序以目标对象(即实体、关系和事件)来定义研究目标,而不是以文本中的词语来定义。例如,在 MUC 中定义的所谓“命名实体”任务就是识别(页面上的)实体名称的单词。而在 ACE 中,相应的任务是标识如此命名的实体。后一个任务更加抽象,在产生答案时涉及更明确的推理。从某种意义上说,AUC检测的实体“并不在那里”。


虽然 ACE 项目的目标是从音频和图像资源中提取除纯文本以外的信息,但研究工作仅限于从文本中提取信息抽取。实际将音频和图像数据转换成文本并不是 ACE 研究工作的一部分,不过这些转换器输出的语音识别(ASR)和光学字符识别(OCR)的输出是 ACE 研究工作的一部分。


这项工作包括:

  • 详细定义研究任务;
  • 收集和注释数据集,包括训练集测试集等;
  • 通过评估工具和研究工作坊支持研究。


涉及话题与具体内容

给定一个自然语言的文本,ACE 的挑战是检测: 文本中提到的

  1. 实体,如: 个人、组织、地点、设施、武器、车辆和地理政治实体。
  2. 实体之间的关系,例如: a 人是 b 公司的经理。关系类型包括: 角色、部分、位置、接近和社会。
  3. 文本中提到的事件,比如: 互动,运动,转移,创造和毁灭。


该计划涉及英语,阿拉伯语和中文文本。


ACE 语料库是测试新的信息抽取算法的标准基准之一。


参考资料


外部链接

  • MUC - ACE's predecessor.
  • ACE (LDC)
  • ACE (NIST)


编者推荐

集智课程

知识抽取与挖掘

知识图谱的意义在于构筑行业的场景数据模型,帮助发现和学习数据之间的关联规律,理解事物全貌,赋能各行各业的智能化发展。知识图谱需要庞大的数据作为支持,大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术,可以从一些公开的网络半结构化、非结构化数据和结构化数据库的数据中提取出实体、关系、属性等知识要素。

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘。


自然语言处理入门

课程对基本的自然语言处理进行了学习规划于介绍,并带你入门自然语言处理。


产学结合:自然语言处理及其应用

本课程中,讲解自然语言处理的最新学术理论与业界实践,涉及语言模型、机器翻译、情感分析、文本理解、文本生成五大主题。



本中文词条由林家驹审校,薄荷编辑,如有问题,欢迎在讨论页面留言。


本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。