“自动内容提取”的版本间的差异

2021年9月22日 (三) 19:36的版本

自动内容提取 Automatic content extraction（ACE）是由美国国家标准与技术研究所（NIST）在1999年至2008年间召开的一个研究项目，目的是开发先进的信息抽取/文本分析技术，后续还有信息理解会议（MUC）和之前的文本分析会议。

目标

总的来说，ACE 程序的动机和解决的问题与之前的 MUC 程序相同。然而，ACE 程序以目标对象（即实体、关系和事件）来定义研究目标，而不是以文本中的词语来定义。例如，在 MUC 中定义的所谓“命名实体”任务就是识别（页面上的）实体名称的单词。而在 ACE 中，相应的任务是标识如此命名的实体。后一个任务更加抽象，在产生答案时涉及更明确的推理。从某种意义上说，AUC检测的实体“并不在那里”。

虽然 ACE 项目的目标是从音频和图像资源中提取除纯文本以外的信息，但研究工作仅限于从文本中提取信息抽取。实际将音频和图像数据转换成文本并不是 ACE 研究工作的一部分，不过这些转换器输出的语音识别（ASR）和光学字符识别（OCR）的输出是 ACE 研究工作的一部分。

这项工作包括:

详细定义研究任务；
收集和注释数据集，包括训练集测试集等；
通过评估工具和研究工作坊支持研究。

涉及话题与具体内容

给定一个自然语言的文本，ACE 的挑战是检测: 文本中提到的

实体，如: 个人、组织、地点、设施、武器、车辆和地理政治实体。
实体之间的关系，例如: a 人是 b 公司的经理。关系类型包括: 角色、部分、位置、接近和社会。
文本中提到的事件，比如: 互动，运动，转移，创造和毁灭。

该计划涉及英语，阿拉伯语和中文文本。

ACE 语料库是测试新的信息抽取算法的标准基准之一。

参考资料

George Doddington@NIS T, Alexis Mitchell@LD C, Mark Przybocki@NIS T, Lance Ramshaw@BB N, Stephanie Strassel@LD C, Ralph Weischedel@BB N. The automatic content extraction (ACE) program–tasks, data, and evaluation. 2004

外部链接

MUC - ACE's predecessor.
ACE -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-的存檔，存档日期2013-09-25. (LDC)
ACE (NIST)

编者推荐

集智课程

知识抽取与挖掘

知识图谱的意义在于构筑行业的场景数据模型，帮助发现和学习数据之间的关联规律，理解事物全貌，赋能各行各业的智能化发展。知识图谱需要庞大的数据作为支持，大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术，可以从一些公开的网络半结构化、非结构化数据和结构化数据库的数据中提取出实体、关系、属性等知识要素。

知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘，知识规则挖掘属于结构挖掘，表示学习则是将知识图谱映射到向量空间而后进行挖掘。

自然语言处理入门

课程对基本的自然语言处理进行了学习规划于介绍，并带你入门自然语言处理。

产学结合：自然语言处理及其应用

本课程中，讲解自然语言处理的最新学术理论与业界实践，涉及语言模型、机器翻译、情感分析、文本理解、文本生成五大主题。

本中文词条由林家驹审校，薄荷编辑，如有问题，欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。

@@ 第1行： / 第1行： @@
-此词条暂由彩云小译翻译，翻译字数共388，人工整理：林家驹。
+{{#seo:
+|keywords=信息抽取,语音识别,光学字符识别
+|description=是由美国国家标准与技术研究所（NIST）召开的一个研究项目
+}}
-'''Automatic content extraction''' ('''ACE''') is a research program for developing advanced [[information extraction]] [[technologies]] convened by the [[National Institute of Standards and Technology|NIST]] from 1999 to 2008, succeeding [[Message Understanding Conference|MUC]] and preceding [https://www.nist.gov/tac/ Text Analysis Conference].
+'''自动内容提取 Automatic content extraction（ACE）'''是由美国国家标准与技术研究所（NIST）在1999年至2008年间召开的一个研究项目，目的是开发先进的[[信息抽取]]/文本分析技术，后续还有信息理解会议（MUC）和之前的文本分析会议。
-自动内容提取(ACE)是由 NIST 在1999年至2008年间召开的一个研究项目，目的是开发先进的信息抽取/文本分析技术，后续还有 MUC 和之前的文本分析会议。
+==目标==
+总的来说，ACE 程序的动机和解决的问题与之前的 MUC 程序相同。然而，ACE 程序以目标对象（即实体、关系和事件）来定义研究目标，而不是以文本中的词语来定义。例如，在 MUC 中定义的所谓“命名实体”任务就是识别（页面上的）实体名称的单词。而在 ACE 中，相应的任务是标识如此命名的实体。后一个任务更加抽象，在产生答案时涉及更明确的推理。从某种意义上说，AUC检测的实体“并不在那里”。
-==目标与y==
-In general objective, the ACE program is motivated by and addresses the same issues as the MUC program that preceded it. The ACE program, however, defines the research objectives in terms of the target objects (i.e., the entities, the relations, and the events) rather than in terms of the words in the text. For example, the so-called "named entity" task, as defined in MUC, is to identify those words (on the page) that are names of entities. In ACE, on the other hand, the corresponding task is to identify the entity so named. This is a different task, one that is more abstract and that involves inference more explicitly in producing an answer. In a real sense, the task is to detect things that "aren't there".
-总的来说，ACE 程序的动机和解决的问题与之前的 MUC 程序相同。然而，ACE 程序以目标对象(即实体、关系和事件)来定义研究目标，而不是以文本中的词语来定义。例如，在 MUC 中定义的所谓“命名实体”任务就是识别(页面上的)实体名称的单词。而在 ACE 中，相应的任务是标识如此命名的实体。后一个任务更加抽象，在产生答案时涉及更明确的推理。从某种意义上说，AUC检测的实体“并不在那里”。
+虽然 ACE 项目的目标是从音频和图像资源中提取除纯文本以外的信息，但研究工作仅限于从文本中提取信息抽取。实际将音频和图像数据转换成文本并不是 ACE 研究工作的一部分，不过这些转换器输出的语音识别（ASR）和光学字符识别（OCR）的输出是 ACE 研究工作的一部分。
-While the ACE program is directed toward extraction of information from [[Sound|audio]] and [[image]] sources in addition to pure text, the research effort is restricted to information extraction from text. The actual [[transduction (machine learning)|transduction]] of audio and image data into text is not part of the ACE research effort, although the processing of [[Speech recognition | ASR]] and [[Optical character recognition | OCR]] output from such transducers is.
-虽然 ACE 项目的目标是从音频和图像资源中提取除纯文本以外的信息，但研究工作仅限于从文本中提取信息抽取。实际将音频和图像数据转换成文本并不是 ACE 研究工作的一部分，不过这些转换器输出的 ASR 和 OCR 的输出是 ACE 研究工作的一部分。
-The effort involves:
-* defining the research tasks in detail,
-* collecting and annotating data needed for training, development, and evaluation,
-* supporting the research with evaluation tools and [[research workshop]]s
 这项工作包括:
-* 详细定义研究任务，
+* 详细定义研究任务；
-* 收集和注释数据集，包括训练集测试集等，
+* 收集和注释数据集，包括训练集测试集等；
 * 通过评估工具和研究工作坊支持研究。
 ==涉及话题与具体内容==
-Given a text in [[natural language]], the ACE challenge is to detect:
-# '''entities''' mentioned in the text, such as: persons, organizations, locations, facilities, weapons, vehicles, and geo-political entities.
-# '''relations''' between entities, such as: person A is the manager of company B. Relation types include: role, part, located, near, and social.
-# '''events''' mentioned in the text, such as: interaction, movement, transfer, creation and destruction
 给定一个自然语言的文本，ACE 的挑战是检测: 文本中提到的
-<nowiki>#</nowiki> 实体，如: 个人、组织、地点、设施、武器、车辆和地理政治实体。
+#实体，如: 个人、组织、地点、设施、武器、车辆和地理政治实体。
+#实体之间的关系，例如: a 人是 b 公司的经理。关系类型包括: 角色、部分、位置、接近和社会。
-<nowiki>#</nowiki> 实体之间的关系，例如: a 人是 b 公司的经理。关系类型包括: 角色、部分、位置、接近和社会。
+#文本中提到的事件，比如: 互动，运动，转移，创造和毁灭。
-<nowiki>#</nowiki> 文本中提到的事件，比如: 互动，运动，转移，创造和毁灭。
-The program relates to [[English language|English]], [[Arabic language|Arabic]] and [[Chinese language|Chinese]] texts.
 该计划涉及英语，阿拉伯语和中文文本。
-The ACE corpus is one of the standard benchmarks for testing new information extraction [[algorithm]]s.
 ACE 语料库是测试新的信息抽取算法的标准基准之一。
 ==参考资料==
 * George Doddington@NIS T, Alexis Mitchell@LD C, Mark Przybocki@NIS T, Lance Ramshaw@BB N, Stephanie Strassel@LD C, Ralph Weischedel@BB N. [https://web.archive.org/web/20150126022215/http://www.citeulike.org/user/erelsegal-halevi/article/10003935 The automatic content extraction (ACE) program–tasks, data, and evaluation.] 2004
 ==外部链接==
@@ 第54行： / 第43行： @@
 * [https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE] (NIST)
-* MUC - ACE's predecessor.
+==编者推荐==
-* ACE  (LDC)
+===集智课程===
-* ACE (NIST)
+[[File:产学结合_爱奇艺.jpg|right|thumb|300px]]
+====知识抽取与挖掘====
+知识图谱的意义在于构筑行业的场景数据模型，帮助发现和学习数据之间的关联规律，理解事物全貌，赋能各行各业的智能化发展。知识图谱需要庞大的数据作为支持，大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术，可以从一些公开的网络半结构化、非结构化数据和结构化数据库的数据中提取出实体、关系、属性等知识要素。
+知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘，知识规则挖掘属于结构挖掘，表示学习则是将知识图谱映射到向量空间而后进行挖掘。
+* [https://campus.swarma.org/course/857 知识抽取与挖掘——术语&实体]
+* [https://campus.swarma.org/course/858 知识抽取与挖掘——关系&事件]
+====[https://campus.swarma.org/course/807 自然语言处理入门]====
+课程对基本的自然语言处理进行了学习规划于介绍，并带你入门自然语言处理。
-* MUC-ACE 的前身。
+====[https://campus.swarma.org/course/807 产学结合：自然语言处理及其应用]====
-* ACE  (LDC)
+本课程中，讲解自然语言处理的最新学术理论与业界实践，涉及语言模型、机器翻译、情感分析、文本理解、文本生成五大主题。
-* ACE (NIST)
-[[Category:Information retrieval organizations]]
-Category:Information retrieval organizations
+----
+本中文词条由林家驹审校，[[用户:薄荷|薄荷]]编辑，如有问题，欢迎在讨论页面留言。
-类别: 信息检索组织
-<noinclude>
-<small>This page was moved from [[wikipedia:en:Automatic content extraction]]. Its edit history can be viewed at [[自动内容提取/edithistory]]</small></noinclude>
+'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''
-[[Category:待整理页面]]
+[[Category:信息检索组织]]