更改

信息抽取 (查看源代码)

2021年8月28日 (六) 19:45的版本

添加20字节、 2021年8月28日 (六) 19:45

无编辑摘要

第22行：第22行： −

信息抽取是一个较为上游的任务。它涉及的问题是设计文本管理的自动方法，不再局限于文本的传输，存储和显示。信息检索学科已经在应用许多自动化的方法<ref name=":0" />~~，比如典型的统计方法，用于为大型文档集合建立索引和对文档进行分类。另一个互补的方法是自然语言处理(NLP)~~ ，它解决了人类语言处理建模的问题，在处理大规模任务时取得了相当的成功。就难度和重点而言，信息抽取处理介于[[信息获取]] Information Retrieval（IR）<ref name=":0">{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = Machine Learning for Information Extraction in Informal Domains|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref>和 [[NLP]] 之间的任务。对于IE任务的输入假设为，一组文档，其中每个文档都遵循一个模板，即，以类似于其他文档中的方式描述一个或多个实体或事件，但在细节上有所不同。例如，考虑一组关于拉丁美洲恐怖主义的新闻专线文章，每一条都被认为是基于一种或多种恐怖主义行为。我们还为任何给定的 IE 任务定义了一个模板，它是一个(或一组)案例框架，用于保存单个文档中包含的信息。对于恐怖主义的例子，一个模板应该有与恐怖主义行为的肇事者、受害者和武器相对应的位置，以及事件发生的日期。针对这个问题的 IE 系统需要“理解”一篇关于恐怖袭击的文章，找到与此模板中角色相对应的数据。

+

信息抽取是一个较为上游的任务。它涉及的问题是设计文本管理的自动方法，不再局限于文本的传输，存储和显示。信息检索学科已经在应用许多自动化的方法<ref name=":0" />，比如典型的统计方法，用于为大型文档集合建立索引和对文档进行分类。另一个互补的方法是自然语言处理（NLP），它解决了人类语言处理建模的问题，在处理大规模任务时取得了相当的成功。就难度和重点而言，信息抽取处理介于[[信息获取]] Information Retrieval（IR）<ref name=":0">{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = Machine Learning for Information Extraction in Informal Domains|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref>和 [[NLP]] 之间的任务。对于IE任务的输入假设为，一组文档，其中每个文档都遵循一个模板，即，以类似于其他文档中的方式描述一个或多个实体或事件，但在细节上有所不同。例如，考虑一组关于拉丁美洲恐怖主义的新闻专线文章，每一条都被认为是基于一种或多种恐怖主义行为。我们还为任何给定的 IE 任务定义了一个模板，它是一个（或一组）案例框架，用于保存单个文档中包含的信息。对于恐怖主义的例子，一个模板应该有与恐怖主义行为的肇事者、受害者和武器相对应的位置，以及事件发生的日期。针对这个问题的 IE 系统需要“理解”一篇关于恐怖袭击的文章，找到与此模板中角色相对应的数据。

第54行：第54行：

** 事件提取: 给定一个输入文档，输出零个或多个事件模板。例如，一篇报纸文章可能描述了多起恐怖袭击。

* 知识库填充: 填充给定一组文件的事实数据库。通常数据库是三元组的形式，例如: 实体1，关系，实体2。

−

** 命名实体识别: ~~利用现有的领域知识或从其他句子中提取的信息，识别已知的实体名称(用于人和组织)、地名、时间表达式和某些类型的数字表达式~~<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor | title=End-to-end neural relation extraction using deep biaffine attention | book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> 。一般来说，识别任务需要将一个唯一标识符分配给提取的实体。一个简单的任务是命名实体检测，其目的是检测实体没有任何实体实例的现有知识。例如，在处理”Smith先生喜欢捕鱼”一句时，命名实体检测将表示检测到”Smith先生”一词确实指的是一个人，但不一定了解(或使用)某个史密斯先生，他就是(或”可能是”)该句所指的具体人。

+

** 命名实体识别: 利用现有的领域知识或从其他句子中提取的信息，识别已知的实体名称（用于人和组织）、地名、时间表达式和某些类型的数字表达式<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor | title=End-to-end neural relation extraction using deep biaffine attention | book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> 。一般来说，识别任务需要将一个唯一标识符分配给提取的实体。一个简单的任务是命名实体检测，其目的是检测实体没有任何实体实例的现有知识。例如，在处理”Smith先生喜欢捕鱼”一句时，命名实体检测将表示检测到”Smith先生”一词确实指的是一个人，但不一定了解（或使用）某个Smith先生，他就是（或”可能是”）该句所指的具体人。

** 共指消解: 检测文本实体之间的共指和回指链接。在 IE 任务中，这通常局限于查找以前提取的命名实体之间的链接。例如，“ International Business Machines”和“ IBM”指的是相同的实际实体。如果我们把这两个句子取为“Smith先生喜欢钓鱼。但是他不喜欢骑自行车”，共指消解指能够发现“他”指的是先前被发现的人“ M.Smith”。

** 关系抽取: 识别实体之间的关系<ref name="ecir2019" /> ，例如:

第110行：第110行：

* 文本工程通用体系结构（GATE）捆绑了一个免费信息抽取系统

* Apache OpenNLP 是一个用于自然语言处理的 Java 机器学习工具包

−

* OpenCalais 是来自 Thomson Reuters ~~的一个自动化的信息抽取网络服务(免费限制版本)~~

+

* OpenCalais 是来自 Thomson Reuters 的一个自动化的信息抽取网络服务（免费限制版本）

* Machine Learning for Language Toolkit（Mallet）是一个用于各种自然语言处理任务的基于 Java 的软件包，包括信息抽取。

* DBpedia Spotlight 是 Java/Scala 中的一个开源工具（以及免费的 web 服务），可用于命名实体识别和名称解析。

薄荷

7,129

个编辑