第22行: |
第22行: |
| | | |
| | | |
− | 信息抽取是一个较为上游的任务。它涉及的问题是设计文本管理的自动方法,不再局限于文本的传输,存储和显示。信息检索学科已经在应用许多自动化的方法<ref name=":0" />,比如典型的统计方法,用于为大型文档集合建立索引和对文档进行分类。另一个互补的方法是自然语言处理(NLP) ,它解决了人类语言处理建模的问题,在处理大规模任务时取得了相当的成功。就难度和重点而言,信息抽取处理介于[[信息获取]] Information Retrieval(IR)<ref name=":0">{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = Machine Learning for Information Extraction in Informal Domains|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref>和 [[NLP]] 之间的任务。对于IE任务的输入假设为,一组文档,其中每个文档都遵循一个模板,即,以类似于其他文档中的方式描述一个或多个实体或事件,但在细节上有所不同。例如,考虑一组关于拉丁美洲恐怖主义的新闻专线文章,每一条都被认为是基于一种或多种恐怖主义行为。我们还为任何给定的 IE 任务定义了一个模板,它是一个(或一组)案例框架,用于保存单个文档中包含的信息。对于恐怖主义的例子,一个模板应该有与恐怖主义行为的肇事者、受害者和武器相对应的位置,以及事件发生的日期。针对这个问题的 IE 系统需要“理解”一篇关于恐怖袭击的文章,找到与此模板中角色相对应的数据。 | + | 信息抽取是一个较为上游的任务。它涉及的问题是设计文本管理的自动方法,不再局限于文本的传输,存储和显示。信息检索学科已经在应用许多自动化的方法<ref name=":0" />,比如典型的统计方法,用于为大型文档集合建立索引和对文档进行分类。另一个互补的方法是自然语言处理(NLP) ,它解决了人类语言处理建模的问题,在处理大规模任务时取得了相当的成功。就难度和重点而言,信息抽取处理介于[[信息获取]] Information Retrieval(IR)<ref name=":0">{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = Machine Learning for Information Extraction in Informal Domains|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref>和 [[NLP]] 之间的任务。对于IE任务的输入假设为,一组文档,其中每个文档都遵循一个模板,即,以类似于其他文档中的方式描述一个或多个实体或事件,但在细节上有所不同。例如,考虑一组关于拉丁美洲恐怖主义的新闻专线文章,每一条都被认为是基于一种或多种恐怖主义行为。我们还为任何给定的 IE 任务定义了一个模板,它是一个(或一组)案例框架,用于保存单个文档中包含的信息。对于恐怖主义的例子,一个模板应该有与恐怖主义行为的肇事者、受害者和武器相对应的位置,以及事件发生的日期。针对这个问题的 IE 系统需要“理解”一篇关于恐怖袭击的文章,找到与此模板中角色相对应的数据。 |
| | | |
| | | |
第54行: |
第54行: |
| ** 事件提取: 给定一个输入文档,输出零个或多个事件模板。例如,一篇报纸文章可能描述了多起恐怖袭击。 | | ** 事件提取: 给定一个输入文档,输出零个或多个事件模板。例如,一篇报纸文章可能描述了多起恐怖袭击。 |
| * 知识库填充: 填充给定一组文件的事实数据库。通常数据库是三元组的形式,例如: 实体1,关系,实体2。 | | * 知识库填充: 填充给定一组文件的事实数据库。通常数据库是三元组的形式,例如: 实体1,关系,实体2。 |
− | ** 命名实体识别: 利用现有的领域知识或从其他句子中提取的信息,识别已知的实体名称(用于人和组织)、地名、时间表达式和某些类型的数字表达式<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor | title=End-to-end neural relation extraction using deep biaffine attention | book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> 。一般来说,识别任务需要将一个唯一标识符分配给提取的实体。一个简单的任务是命名实体检测,其目的是检测实体没有任何实体实例的现有知识。例如,在处理”Smith先生喜欢捕鱼”一句时,命名实体检测将表示检测到”Smith先生”一词确实指的是一个人,但不一定了解(或使用)某个史密斯先生,他就是(或”可能是”)该句所指的具体人。 | + | ** 命名实体识别: 利用现有的领域知识或从其他句子中提取的信息,识别已知的实体名称(用于人和组织)、地名、时间表达式和某些类型的数字表达式<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor | title=End-to-end neural relation extraction using deep biaffine attention | book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> 。一般来说,识别任务需要将一个唯一标识符分配给提取的实体。一个简单的任务是命名实体检测,其目的是检测实体没有任何实体实例的现有知识。例如,在处理”Smith先生喜欢捕鱼”一句时,命名实体检测将表示检测到”Smith先生”一词确实指的是一个人,但不一定了解(或使用)某个Smith先生,他就是(或”可能是”)该句所指的具体人。 |
| ** 共指消解: 检测文本实体之间的共指和回指链接。在 IE 任务中,这通常局限于查找以前提取的命名实体之间的链接。例如,“ International Business Machines”和“ IBM”指的是相同的实际实体。如果我们把这两个句子取为“Smith先生喜欢钓鱼。但是他不喜欢骑自行车”,共指消解指能够发现“他”指的是先前被发现的人“ M.Smith”。 | | ** 共指消解: 检测文本实体之间的共指和回指链接。在 IE 任务中,这通常局限于查找以前提取的命名实体之间的链接。例如,“ International Business Machines”和“ IBM”指的是相同的实际实体。如果我们把这两个句子取为“Smith先生喜欢钓鱼。但是他不喜欢骑自行车”,共指消解指能够发现“他”指的是先前被发现的人“ M.Smith”。 |
| ** 关系抽取: 识别实体之间的关系<ref name="ecir2019" /> ,例如: | | ** 关系抽取: 识别实体之间的关系<ref name="ecir2019" /> ,例如: |
第110行: |
第110行: |
| * 文本工程通用体系结构(GATE)捆绑了一个免费信息抽取系统 | | * 文本工程通用体系结构(GATE)捆绑了一个免费信息抽取系统 |
| * Apache OpenNLP 是一个用于自然语言处理的 Java 机器学习工具包 | | * Apache OpenNLP 是一个用于自然语言处理的 Java 机器学习工具包 |
− | * OpenCalais 是来自 Thomson Reuters 的一个自动化的信息抽取网络服务(免费限制版本) | + | * OpenCalais 是来自 Thomson Reuters 的一个自动化的信息抽取网络服务(免费限制版本) |
| * Machine Learning for Language Toolkit(Mallet)是一个用于各种自然语言处理任务的基于 Java 的软件包,包括信息抽取。 | | * Machine Learning for Language Toolkit(Mallet)是一个用于各种自然语言处理任务的基于 Java 的软件包,包括信息抽取。 |
| * DBpedia Spotlight 是 Java/Scala 中的一个开源工具(以及免费的 web 服务),可用于命名实体识别和名称解析。 | | * DBpedia Spotlight 是 Java/Scala 中的一个开源工具(以及免费的 web 服务),可用于命名实体识别和名称解析。 |