信息抽取


信息抽取 Information extraction (IE)指从非结构化和/或半结构化的机器可读文档和其他数字化文本中自动提取结构化信息。在大多数情况下,这种活动涉及到通过自然语言处理(NLP) 来处理人类语言文本。此外近期一些研究致力于处理多媒体文档,如图像/音频/视频/文档的自动注释和内容提取。也可以被视为信息抽取。


目前的信息抽取方法集中在确定的知识域中。例如,比如从商业新闻中抽取关于公司合并的信息。


首先定义一个描述公司合并的三元组:


[math]\displaystyle{ \mathrm{MergerBetween}(company_1, company_2, date) }[/math]


信息抽取,是从无结构文本:“昨天,总部位于纽约的 Foo 公司宣布收购了 Bar corp。”


广义来说,信息抽取的目标之一是为了下游任务在计算非结构化数据创造基础。具体来说,是允许基于输入数据的逻辑内容做逻辑推论(如关系预测)。结构化数据是来自选定知识域的,语义上定义良好的数据,可以根据类别和上下文进行解释。


信息抽取是一个较为上游的任务。它涉及的问题是设计文本管理的自动方法,不再局限于文本的传输,存储和显示。信息检索学科已经在应用许多自动化的方法[1],比如典型的统计方法,用于为大型文档集合建立索引和对文档进行分类。另一个互补的方法是自然语言处理(NLP) ,它解决了人类语言处理建模的问题,在处理大规模任务时取得了相当的成功。就难度和重点而言,信息抽取处理介于信息获取 Information Retrieval(IR)[1]NLP 之间的任务。对于IE任务的输入假设为,一组文档,其中每个文档都遵循一个模板,即,以类似于其他文档中的方式描述一个或多个实体或事件,但在细节上有所不同。例如,考虑一组关于拉丁美洲恐怖主义的新闻专线文章,每一条都被认为是基于一种或多种恐怖主义行为。我们还为任何给定的 IE 任务定义了一个模板,它是一个(或一组)案例框架,用于保存单个文档中包含的信息。对于恐怖主义的例子,一个模板应该有与恐怖主义行为的肇事者、受害者和武器相对应的位置,以及事件发生的日期。针对这个问题的 IE 系统需要“理解”一篇关于恐怖袭击的文章,找到与此模板中角色相对应的数据。


历史

信息抽取可以追溯到20世纪70年代末 NLP 的早期[2] 。早期的商业系统是20世纪80年代中期由卡内基集团公司为路透社建立的 JASPER 系统,其目的是为金融交易员提供实时的财经新闻。[3]


从1987年开始,一系列信息理解会议[4]加速着信息抽取任务的发展。MUC是一个基于竞赛的会议[4] ,其主要关注以下领域:

  • MUC-1(1987) ,MUC-2(1989) : 海军行动信息。
  • MUC-3(1991) ,MUC-4(1992) : 拉丁美洲国家的恐怖主义。
  • MUC-5(1993) : 合资企业和微电子学域。
  • MUC-6(1995) : 关于管理变革的新闻文章。
  • MUC-7(1998) : 卫星发射报告。


美国国防部高级研究计划局(DARPA)提供了大量的支持,他们希望将政府分析人员执行的日常任务自动化,比如扫描报纸以寻找与恐怖主义的可能联系。


重要性

在于以非结构化信息日益增多的时代,信息抽取的意义也愈发重大。万维网的发明者 Tim Berners-Lee 将现有的互联网称为文档网络 [5],并主张更多的内容以数据网络的形式提供[6]。在此之前,网络大部分是由缺乏语义元数据的非结构化文档组成的。这些文档中包含的知识可以通过转换为关系形式或使用 XML 标记使机器更容易处理和访问。一个监控新闻数据源的智能体需要具备信息抽取能力将非结构化数据变成可用于下游任务推理的结构化信息。I信息抽取的一个典型应用程序是扫描一组用自然语言编写的文档,并用提取的信息填充数据库[7]


任务与子任务

将信息抽取应用于文本是与文本简化问题联系在一起的,以便创建一个自由文本信息的结构化视图。总体目标是创建一个更容易机器阅读的文本来处理句子。典型的信息抽取任务和子任务包括:


  • 模板填充: 从文档中提取一组固定的字段,例如。提取肇事者、受害者、时间等。报纸上一篇关于恐怖袭击的文章。
    • 事件提取: 给定一个输入文档,输出零个或多个事件模板。例如,一篇报纸文章可能描述了多起恐怖袭击。
  • 知识库填充: 填充给定一组文件的事实数据库。通常数据库是三元组的形式,例如: 实体1,关系,实体2。
    • 命名实体识别: 利用现有的领域知识或从其他句子中提取的信息,识别已知的实体名称(用于人和组织)、地名、时间表达式和某些类型的数字表达式[8] 。一般来说,识别任务需要将一个唯一标识符分配给提取的实体。一个简单的任务是命名实体检测,其目的是检测实体没有任何实体实例的现有知识。例如,在处理”Smith先生喜欢捕鱼”一句时,命名实体检测将表示检测到”Smith先生”一词确实指的是一个人,但不一定了解(或使用)某个Smith先生,他就是(或”可能是”)该句所指的具体人。
    • 共指消解: 检测文本实体之间的共指和回指链接。在 IE 任务中,这通常局限于查找以前提取的命名实体之间的链接。例如,“ International Business Machines”和“ IBM”指的是相同的实际实体。如果我们把这两个句子取为“Smith先生喜欢钓鱼。但是他不喜欢骑自行车”,共指消解指能够发现“他”指的是先前被发现的人“ M.Smith”。
    • 关系抽取: 识别实体之间的关系[8] ,例如:
      • 人(PERSON)所属工作单位(ORGANIZATION)(摘自“ Bill为IBM工作”这句话。)
      • 人(PERSON)所处位置(LOCATION)(摘自“Bill在法国”这句话。)
  • 半结构化信息抽取,它是试图恢复某种信息结构的信息抽取方法的统称,这种信息结构在发布过程中已经丢失,例如:
    • 表提取: 从文档中查找和提取表[9][10]
    • 表信息抽取: 以结构化方式从表中提取信息。这比表格提取更复杂,因为表格提取只是第一步,而理解单元格、行、列的角色、表格内信息的链接和理解表格中的信息是表格/信息抽取所必需的额外任务。[11][12][13]
    • 注释提取: 从文章的实际内容中提取注释,以恢复每个句子的作者之间的联系
  • 语言和词汇分析
    • 术语提取: 为给定语料库寻找相关术语
  • 音频提取
    • 基于模板的音乐提取: 从给定曲目的音频信号中寻找相关特征,例如 A.Zils,F.Pachet,O.Delerue 和 f. Gouyon [14]自动提取复调音乐信号中的鼓音轨,WedelMusic Proceedings,达姆施塔特,2002。提取敲击音出现的时间索引,以表示音乐作品的基本节奏成分。


请注意,这一清单并非详尽无遗,而且信息抽取的并没有一个准确的定义,许多方法将 IE 的多个子任务结合起来,以实现更广泛的目标。IE 中经常使用机器学习、统计分析和/或自然语言处理。


非文本文档的信息抽取正成为一个越来越引人注目的研究课题,从多媒体文档中提取的信息现在可以像在文本中一样以高层次的结构表达。这自然导致了从多种文档和资源中提取的信息的融合。


基于万维网的应用

信息抽取已经是MUC 会议的焦点。然而,随着互联网的普及,人们更加需要开发能够帮助人们处理大规模在线数据的信息抽取系统。从在线文本执行 IE 的系统应该满足低成本、开发灵活性和易于适应新领域的要求。MUC 系统不能满足这些标准。此外,对非结构化文本执行的语言分析并没有利用 HTML/XML 标记和在线文本中可用的布局格式。因此,使用包装器为 IE 开发了不依赖于语言学分析的方法,这些包装器是一组高度精确的规则,可以提取特定页面的内容。事实证明,手动开发包装器是一项耗时的任务,需要高水平的专业知识。机器学习技术,无论是监督或无监督,已被用来自动归纳这些规则。


Wrappers 通常处理高度结构化的网页,如产品目录和电话目录。然而,当文本类型结构化程度较低时,它们就会失败,这在 Web 上也很常见。最近在自适应信息抽取方面的研究取得了进展,这些系统可以处理不同类型的文本,从结构良好的到几乎完全无结构自由书写的文本——这是通常的包装器无法处理的信息——包括混合类型。这样的系统利用浅层的自然语言知识,因此也可以应用于结构化程度较低的文本。


最近的一个发展是基于视觉信息的信息抽取[15][16] ,它依赖于在浏览器中渲染网页,并根据渲染网页中区域的接近程度创建规则。这有助于从复杂的网页中提取实体,这些网页可能表现出一种视觉模式,但在 HTML 源代码中缺乏一种可识别的模式。


方法

下面的标准方法现在已经被广泛接受:

  • 手写的正则表达式(或嵌套的正则表达式组)
  • 使用分类器
    • 生成式: 幼稚的贝叶斯分类器
    • 判别式: 最大熵模型,如多项式Logit模型
  • 序列模型
    • 递归神经网络
    • 马尔可夫模型
    • 条件马尔可夫模型(CMM)/最大熵马尔可夫模型(MEMM)
      • 条件随机场(CRF)通常与 IE 结合使用,用于从研究论文[17]中提取信息以提取导航指令等各种任务。[18]


IE 还有许多其他方法,包括混合方法,它们结合了以前列出的一些标准方法。


开源资源与服务

  • 文本工程通用体系结构(GATE)捆绑了一个免费信息抽取系统
  • Apache OpenNLP 是一个用于自然语言处理的 Java 机器学习工具包
  • OpenCalais 是来自 Thomson Reuters 的一个自动化的信息抽取网络服务(免费限制版本)
  • Machine Learning for Language Toolkit(Mallet)是一个用于各种自然语言处理任务的基于 Java 的软件包,包括信息抽取。
  • DBpedia Spotlight 是 Java/Scala 中的一个开源工具(以及免费的 web 服务),可用于命名实体识别和名称解析。
  • 自然语言工具包是一套用于 Python 的符号和统计自然语言处理(NLP)的库和程序


参见

  • 本体提取
  • 人工智能应用
  • 概念挖掘
  • DARPA TIPSTER 计划
  • 企业搜索
  • 面搜索
  • 知识提取
  • 命名实体识别
  • Nutch
  • 语义翻译
  • 文本挖掘
  • Web 抓取
  • 开放信息抽取
  • 数据提取


列表


参考文献

  1. 1.0 1.1 FREITAG, DAYNE. "Machine Learning for Information Extraction in Informal Domains" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
  2. Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Automatic Extraction of Facts from Press Releases to Generate News Stories". Proceedings of the third conference on Applied natural language processing -. pp. 170–177. doi:10.3115/974499.974531. https://www.aclweb.org/anthology/A92-1024. 
  3. Cowie, Jim; Wilks, Yorick (1996). Information Extraction. p. 3. http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf. 
  4. 4.0 4.1 Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008.
  5. "Linked Data - The Story So Far" (PDF).
  6. "Tim Berners-Lee on the next Web".
  7. Rohini Kesavan Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering, Cambridge U. Press, 14(1), 2008, pp.33-69.
  8. 8.0 8.1 Dat Quoc Nguyen and Karin Verspoor (2019). "End-to-end neural relation extraction using deep biaffine attention". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  9. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "A framework for information extraction from tables in biomedical literature". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0.
  10. Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
  11. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "A framework for information extraction from tables in biomedical literature". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0.
  12. Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). "Disentangling the structure of tables in scientific literature". 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14.
  13. Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
  14. A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
  15. Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction". arXiv:1506.08454 [cs.CL].
  16. Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "Visual Web Information Extraction with Lixto": 119–128. CiteSeerX 10.1.1.21.8236. {{cite journal}}: Cite journal requires |journal= (help)
  17. Peng, F.; McCallum, A. (2006). "Information extraction from research papers using conditional random fields☆". Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
  18. Shimizu, Nobuyuki; Hass, Andrew (2006). "Extracting Frame-based Knowledge Representation from Route Instructions" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.


其他链接


编辑推荐

知识抽取与挖掘

知识图谱的意义在于构筑行业的场景数据模型,帮助发现和学习数据之间的关联规律,理解事物全貌,赋能各行各业的智能化发展。知识图谱需要庞大的数据作为支持,大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术,可以从一些公开的网络半结构化、非结构化数据和结构化数据库的数据中提取出实体、关系、属性等知识要素。

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘。


自然语言处理入门

课程对基本的自然语言处理进行了学习规划于介绍,并带你入门自然语言处理。


产学结合:自然语言处理及其应用

本课程中,讲解自然语言处理的最新学术理论与业界实践,涉及语言模型、机器翻译、情感分析、文本理解、文本生成五大主题。



本中文词条由林登万审校,薄荷编辑,欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。