更改

信息抽取 (查看源代码)

2021年8月28日 (六) 19:27的版本

删除28字节、 2021年8月28日 (六) 19:27

第42行：第42行：

==重要性==

−

在于以非结构化信息日益增多的时代，信息抽取的意义也愈发重大。万维网的发明者 Tim Berners-Lee 将现有的互联网称为文档网络 <ref name=":6">{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=Linked Data - The Story So Far}}</ref>，并主张更多的内容以数据网络的形式提供<ref name=":7">{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=Tim Berners-Lee on the next Web}}</ref>。在此之前，网络大部分是由缺乏语义元数据的非结构化文档组成的。这些文档中包含的知识可以通过转换为关系形式或使用 XML 标记使机器更容易处理和访问。一个监控新闻数据源的智能体需要具备信息抽取能力将非结构化数据变成可用于下游任务推理的结构化信息。I信息抽取的一个典型应用程序是扫描一组用自然语言编写的文档，并用提取的信息填充数据库<ref name=":8">Rohini Kesavan Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering],~~{{dead link|date=September 2020}}~~ Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>。

+

在于以非结构化信息日益增多的时代，信息抽取的意义也愈发重大。万维网的发明者 Tim Berners-Lee 将现有的互联网称为文档网络 <ref name=":6">{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=Linked Data - The Story So Far}}</ref>，并主张更多的内容以数据网络的形式提供<ref name=":7">{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=Tim Berners-Lee on the next Web}}</ref>。在此之前，网络大部分是由缺乏语义元数据的非结构化文档组成的。这些文档中包含的知识可以通过转换为关系形式或使用 XML 标记使机器更容易处理和访问。一个监控新闻数据源的智能体需要具备信息抽取能力将非结构化数据变成可用于下游任务推理的结构化信息。I信息抽取的一个典型应用程序是扫描一组用自然语言编写的文档，并用提取的信息填充数据库<ref name=":8">Rohini Kesavan Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering], Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>。

+

<br>

==任务与子任务==

薄荷

7,129

个编辑