更改

添加92字节 、 2020年4月25日 (六) 11:37
第20行: 第20行:     
==算法描述==
 
==算法描述==
 +
[[File:SetsEN.jpg|300px|right|thumb|根集展开为基本集]]
 
HITS算法的基本思想就是:每个网页的重要性由两个指标刻画——'''权威性 Authority'''和'''枢纽性 Hub''' 。例如当我们想要查找“集智俱乐部”有关的页面时候,显然[https://swarma.org/ 集智俱乐部]首页最具有权威性。但是,如果万维网上有一个网页H,该网页的功能就是给出全世界所有科技类的组织机构的主页链接,那么其中就会包含有[[集智俱乐部]]。那么H网页就会有较高的枢纽值,也就是说网页H可以链接到一些比较有权威性质的网站。
 
HITS算法的基本思想就是:每个网页的重要性由两个指标刻画——'''权威性 Authority'''和'''枢纽性 Hub''' 。例如当我们想要查找“集智俱乐部”有关的页面时候,显然[https://swarma.org/ 集智俱乐部]首页最具有权威性。但是,如果万维网上有一个网页H,该网页的功能就是给出全世界所有科技类的组织机构的主页链接,那么其中就会包含有[[集智俱乐部]]。那么H网页就会有较高的枢纽值,也就是说网页H可以链接到一些比较有权威性质的网站。
      −
在HITS算法中,第一步是检索与关键字最相关的页面。得到的结果集合为根集,即该集合可以通过基于文本的搜索算法获得。根集展开为基本集。基本集则由一个网页指向的其他网页和其他指向该网页的网页组成。基本集中的网页以及这些页面之间的所有超链接形成一个重点突出的子图。HITS计算仅在此聚焦子图上执行。据Kleinberg的结论,建立基础集的原因是要确保网页的绝对权威性。
+
在HITS算法中,第一步是检索与关键字最相关的页面。得到的结果集合为'''根集 root set''',即该集合可以通过基于文本的搜索算法获得。根集展开为'''基本集 base set'''。基本集则由一个网页指向的其他网页和其他指向该网页的网页组成。基本集中的网页以及这些页面之间的所有超链接形成一个重点突出的子图。HITS计算仅在此聚焦子图上执行。据Kleinberg的结论,建立基础集的原因是要确保网页的绝对权威性。
      第48行: 第49行:  
* 它计算每个文档的两个分数,即枢纽值和权威值,而不是一个PageRank。
 
* 它计算每个文档的两个分数,即枢纽值和权威值,而不是一个PageRank。
 
* 它是在“相关”文档的一小部分(“聚焦子图”或基本集)上处理的,而不是像PageRank那样处理所有文档。
 
* 它是在“相关”文档的一小部分(“聚焦子图”或基本集)上处理的,而不是像PageRank那样处理所有文档。
      
==计算==
 
==计算==
7,129

个编辑