更改

添加1,696字节、 2021年11月2日 (二) 20:31

无编辑摘要

第1行：第1行： +

{{#seo:

+

|keywords=知识发现,网络,社区结构

+

|description=构建出这样的网络，其节点为某一种信息资源，如图片，视频，帖子，新闻等，连边为用户在资源之间的流动

+

}}

+

==简介==

使用许多互联网数据，我们都可以构建出这样的网络，其节点为某一种信息资源，如图片，视频，帖子，新闻等，连边为用户在资源之间的流动。对于这样的网络，使用社区划分算法可以揭示信息资源之间的相关性，这种相关性的发现利用了用户对信息资源的处理信息，因此比起单纯使用资源本身携带的信息来聚类（例如，使用新闻包含的关键词对新闻资源进行聚类），是一种更深刻的知识发现。

+

==构建一个点击流网络==

假设我们手头有一批用户在一段期间内访问某类资源的数据。为了减少数据数理规模，我们一般只考虑最经常被访问的一批资源。因此在数据处理中，我们考虑UV（user visit）排名前V的资源，得到节点集合|V|，然后对于一个用户i在一段时间内（例如一天）内访问的资源，选择属于|V|的子集vi。如果我们有用户访问资源的时间，就可以按照时间上的先后顺序，从vi中产生vi-1条有向边。如果我们没有时间的数据，可以vi两两间建立联系，形成vi(vi-1)/2条无向边。因为后者对数据的要求比较低，下文中，暂时先考虑后者的情况。

+

对于一天内的n个用户做这个操作，最后将得到的总数为的连边里相同的边合并，得到|M|个不同的边，每条边上都带有权重信息。这样，我们就得到了V个节点，M条边的一个加权无向网络，反应的是在一天之内用户在主要的信息资源间的流动情况。在这个网络上，我们可以通过社区划分的算法对信息资源进行分类。

+

==网络社区划分的两种主要思路：拓扑分析和流分析==

第46行：第55行：

| Role-based community || 划分出在流中地位类似的节点 || |V|^3 || 有向有权单分量 || 结果不稳定

|-

−

|}

−

+

−

+

上表中的分量 component指在网络中的独立“团块”。有向网络里，分量有强弱之分，强分量（strong component ）中任意一个节点都可到达另外一个节点，弱分量 weak component中如果忽略连边方向，则构成强分量。无向网里分量没有强弱之分。在网络中识别强分量的算法有Kosaraju算法，Tarjan算法及其变形Gabow算法等。在这里不展开叙述。

−

~~上表中的分量（component）指在网络中的独立“团块”。有向网络里，分量有强弱之分，强分量（strong~~ component ）中任意一个节点都可到达另外一个节点，弱分量（weak component）中如果忽略连边方向，则构成强分量。无向网里分量没有强弱之分。在网络中识别强分量的算法有Kosaraju算法，Tarjan算法及其变形Gabow算法等。在这里不展开叙述。

接下来，我们逐一讨论拓扑分析和流分析中的各种算法的具体思路。

==拓扑分析==

−

===计算网络的模块化程度 Q-Modularity ===

−

Q-Modularity是一个定义在[-0.5,1)区间内的指标，其算法是对于某一种社区结构，考虑每个社区内连边数与期待值之差。实际连边越是高于随机期望，说明节点越有集中在某些社区内的趋势，即网络的模块化结构越明显。Newman在2004年提出这个概念最初是为了对他自己设计的社区划算法进行评估，但因为这个指标科学合理，而且弥补了这个方面的空白，迅速成为一般性的社区划分算法的通用标准。

Q的具体计算公式如下：

+

:<math>Q=\sum_{ij}{\left [ {\frac{A_{ij}}{2m}-\frac{k_{i}*k_{j}}{(2m)(2m)}}\right ]}\delta (c_{i},c_{j})=\sum_{i=1}^{c}(e_{ii}-a_{i}^{2})</math>

第73行：第76行：

上式已经清楚定义了<math>Q</math>，但在实际计算里，上式要求对社区及其内部节点进行遍历，这个计算复杂度是很大的。Newman(2006)对上式进行了化简，得到矩阵表达如下：

+

我们定义<math>S_{ir}</math>为<math>n*r</math>的矩阵，<math>n</math>是节点数，<math>r</math>是社区数。如果节点<math>i</math>属于社区<math>r</math>，则为1，否则为0。则有

第211行：第215行：

本文中我们总结了构建点击流网络之后，使用社区划分算法来对点进行聚类的不同思路。主要可以分为拓扑分析和流分析两种，从数学角度看，前者以频谱分析（Spectral analysis）为主要手段，后者以马可夫链（Markov chain）为主要建模工具。其中流编码算法较为独特，以信息论为主要工具。但值得注意的是，由于编码算法仍然是在处理流，所以本质上只是对马可夫链的一种处理。例如在图4中，编码算法没有能区分开节点，而是将所有的节点归为一个区，每个节点被访问的流概率恰好等于其Page rank值（与节点的大小和颜色深度成正比）。而我们知道Page rank也仍然是基于马可夫链的。这个时候平均每走一步要消耗2.71比特信息。

−

[[~~category~~:~~旧词条迁移~~]]

+

==编辑推荐==

+

===集智文章===

+

====[https://swarma.org/?p=24370 网络遇见大数据：在大型静态数据集中恢复动态网络]====

+

导语：我们正身处于大数据时代，从基础物理学到生命以及社会科学，几乎所有学科都孕育出了体量巨大的数据集，数以千计的变量纠缠其中，隐藏着许多我们未曾发现的关系与自然法则。近日发表在 Physics Reports 的综述文章，介绍了一个从大型静态数据集中恢复动态网络的统一框架，为挖掘大数据中蕴含的深层次信息提供了一种新思路。

+

====[https://swarma.org/?p=20479 推荐算法削弱了我们的判断力？让行为科学还你清爽信息流]====

+

导语：我们每天在网络平台上看到的信息，很大程度上是由运营平台的商业公司所编写的算法决定的。但在工具理性的背后，确实存在着网络用户对新闻平台的不满与抱怨：点开全文毫无意义的标题党、缺少“石锤”容易翻转的假新闻都在影响着网络媒介的生态。

+

2020年6月，一组来自柏林马克斯·普朗克人类发展研究所、布里斯托大学与哈佛大学法学院的研究者，从行为科学的角度分析了相关问题，并给出了他们的干预措施。这一研究成果发表在了 Nature Human Behaviour 上。

+

----

+

本中文词条由[[用户:薄荷|薄荷]]编辑，如有问题，欢迎在讨论页面留言。

+

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

薄荷

7,129

个编辑

更改

网络社区划分算法 (查看源代码)

2021年11月2日 (二) 20:31的版本