计算传播


本网页提供了对于计算传播研究小组多年积累的研究成果以及当前正在关注的研究问题一个纵览,主要为对计算传播感兴趣的朋友提供导航与帮助。

计算传播概述

计算传播学是计算社会科学的重要分支。它主要关注人类传播行为的可计算性基础,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,(以非介入的方式)大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理,可以被广泛地应用于数据新闻和计算广告等场景。

计算传播是指数据驱动的、借助于可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学(王成军, 2015)。计算传播的应用有很多,例如数据新闻、计算广告、媒体推荐系统等,在过去的几年里,产生了深远的影响。数据新闻风靡全球,重要的国际媒体和国内媒体纷纷采用数据新闻,以开放数据、数据挖掘、可视化的方式提供信息;计算广告备受瞩目,不管是门户网站、搜索引擎,还是社交媒体,纷纷将计算广告当做数据变现的重要渠道,以可计算的方法对广告进行拍卖,实现媒体、内容和用户三方的匹配;媒体推荐系统成为个性化信息获取的重要途径,既包括传统的社交新闻网站,也包括今日头条这种后起之秀,它们纷纷采用协同过滤的方法为用户提供信息,建立了新的信息把关模式。

计算传播作为一种具有重要现实影响的传播行为,它的起源相对较早。例如,网飞公司(Netflix)在九十年代初以邮寄电影光盘作为商业模式,从传播的角度而言,这种商业模式使得用户可以更加自由地选择和观看视频内容,因而具有变革传统媒介消费行为的潜力。对于这个时期的网飞公司而言,很重要的一个问题就是邮寄时间的长短与用户的持续使用行为之间的关系。如果用户对于邮寄时间并不敏感,那么就可以将仓库建在地价低廉的郊区;如果用户对于邮寄时间非常敏感,那么网飞就需要在可承担的范围内将仓库建在距离市区近的地方。而调整仓库的地理位置的决定必须通过计算真实的用户数据才能决定。网飞仅仅是计算传播的一个例子。从更广义的视角来看,搜索引擎的基本社会功能也是计算传播。例如,谷歌的最根本的技术在于其pagerank算法,而这个算法的基本优化目标在于评估每一个网页内容的传播价值,而完成这一目标根本方法就在于计算。反过来经过计算的所得到的搜索结果质量更高,传播效果更好。

驱动计算传播的数据主要来自于人类使用数字媒体时记录下来的数字痕迹(digital traces)。数字媒体使得用户行为可以被详细记载,因而大量地累积了各种用户属性数据和行为数据。例如,当我们通过有线电视观看电视节目的时候、通过手机打电话的时候、通过互联网在网上冲浪的时候、查看微信朋友圈的时候,我们的行为都被电子媒体详细记录下来。数字化的信息不断地改变着传统的传播格局。有线电视服务提供商通过机顶盒获取的用户观看电视的行为对电视节目进行评价,计算不同电视频道在不同时间段的收视率。用户通过网飞网站订观看电影和电视节目的过程中,网飞记录了所有用户的详细数据,除了基本的用户信息、电视剧和电影信息,还包括用户的各种行为数据,例如对视频的订阅、观看、评价、搜索、收藏等。

可计算的方法使得沉睡的数据宝藏开始觉醒。随着计算技术的发展,人类计算能力不断提高,可以分析和挖掘的数据规模不断扩大。统计、机器学习、自然语言处理等数据挖掘技术更广泛地应用到计算传播的过程当中。仍然以网飞为例,基于所积累的丰富数据,网飞建立了高效的推荐系统。为了更有效地提高其推荐系统的推荐效果,网飞举办了两次轰动全球的百万大奖比赛。来自全世界160多个国家的参赛者采用机器学习的方法对网飞的用户数据进行分析,经过三年时间成功地解决了一个巨大挑战:为已有评级的网飞用户预测其对新影片的喜好。计算技术的提高有时候需要深入到模型的高度。例如,谷歌放弃了将一个个网页看作是孤岛的思维方式,转而将这些网页看做网络当中的节点,节点之间由超链接(hyperlink)连接起来。pagerank算法其实质是一个崭新的网络模型。搜索引擎将全世界的网页构成的庞大网络作为数据。毫无疑问这种数据规模是非常大的,对这些数据进行计算所需要的计算量也是非常大的。但是与数据量和计算量相比,谷歌的例子告诉我们建立一个高效的模型更加重要。

计算传播作为一个崭新的研究领域,需要研究者投入更多的注意力。分析计算传播应用、从传播学的角度研究计算传播的实际问题具有不可忽略的意义,反过来讲,分析和总结计算传播学的研究方式,对于传播学自身的发展而言也具有重要意义。本文以上内容对于计算传播的概念、特点和应用进行了简单介绍,在以下内容当中,我们将首先从研究脉络的角度梳理计算传播的起源,然后从一个计算传播的实际项目“新闻地图”出发,进一步介绍计算传播以及计算传播学的研究方法和意义。

作为计算社会科学的计算传播学

虽然计算传播应用早已存在,但是作为一个概念,计算传播和计算传播学的提出主要源于计算社会科学的发展。直到计算社会科学成为研究热点之后,计算传播作为一个概念才正式被提出(王成军, 2015; 祝建华 et al., 2014)。2009年,社会科学研究者David Lazer、Alex Pentland、Sinan Aral、Nicholas Christakis、Noshir Contractor、James Fowler、Myron Gutmann、Devon Brewer等人与作为计算机科学家的Lada Adamic以及作为网络科学研究者的Albert Barabasi在《科学》杂志上发表了一篇题为“计算社会科学”的论文,开启了计算社会科学的研究热潮(Lazer, Pentland, Adamic, & Aral, 2009)。Lazer等人指出随着用于研究的数据不断增多以及人类的计算能力不断增强,采用计算作为研究手段的社会科学已经形成,尤其需要强调的是这个研究领域的一个主要特点是采用网络科学的研究方法分析社会科学的研究问题。 无独有偶,在Lazer等人2009年发表这篇文章之前,网络科学的另外一个主要研究者Duncan Watts于2007年就在《自然》杂志上发表题为“二十一世纪的科学”一文(Watts, 2007)。Watts认为社会科学是二十一世纪最重要的科学。我们现代社会所面临的绝大多数问题是社会科学问题。社会科学研究者之所以没有发展出类似物理学和生命科学一样完善的理论框架是因为社会科学研究是最难的。社会现象卷入了海量的异质性的个体的相互互动,以致于变得非常复杂。幸运的是网络科学的研究开启了一个新的研究方向,但是网络科学需要大量的实证数据,而基于互联网的传播恰好提供了新的两种新的研究方式:一是各种各样的“数字足迹”(网络聊天、发博客、发微博、加标签、发邮件等),另外一个是互联网实验。基于以上理由,Watts提出“如果处理得当,基于互联网传播产生的数据和互动性将会变革我们对于人类集体行为的认识”(Watts, 2007)。

根据对于计算社会科学一词的引文网络分析,研究者发现计算社会科学方兴未艾、处于指数增长的阶段(王成军, 2015)。自从Lazer等人2009年发表其重要论文之后,计算社会科学类的论文数量和应用数量不断增长,且大多数论文发表在《科学》、《自然》等综合性期刊以及各个学科最好的期刊上。从引文网络的结构而言,计算社会科学研究已经形成了一个紧密的研究领域。一直以来,计算方法同社会科学的结合是通过计算机模拟(多主体建模)进行的(Axelrod, 1997; Gilbert, 2008; Gilbert & Troitzsch, 2005),网络科学出现之后,因其与真实的人类行为数据的紧密结合而成为更为重要的研究范式。社会系统如同生物系统、金融系统等一样是一个复杂系统,社会现象充满了复杂性,因而需要采用复杂性科学的研究视角进行分析(Mitchell, 2011)。正因为人们总是生活在各种网络当中,而且网络恰好为各种复杂的社会现象的结构提供了一个数学表达,因而采用网络科学的视角对于分析社会现象具有重要意义,也是基于这个原因,计算社会科学现阶段最主要的研究主要是基于网络科学展开的(王成军, 2015)。

社会科学家开始大量地使用社会网络数据进行科学研究(Miller, 2011),例如Bollen等人采用推特的数据进行情感分析,发现“冷静”这一种情绪可以较好地预测股票的涨落(Bollen, Mao, & Zeng, 2011)。Ginsberg等人采用谷歌的搜索数据分析了人们检索与流感相关的词语的时间序列,通过机器学习的方式预测人类大规模流感的爆发,可以使人们提前两周预知流感的爆发(Ginsberg et al., 2009)。

Eagle等人采用英国的手机数据构建的传播网络,研究发现城市节点在传播网络的多样性与城市社会经济发展指数之间具有非常好的正相关的函数关系,由此可能证明传播行为对于经济发展的重要性(Eagle, Macy, & Claxton, 2010)。 Bond等人使用Facebook作为网络实验平台研究美国大选,liu'bai'wan六百多万人参与了实验,结果证明社交网路传递的信息的影响力远大于信息的直接传播,强关系对于人类社会网络里的行为传播具有重要意义(Bond et al., 2012)。

当人类传播行为的数据构成了计算社会科学的重要基础的时候,深入认识计算传播学的时机终于到来。祝建华等人总结了计算社会科学在传播学的各种应用(祝建华 et al., 2014),沈浩等分析了复杂网络和社会计算对于传播学研究的意义(沈浩, 杨璇, & 杨一冰., 2014),王成军(2015)系统回顾了计算社会科学发展,并给出了计算传播学的定义:“计算传播学是计算社会科学的重要分支。它主要关注人类传播行为的可计算性基础,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,(以非介入的方式)大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理,可以被广泛地应用于数据新闻和计算广告等场景”。在此基础上2015年,第一本计算传播学相关的图书《社交网络上的计算传播学》出版(许小可, 胡海波, 张伦, & 王成军, 2015)。

计算传播学的分析基础在于人类传播行为的可计算性。

首先,网络科学以关系来度量物理世界和社会现实,而这些稳定的关系(表现为网络中的链接)可以成为人类传播行为中可计算性的基础。人类传播行为本身的丰富性和复杂性为计算传播学研究提出了重要挑战。例如, 因为传播现象包含了大量的交互行为,采用网络研究视角成为理解传播现象的必由之路。

其次,数据科学的发展恰好为计算传播学的发展提供了理想的工具。大规模的数字化指纹(digital traces)为人类传播行为分析奠定了基础。计算传播学是建立在丰富的人类传播行为的数据之上的,而收集和分析这些传播行为数据就成了计算传播学的主要工作。因此,传播学亟需走出传统的研究套路,培养研究者抓取、分析可视化、大规模、电子化数据的能力。

主要研究问题

集体注意力流

 

随着人类进入信息时代,数据和信息的进一步泛滥反而促使了人类的注意力成为了一种稀缺。注意力经济则是将注意力作为一种稀缺资源,研究它的分配和交换。然而,我们关注更多的则是从人机关系的视角来看,注意力资源起到了一种什么样的作用?答案是,注意力可以比拟为一种“能量流”,而计算机程序(网站、APP、应用等)则可以看作是竞争能量流的物种。有关这一观点的详细讨论,请参看集智俱乐部的新书走近2050

 

而另一方面,我们每个人在互联网上的行为都已经被社交媒体大数据所记录,这就使得我们可以获得有关人类群体的注意力及其流动的数据。历史上,惠普实验室的Huberman研究组早在2009年就提出了Collective attention一词来描述互联网上大规模群体的注意力分配,并主张运用大数据方法来定量研究。

进一步,本研究组早在2013年就开始运用我们独创的开放流网络的方法研究集体注意力的流动

更多详情请参看集体注意力词条。


注意力流网络的性质

我们提出一个几何模型来定量刻画网络社区中注意力流的动态。使用点击作为注意力的代理变量。发现网上的论坛和新闻分享站点的注意力扩散呈现出非时变的“场”,其密度仅随着相对于场中心的距离而变化。这代表来自物理世界的注意力,随着时间的延长,旧的信息被新的信息排挤到离中心更远的地方,接受的点击越来越少,最终在场中消失。这个注意力场不但解释了信息片段上注意力的迅速消亡,而且能够预测快速增长的点击率与活跃用户数量之间的反比关系。


这里我们用点击作为注意力流的代理变量和网络结构来研究注意力的历时性变化状态。我们搜集了百万级用户在1000个论坛上两个月的浏览记录。在结构化的网络里,节点代表帖子 ,被研究的网络指标有帖子的数量N,用户数量UV和点击数PV。我们发现标度公式PV _ UV _1 , PV _ N_3 ,and UV _ N,这些标度指数总是大于1。这意味着网络在各个时点保持着自相似流结构,如大规模的网络更有生产性,在大的网络中平均每个用户会产生更多的点击。我们基于标度性质对所有论坛进行分层,使用修正过的Zipf 律来量化注意力网络中的共时流结构,并研究其与观察到的标度性质的关系。


我们发现注意力流在网络论坛形成了一个有向树形结构,这个结构反映了用户的历时性浏览行为。利用新闻分享网站的数据,我们构建了一个点击流网络,节点代表新闻,连边代表两个新闻间的转换(点击链接从一个新闻转到另一个新闻)。为了识别点击流的方向,我们将节点(Li)间的“流距离”定义为一个随机游走到达第i个节点的平均步数。可以观察到,Li与新闻的点击(Ci)以及新闻的年龄(Ti)相关。这三个变量有助于我们理解新闻在网络上热度的上升和消退。我们也发现随着时间的流逝,点击流网络维持着稳定的结构,造成用户和点击之间具有稳定的比值。这一普便的特征值被1000个论坛的数据证实,点击流网络的树形稳定结构揭示了用户网上浏览的历时性偏好。为检验假设,我们讨论了个体浏览行为的三种树状模型,并比较了和经验数据和模拟之间的结果。


网上社区作为人类大范围合作的平台日益重要,这些社区使人们能够通过搜索和分享专业技能以解决大家的问题。为了研究用户如何完成大量的知识生产任务,我们分析了Stack Exchange网站,构建了一个注意力流网络来模拟110个社区的增长,通过注意力网的链接动态来测量个体的回答策略。我们识别了两种策略:策略A是回答简单的任务来维持曝光度;策略B花费大量时间来回答困难的问题。两种策略都很重要:策略A降低了等待答案时间的中位数;策略B增加了答案的接受率。用户在一个社区内使用坚持一种策略。在另外一个社区内则转化成另外一种策略。社区增长的最佳状态是用户使用策略A和B的比例为2:1。


物理网络与注意力流网络的关系

随着当代社会中移动计算设备使用扩散,我们在物理时空和虚拟世界的运动轨迹之间的联系大大增长。利用十万人在30天内的匿名手机使用数据,我们构建了迁移网络和注意力网络来研究线上和线下人类行为之间的关系。我们发现人们在物理空间中的网络影响了人们注意力流网络形态。


用户行为与互联网发展

互联网的核心是互联网的掌控者创造的链接集合系统,帮助用户找到他们想要的网站。但是现实结果同预期有一定差距:在用户实际路径和链接之间存在严重的不匹配。对上网行为的经验研究发现产生不匹配的原因在于:互联网掌控者建立一个没有地理和文化边界的全球虚拟世界,但事实上用户倾向于选择在那些使用自身熟悉的语言的网站,这样网站就以语言被分成多种群体。我们称这种现象为选择性导向,由当地搜索引擎驱动。


为了评估推特上关于社会运动主题公共讨论的质量,理解长时段讨论网络的结构特点和发展,我们分析了占领华尔街运动超过16天进程的消息,调查了不平等、情绪和网络讨论的稳定性之间的关系。结果表明:发起的讨论和接受的讨论都存在很高的不平等;接受者讨论的稳定性高于发起者;线上讨论的不平等均等化了稳定性;在个人层面,情绪和政治讨论间没有显著相关。这个操作化对评估公共讨论的质量和理解线上讨论和社会运动之间的关系都有帮助。

其它问题

  • 概念空间与集体注意力:无论是知识图谱还是概念地图,它们都更关注知识之间的连接。而结合考虑了人类集体注意力之后,概念空间将变为一种动态的网络,其中集体注意力流动不仅会沿着概念地图流动,更可能塑造概念网络。注意力与概念网络之间的关系可以类比为水流和河道之间的关系。
  • 注意力流动与自然语言处理:由于人类的注意力在每一个时刻只能关注一个事物对象,因此,注意力在时间中的流动就构成了一个序列。与此类似,人类的语言也是一种符号的序列。因此,注意力流动与语言之间存在着深层次的联系。于是,可以将自然语言处理技术应用到集体注意力的研究之中。初步进展包括将流网络中的流距离与深度学习中的Word2Vec技术作对比,参看Word2Vec与流网络
  • 运用注意力流网络预测社区发展:注意力流网络可以从宏观和联系的层面看到用户流量在系统各个部分之间的分配和转移。因此,如何运用机器学习的方法,运用注意力流网络来预测一个社区或网站的未来发展成为了一非常有意义的问题。
  • 注意力流网络的演化:河道可以引导水流的流动,水流反过来可以冲刷河道。我们关注集体注意力是如何沿着注意力网络演化和发展的,以及如何塑造注意力网络的。进一步,我们将尝试通过当前时刻注意力网络的状态预测未来网络的发展,例如什么网站将可能成为黑马,变得越来越重要?
  • 社会化推荐与注意力网络之间的关系:当前的移动互联网和社会媒体已经改变了人们的阅读习惯,因此注意力转移将会受到社会化推荐的重要影响。从模型的角度研究社会化推荐与注意力网络之间的关系将是一个重要的理论问题。


参考文献


复杂网络的深度学习

 

目前,随着大数据的积累使得深度学习技术有了非常重大的突破。而这种机器学习技术主要面对图像这种空间信息以及类似于人类语言的时间序列信息。

另一方面,复杂网络是各式各样的复杂系统的一种有力的抽象。而网络这种数据明显区分于图像和时间序列,却又介于图像和时间序列之间。当我们用临接矩阵表示网络的时候,它就可以被看作一种二维的图像;当我们用网络上的随机游走序列描述网络的时候,它就可以被看作一种时间序列数据。而无论是图像还是时间序列,都无法对网络进行简洁而准确的描述。

因此,我们考虑的课题是,既然深度学习在图像和时间序列数据上获得了如此重大的突破,为什么不能将这种技术应用到复杂网络上呢?但是,我们知道的一个难点就是:我们无法套用现成的深度学习算法来对网络进行学习,故而我们必须开发新的学习算法,以将深度学习技术应用到复杂网络上。

问题与进展

复杂网络的分类是一种比较简单、直观、实用性强的问题。如果我们将复杂网络看作是各种复杂系统的表示,那么我们可以用大量的数据训练深度网络,以便得到对不同网络的分类器。从而通过网络作为代理手段,我们便能对不同的复杂系统做分类。

详见复杂网络分类器

参考文献

  1. Niepert M, Ahmed M, Kutzkov K. Learning Convolutional Neural Networks for Graphs. 2016.


基础理论与方法

开放流网络

 

所谓的开放流网络,是一种加权有向网,并且具有源和汇以表示环境。这种网络是一种建模自然、社会中的开放流系统的一个有力理论工具,并且多年的积累使得我们形成了一套独特的研究方法论。如上图所示就是一个示意的流网络。

有关这种网络的进一步说明,请参看流网络

流网络的普适规律

通过分析积累的大量的流网络数据,我们找到了属于流网络的普适性规律,包括流网络的异速标度律流网络的异速生长律流网络的耗散律流网络的引力定律等,以及包括流量的无标度分布。更多详细内容请参看流网络词条

参考文献

流距离与网络嵌入

利用马尔可夫链的性质,我们可以定义流网络上任意两点的平均流距离。这样就可以为整个网络赋予一种几何结构。进一步,我们可以将整个网络嵌入到一个欧氏空间中,就可以为每一个节点赋予一个向量。这样,我们便可以直观而清晰地看到每个节点的重要性程度以及它们的聚类。

具体的流距离概念,请参看流距离,以及根据流距离的流网络嵌入

参考文献

异速生长律

 


异速生长律(也叫异速标度律,Allometric scaling)是很多复杂系统,包括生命、城市、国家都具备的一种规律,它刻画的是系统的宏观变量(如新陈代谢)随着系统规模(如生物体体重)生长而幂律生长的关系。有关异俗生长的详细表述,请参看异速生长律

早期的异速生长起源于生物学。后来人们发现这套规律也适用于城市、网站等其它复杂系统。本研究组在异速生长方面的研究已经有很长时间的历史。其中,主要分为了宏观系统的异速生长,以及网络,特别是流网络的异速生长这两部分。

宏观系统的异速生长

我们将宏观系统视为一个整体,研究系统两个宏观变量之间的幂律关系。主要从实证数据中找到这些幂律关系,并对幂律的指数进行系统化的分类研究。

例如,我们曾研究过国家的异速生长律,发现很多宏观变量都与国家的GDP呈现稳定的幂律关系。

再比如说,对于网络社区,用户总产出的活动事件就与用户数呈现超线性的幂律关系。

网络的异速生长

另外一类研究就是针对某一个或者某一类网络进行异速生长的研究。比如,我们花费了很大的精力研究流网络的异速生长律问题,包括异速标度律和异速生长律。

值得关注的研究者

开放的数据资源