计算传播学

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

中文名称:计算传播学 拼音:ji suan chuan bo xue 外文名称:Computational Communication Research 基本概念条(长)

1. 定义和定性叙述

计算传播学是计算社会科学一个重要分支,它主要关注人类传播行为可计算的基础问题,以传播网络分析、传播文本挖掘、数据科学等作为主要的分析工具,大规模地收集并分析人类传播行为背后的模式或法则,并分析模式背后的生成机制以及基本原理,可以被广泛地应用到新闻学研究、数据新闻和计算广告等场景。狭义的计算传播是指数据驱动的、借助于可算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学。

2. 名称来源、又名

计算传播学(英文:computational communication research)起源于计算社会科学(英文:computational social science)。2009年,Lazer等一批社会科学家、计算机科学家和物理学家在《科学》杂志上发表题为 《网络中的生活:计算社会科学时代的到来》的论文,宣告计算社会科学的诞生,提出发展计算社会科学的主要逻辑在于我们就生活在网络之中,例如发邮件、打电话、在线支付。这些网络化的行为以数字化痕迹的方式被记录下来。计算社会科学是一个正在涌现的研究领域,强调采用计算方法研究社会科学,在利用人类社会不断增强的数据收集和分析能力方面。在21世纪,计算社会科学具备前所未有的广度、深度和规模,为研究者提供了一个理解复杂社会系统的崭新机会。采用可算方法、基于大规模的互联网上的人类传播行为数据为代表的传播学研究属于计算社会科学这一研究传统。

3. 起源、发展和现状

计算传播学的概念起源于是计算社会科学的发展。计算社会科学以分析社会系统的复杂性作为主要研究范式。社会系统作为一个复杂系统,本身包含了多重本体以及他们之间众多的联系,既有从微观到宏观的联系,也有从宏观到微观的影响,这造就了社会现象所特有的复杂性。计算社会科学研究主要关注复杂社会系统中的社会现象、社会行为、社会 组织的涌现,例如居住隔离、合作、互惠、社会规范、市场、国家。计算社会科学中的“涌现”往往表现为一种群体智慧,它是通过海量的异质性个体之间的互动而在群体层面出现的结果。作为一种崭新的研究范式,计算社会科学从数据基础和计算方法两个层面丰富了人们对于 社会现象的认识。 互联网上的人类传播行为是驱动计算社会科学发展的一个主要动力。与自然科学相比,社会现象卷入了海量的异质性个体的互动行为,因而异常复杂并且难以预测。通常社会科学研究的数据往往是用户报告的、静态的、小规模数据。互联网行为数据和大规模的互联网实验却提供了另外一种可能性。邓肯・瓦茨认为互联网传播数据将会变革我们对于群体人类行为的理解,并产生了一种新的社会科学,邓肯・瓦茨称之为“二十一世纪的科学”,也就是后来广为人知的“计算社会科学”。

Shah等人曾提出目前社交数据多为传播文本数据,并且与图形数据和视频数据相比,传播文本数据相对容易分析,因而计算社会科学将传播文本数据作为关注焦点之一,并认为这意味着计算传播学(computational communication science)的兴起。Cohen等人2011年就提出采用计算机科学技术发展新闻学的主张。发展计算传播学研究已经成为计算社会科学在新闻传播领域主要工作。2014年祝建华等人回顾和讨论了计算社会科学在新闻传播领域的应用,按照经典的5W模型,系统介绍了计算社会科学在传播者、渠道、受众、内容、效果 五个领域的主要应用案例(祝建华等,2014:p.3-13)。2014年,计算传播学作为一个正式的研究领域被提出,王成军从计算社会科学的视角论述了计算传播学的理论框架,强调了寻找人类传播行为“可计算的基因”作为计算传播学发展的基础,以传播网络分析和传播文本挖掘作为主要的研究方法。2015年第一本计算传播学相关的图书《社交网络上的计算传播学》出版,这本书系统总结了采用计算传播学的视角进行社交网络研究的方法、理论和进展。2015年,南京大学成立了计算传播学实验中心,2016年第一届计算传播学论坛召开。计算传播学研究社群的涌现及其建制化发展有助于建立身份认同、促进科研合作、增强 学科间对话、运用群体智慧解决现实和理论问题。

4. 奠基人和主要代表人物

计算传播学的主要奠基人来自于多个方面,首先是计算社会科学领域的领军人物,尤其是邓肯・瓦茨;其次是在传播学领域较早开展互联网数据挖掘的研究者,例如祝建华等人;此外,还有在数据新闻、计算广告等领域较早的开拓者,比如精确新闻创建者菲利普・迈耶。

5. 标志性著作或主要著作

计算传播学领域的主要著作为《社交网络上的计算传播学》、《数据新闻大趋势》、《精确新闻报道》、《计算广告》等书。具体如下: 1. 许小可,胡海波,张伦,王成军(2015)社交网络上的计算传播学. 北京:中国科学出版社. 2. 罗杰斯(2015). 数据新闻大趋势: 释放可视化报道的力量. 北京:中国人民大学出版社. 3. 菲利普・迈耶(2015). 精确新闻报道. 北京:中国人民大学出版社. 4. 刘鹏,王超. (2015). 计算广告. 北京:人民邮电出版社. 5. 戎文晋,张茜. (2015). 互联网广告的市场设计.北京: 电子工业出版社. 6. 大卫・伊斯利, 乔恩・克莱因伯格. (2011). 网络、群体与市场:揭示高度互联世界的行为原理与效应机制. 北京:清华大学出版社.

6. 基本内容

一、计算传播学的定义首先强调的的人类传播行为可计算的基础。人类的传播行为、传播过程和传播技术构建了一种社会复杂系统。海量的数据和不断提升的计算能力为回答人类传播学的可计算性问题提供了重要条件。以新闻扩散研究为例,1945年Miller 在《美国社会学评论》发表题为“一个大众传播研究笔记:我们的社区怎样知道罗斯福总统的死讯”一文。这一研究传统经历了由盛到衰,直到社交媒体发展起来又重新复兴的过程。新闻扩散研究主要关注人们通过何种渠道获知新闻,尤其是社交和(大众)媒体在其中所扮演的角色。然而受到传统研究方式的限制,研究者只能采用调查问卷的方式请受访者回忆并填写相应情况,所研究的议题也往往是总统遇刺等突发新闻事件(往往需要被动地组织研究),因而无论所选取的新闻事件的数量还是受访者的数量均有限,这在很大程度上限制了这一研究传统。而计算社会科学的方法和工具则可以帮助新闻扩散研究突破选题和样本的限制。王成军利用新浪微博上的大规模信息扩散数据,采用网络门槛来度量社交影响。网络门槛起源于格兰诺维特所提出的门槛理论。门槛理论假设个体是否参加某种行为的决定主要取决于他或她的朋友参与的比例。该研究验证了“J”形曲线理论;并且发现信息扩散的深度可以调节社交作用的影响,那些扩散深度低的信息往往是局部社区的信息(无法穿透社区的束缚),社交作用(以网络门槛度量)将限制它的扩散,例如传播一个普通人生日信息的人往往是他或她最亲密的朋友,社交作用很强,但扩散规模很小。

二、计算传播学强调了对海量数据的收集、分析和挖掘。驱动计算传播的数据主要来自人类使用数字媒体时记录下来的数字痕迹或数字指纹。例如,当我们通过有线电视观看电视节目的时候、通过手机打电话的时候、通过互联网使用社交网站的时候,我们的行为都会被数字媒体详细地记录下来。这些海量的人类传播行为数据和媒体使用记录的数据构成了采用计算方法研究人类传播行为的基础。

三、计算传播学强调对于基于数据的清洗、分析、挖掘等计算的过程。计算传播学主张利用强大的计算工具研究社会问题,例如自动化信息提取、网络分析、地理空间分析、复杂性模型、社会模拟模型等。在传统的内容分析中,需要编码员人工识别文本中的信息,采用文本挖掘的方法,可以自动地提取社会事件的属性,如事件、地点、参与者、文本的主题、文本的情感等。

四、计算传播学强调了将大问题、大理论和大数据相结合。驱动计算传播学发展的主要力量来源于人类传播行为当中的重大问题,发展计算传播研究有助于解决新闻产业变革过程中发现的理论问题和实际困惑。就理论视角而言,计算传播学更加倾向于从复杂性的角度看待传播行为和传播过程。这种复杂性的思维方式需要研究者具备对复杂系统分析的能力和方法。值得注意的是,2017年瓦茨再次发表多篇反思计算社会科学的文章,提倡计算社会科学应该更加强调以寻找 解决方案为导向(solution-oriented),因为社会科学存在太多的相互之间不一致的理论,而这些理论往往不能很容易地验证。寻找解决方案为导向对于新闻产业非常有价值,以新闻推荐系统为例(比如今日头条),如何实现更为精准的新闻推荐亟需寻找更加有价值的视角、方法和理论,可以预见经过新闻传播产业检验的理论也将具有更强的解释力和预测力。

五、计算传播学强调了计算社会科学在理论建构方面所追求的抽象阶梯,即一个好的研究必须是重大的社会问题驱动的,并且能够找到好的数据作为支撑(第一个阶梯);要能够从数据当中挖掘出行为的模式 (第二个阶梯);最好可以阐明模式背后对应的机制(第三个阶梯);并尝试理解背后的基本原理(第四个阶梯,往往难以企及)。从数据、模式、机制、原理这样一个不断提高的抽象的阶梯,可以衡量不同的研究所处的状态和水平,为衡量计算传播学的研究提供了一个基本的标准。

7. 同邻近学科或分支学科的关系

计算传播学是传播学研究当中的一个研究领域,是计算社会科学的一个重要分支,因此它同时隶属于传播学和计算社会科学。计算传播学的学科基础包括数据科学、网络科学、计算语言学等学科,与数学、物理学和计算机科学具有紧密的关系。

区别于这些邻近学科或分支学科之处在于计算传播学首先关注的是采用计算方法解决人类传播行为研究中的重要问题。计算传播学研究过程中所采用的各种数据获取方法、计算方法、建模方法都围绕着回答人类传播行为中的重要研究问题这一核心。

8. 重要学术机构和刊物

2015年2月,南京大学新闻传播学院计算传播学实验中心经过半年多的筹备后正式成立; 2016年1月国际传播学会(ICA)计算方法兴趣小组建立; 2016年9月25日第一届计算传播学论坛在南京成功举办,会议设立计算传播学学术委员会; 2017年全国社会媒体处理大会(SMP)下设计算传播学专业委员会。

9. 意义和影响

计算传播的应用有很多,例如数据新闻、计算广告、媒体推荐系统等。计算传播学在过去的几年里,产生了深远的影响。数据新闻风靡全球,重要的国际媒体纷纷采用数据新闻,基于开放数据、数据挖掘与可视化的方式为公众提供信息和经过数据分析所发现的知识;不管是门户网站、搜索引擎、社交媒体,纷纷将计算广告作为数据变现的重要渠道,以计算方法对广告进行拍卖,实现媒体、用户、广告主三方利益的匹配;媒体推荐系统成为个性化的信息获取途径,不管是传统的社交新闻网站,还是今日头条等后起之秀,纷纷采用协同过滤的方式为用户提供信息。

10. 参考文献

Watts, D.J., "A twenty-first century science," Nature 445 (127) (2007):p.489.

Lazer, D., et al., "Life in the network: The coming age of computational social science," Science 323 (5915) (2009):pp.721-723. Greenberg, B.S., "Person-to-Person Communication in the Diffusion of News Events," Journalism Quarterly 41 (4)(1964):pp.489-494. Watts, D.J., "Should social science be more solution-oriented?" Nature Human Behaviour 1 (2017):p.0015.

王成军.计算传播学:作为计算社会科学的传播学[J].中国网络传播研究,2014,第193-206页.

王成军.计算传播学的起源、概念和应用[J].编辑学刊,2016(3),第59-64页. 祝建华、彭泰权、梁海、王成军、秦洁、陈鹤鑫.计算社会科学在新闻传播研究中的应用[J].科研信息化技术与应用,2014(2), 第3-13页.


王成军 (2017).计算社会科学视野下的新闻学研究:挑战与机遇[J]. 新闻大学, 4:26-32

11. 推荐书目

许小可、胡海波、张伦、王成军 (2015)社交网络上的计算传播学. 北京:中国科学出版社.

撰稿:王成军 审稿:巢乃鹏


http://nbviewer.jupyter.org/github/computational-class/cjc/tree/gh-pages/slides/


0.about2cjc.slides.html
0.common_questions.slides.html
00.Opening speech.pdf
01.intro2cjc.slides.html
01.jupyter_notebook.slides.html
01.slides.slides.html
02.bigdata.slides.html
03.graphlab.slides.html
03.python_intro.slides.html
03.rpy2.slides.html
04.PythonCrawlerGovernmentReport.slides.html
04.PythonCrawler_beautifulsoup.slides.html
05.PythonCrawler_tianya_threads.slides.html
06.data_cleaning_Tweets.slides.html
07.data_cleaning_occupy_central_news.slides.html
08.analyzing_tianya_thread_network.slides.html
08.sklearn_stock_market.slides.html
09.machine_learning_with_sklearn.slides.html
10.text_minning_gov_report.slides.html
11.sentiment_classifier.slides.html
12.topic-models-with-graphlab.slides.html
12.topic_models.slides.html
13.recsys_intro.slides.html
14.matrix-factorization-demo.slides.html
14.millionsong.slides.html
14.movielens_recommendation-systems.slides.html
15.network_science_intro.slides.html
16.network_science_models.slides.html
17.networkx.slides.html
18.network_analysis_of_tianya_bbs.slides.html

用AI穿透你的注意力壁垒——计算传播学笔记

作者:Yenan

  • 1.如何理解计算传播学

(相关传播的数据 -> 通过计算方法(例如统计、机器学习、自然语言处理、深度学习) -> 传播上的新发现)

  1. 1) 从产业应用的角度理解
计算传播学:计算传播指数据驱动的、借助于可计算方法所进行的传播过程;计算传播学指分析计算传播现象的研究领域。
计算传播学的典型应用eg:Netflix记录并积累用户行为数据(数据驱动,借助可计算方法),分析用户与网站的交互行为,根据用户个性化需求,对用户进行个性化的视频推荐(进行的传播过程)。
  1. 2) 从计算社会科学的角度理解
计算社会科学:采用可计算的方法研究社会科学的一个学术分支。数据驱动(大规模的数据驱动和分析),利用计算方法达到研究目标,从而理解社会科学(个体群体的行为模式)。
计算社会科学的主要研究脉络:网络科学,多主体建模等。
  1. 3) 定义计算传播学
计算传播学(computational communication research)是可计算社会科学(computational social science)的重要分支。
  • 主要关注人类传播行为的可计算性基础
  • 以传播网络分析、传播文本挖掘、数学建模等为主要分析工具
  • 以非介入地方式大规模地收集并分析人类传播行为数据
  • 挖掘人类传播行为背后的模式和法则
  • 分析模式背后的生成机制与基本原理
  • 可以被广泛地应用于数据新闻和计算广告等场景
  • 注重编程训练、数学建模、可计算思维
  • 2. 21世纪科学的特征
  1. 1) 互联网大数据
  2. 2) 网络科学 (network science): 专门研究复杂网络系统(由人、影响力和技术组成的网络,eg. 金融网络,社交网络,电脑网络,交通网络等)的定性和定量规律的一门崭新的交叉科学。
Eg. 网络系统的例子:金融网络系统etc

金融系统.png

结合互联网大数据及网络科学,我们就可以进行诸多课题的研究,比如选举行为可以通过社交网络传染;通过网络数据可以进行用户情感分析;预测股票市场;预测选举结果;使用搜索引擎数据预测流感等
  • 3. 网络科学相关知识及网络科学的经典问题
(备注:部分内容为非视频内容,此处为通过视频介绍后的拓展)
好文推荐:从人人网看网络科学的X个经典问题
http://www.cnblogs.com/guolei/p/3513496.html
  1. 1) 网络科学基本概念
节点(node),网络中的节点
连边(edge, link),连接各个网络节点的边
  1. 2) 网络科学经典问题
链路预测(link prediction):预测网络中的哪些节点有“不存在但应该存在的边”或“现在不存在但以后可能存在的边”。
社团发现(community detection):发现网络中的潜在社团(社团通常指网络中比较稠密(dense)的部分,例如社交网络中几个人组成的一个小团体)
中心性(centrality):度中心性(degree centrality)指节点的邻居个数;介数中心性(betweenness centrality)衡量信息传输的桥梁作用(eg.介数中心性高的节点/边一般处于网络的“交通要道”)
复杂网络的拓扑特性(Network Topology, 即用传输介质互连各种设备的物理布局)

物理布局.png

(a) 小世界(SWN),例如社交网络中的“六度分割”(你和任何一个陌生人之间所间隔的人不会超过六个)
(b) 无标度(SFN), 度数(节点的邻居个数)高的节点是很少的,度数低的节点占绝大多数。
拓展:以一定概率随机重连规则网络中的连边,可以大幅度降低网络的平均路径长度,以有效增加网络的聚类系数(Watts and Strogatz(1999),见下图)。

1999.png

网络的对比(alignment)与去匿名化(de-anonymization):网络对比指通过对比不同网络节点的相似特征,找出A节点在不同网络上的对应点(以社交网络为例,比如A在QQ上用名字x,在微博上用名字y,通过网络对比技术就可以将名字x和名字y对等起来,因为它们在真实世界里是同一个人A)。网络对比的一大应用是去匿名化(比如A在QQ上用的是真名x,在微博用的是虚假名称y。A用y的名字在微博发帖产生了较大的社会影响,通过网络的对比,就可以找到A在QQ的名字x,最后找到真实世界的A的信息)。
  • 4. 科学与理论的要素与境界
  1. 1) 理论即逻辑的组合
  2. 2) 理论的沙漏模型
学术论文的结构;以小见大;问题驱动;理论驱动;兴趣驱动;研究设计
  1. 3) 形成理论的七要素
社会现实;理论传统;理论框架;理论假设;论据;论证;理论
  1. 4) 理论的四境界
原理;机制;模式/定律;数据
  • 5. 可计算性(computability)与可计算化(computational)
  1. 1) 可计算性:关注事物本身可以被计算的程度(是否可以用算法解决问题)
  2. 2) 可计算化:问题可被建模,抽象化,模拟等等
  • 6. 其它补充
  1. 1) 计算传播学的资源
Gdelt新闻数据库(http://gdeltproject.org/)
谷歌资助的一个新闻数据项目,它监测全球100多种语言的广播新闻、报纸新闻和网络新闻,从中提取其中的地点、组织、人物、时间,并将所有这些数据开放。目前开放的数据主要分为事件数据库和全球知识图谱数据库两类
计算传播网(http://computational-communication.com/)
计算传播学网站致力于寻找传播学可计算化的基因、学习和传播可计算化思维/方法(电子化数据收集能力、编程能力、数学建模能力、网络分析、文本挖掘)、了解和训练计算传播学的社会化应用方法(数据新闻、计算广告、可视化等)。
  1. 2) 计算传播学的常用工具:R和Python
  2. 3) 计算传播学的学科基础

Base.png

  1. 4) 计算传播学的常用模式或法则:异速增长定律
异速生长律,就是指系统的两个宏观变量X和Y之间服从一个幂律方程:Y=cXα。其中c和α都是常数。
具体可参照:http://wiki.swarma.net/index.php/%E5%BC%82%E9%80%9F%E7%94%9F%E9%95%BF%E5%BE%8B