计算传播学导论

内容简介

“计算传播学”领域研究，是“大数据”技术与新闻传播学研究结合产生成果。国际顶尖高等学府已经系统开设了相关课程。而国内新闻传播学院对该门课程的需求较高，但主要瓶颈在于没有系统教材。基于此，本教材旨在以 “计算社会科学”为背景，系统介绍“计算传播学”这一全新的传播学研究范式，使读者具备利用跨学科方法进行传播学研究的基本能力，为日后志在进入相关领域攻读硕士或博士学位的学生打好坚实的理论和技术基础。此外，本教材通过对数据收集、分析以及结果呈现等方面的实践训练，为有将来志于投身新兴媒体行业（例如，IT行业、社会化广告、数据分析师等）的读者提供数据采集与分析基本技能。本书以海量数据获得日益便易的当下为基础，以推动新闻传播学者利用计算思维来研究社会问题，催生了“计算传播学”这一传播学领域的新兴学科为背景编写。计算传播学致力于寻找传播学可计算化的基因，以传播网络分析、传播文本挖掘、数据科学等为主要分析工具，大规模地收集并分析人类传播行为数据，挖掘人类传播行为背后的模式和法则，分析模式背后的生成机制与基本原理。

基本信息

书名:计算传播学导论
定价：49.80元
作者:张伦王成军许小可
出版社：北京师范大学出版社
ISBN：9787303241200
字数：315千字
版次：2018年11月第1版

作者介绍

张伦

张伦，北京师范大学艺术与传媒学院数字媒体系副教授，中国新闻史学会计算传播学研究委员会理事。主要研究方向为基于数据挖掘方法的新媒体信息传播。于SSCI、SCI以及CSSCI期刊发表论文20余篇；合著出版《社交网络上的计算传播学》(2015年) 。承担了国家社会科学基金青年项目、教育部人文社会科学研究青年基金项目等多项科研项目。

王成军

王成军，传播学博士，南京大学新闻传播学院副教授，中国新闻史学会计算传播学研究委员会秘书长，计算传播学实验中心主任。参与翻译《社会网络分析:方法与实践》(2013年)、合著出版《社交网络上的计算传播学》( 2015年)。

许小可

许小可，大连民族大学教授，优秀学术带头人、数据科学与智能技术重点实验室主任、大连市物联网与大数据工程研究中心副主任。主要研究方向为复杂网络、社交网络大数据、计算传播学等。主持完成国家自然科学基金3项，省自然科学基金等省部级项目3项，先后获得“辽宁省高等学校创新人才支持计划”“辽宁省高等学校杰出青年学者成长计划”支持。合著出版《社交网络上的计算传播学》( 2015年)。

内容目录

第一章导论 1

第一节传统传播学简介 2
第二节计算传播学之于传统传播学:新的研究范式 4
第三节基于传统传播学的计算传播学研究 6
本章小结 12

第二章文本分析简介 13

第一节文本分析研究现状 14
第二节文本分析与传播学研究 16
第三节文本分析的基本步骤:文本的结构化处理 27
第四节 Python语言简介 38
本章小结 40

第三章情感分析 41

第一节情感分析简介 42
第二节情感分析与传播学研究 43
第三节 Python进行情感分析 51
第四节情感分析的基本算法 52
本章小结 66

第四章语义建模 69

第一节语义建模与传播学研究 70
第二节 LDA主题生成模型基本原理 75
第三节语义模型的Python实现 78
第四节有监督机器学习分类算法 80
本章小结 82

第五章网络传播与传播网络 83

第一节引言 84
第二节网络传播中的热点研究问题 86
第三节社会网络的拓扑结构特征 94
第四节传播网络的拓扑结构统计量 103
第五节社会网络和传播网络之间的结构相关性 109
第六节传播加权网络的多维度测量 113
第七节传播时效网络的多维度测量 121
本章小结 129

第六章网络传播模型与机器学习框架 131

第一节引言 132
第二节信息传播模型 133
第三节信息传播的机器学习分析框架 147
第四节影响信息传播的其他因素 149
第五节特征选择方法 155
第六节信息传播的机器学习评价指标 158
第七节基于实证数据的信息流行度预测 161
第八节本章小结 169

第七章数据新闻 171

第一节产生背景 172
第二节理论源流 174
第三节实战练习 190
第四节本章小结 203

第八章计算广告 205

第一节引言 206
第二节发展历程 208
第三节优化目标 212
第四节计算广告市场的博弈、拍卖与匹配 214
第五节计算广告市场的拍卖机制设计 225
第六节本章小结 230

后记寻找人类传播行为的基因 232

原文摘录

p5
二、什么是“计算社会科学”与“计算传播学”?

2009年，包括Lazer, Pentland等多位著名学者共同署名的文章《计算社会科学》(“Computational Social Science" ) 发表，标志着“计算社会科学”这一新兴学科的建立。该文章定义了“计算社会科学”:通过对海量数据的采集和分析，旨在揭示人类个体和群体行为模式的新兴学科。具体而言，“计算社会科学”旨在通过对海量数据的收集、处理、存储，同时利用计算技术(如自动内容分类、语义建模、自然语言处理、模拟和统计模型)分析人类行为模式。
该文章发表4年后，至2013年， Watts对计算社会科学发展现状做了简要总结。该文章认为，计算社会科学至2013年，已经在“海量数据获取”“计算工具的使用”以及“跨学科合作”等几方面取得了显著进步。但该领域仍有一些重要问题没有解决。例如，对经济危机、传染病和社会运动等重要社会问题的探讨;而这些领域进展缓慢主要缘于社会问题的复杂性。未来，计算社会科学的发展，还需要在以下几个方向着力:对于跨平台数据( Multi -Source Data)的获取，能够帮研究者更全方位地观察个体行为;在线实验的平台搭建以及在线实验的执行，能够更有效地研究因果关系;最重要的是，社会科学家需要更深入地融人计算社会科学研究。社会科学问题的提出和解决，很大程度上依赖于社会科学家，而不是计算机或其他相关学科的研究者。
因此，在“计算社会科学”研究范式下，我们对于计算社会科学分支之一的计算传播学做出如下定义:计算传播学致力于寻找传播学可计算化的基因，以传播网络分析、传播文本挖掘、数据科学等为主要分析工具，大规模地收集并分析人类传播行为数据，挖掘人类传播行为背后的模式和法则，分析模式背后的生成机制与基本原理。“新数据”“新方法”以及“重要问题”，是计算传播学不可或缺的三个重要元素。对于初次接触“计算传播学”这一概念的读者，学习这一新兴领域，大概需要两部分知识:理论与方法。理论层面，包括社会网络、人类行为理论、公共意见形成与演化以及信息传播模型等。方法层面，又分为数据分析方法和编程软件的学习:前者包括社会网络分析(如指数随机图模式)，文本挖掘，网络挖掘方法(如数据抓取、机器学习、深度学习),统计分析(如时间序列模型、空间分析)，基于个体的模拟建模( Agent- -Based Modeling )和可视化分析及技术;而后者则主要包括当前主流开源编程软件，如R、Python、Echart (可视化分析)以及部分商业软件(如Tableau等)。

部分书评

寻找人类传播行为的基因：《计算传播学导论》后记
【作者：Socrates 来自豆瓣】

二十一世纪是计算社会科学的时代。1998年邓肯·瓦茨关于小世界网络的模型和1999年阿尔伯特·巴拉巴西关于幂律和无标度网络的研究复兴了网络科学。一石激起千层浪，在学术领域产生了深远的影响。对于万维网上的人类行为的研究也形成了一个子领域，被称之为万维网科学(Web Science)；伴随着社交媒体等数字媒体的发展，社会网络分析开始受到前所未有的重视，社交网络上的信息流动网络研究也引起广泛的兴趣；与此同时，机器学习和数据科学取得了突飞猛进的发展，进一步加速了计算化的浪潮；在新闻传播产业当中，数据驱动的新闻生产、计算广告和媒体推荐系统开始成为席卷世界的潮流。面对海量的互联网数据、持续困扰人类的重大社会问题、崭新的理论视角、诱人的物理学模型，在世界大战中发展起来的新闻传播学研究会走向什么地方？这构成了困扰我们的时代问题，而计算传播学正是试图回应这一时代叩问的一种尝试。

瓦茨指出网络科学的视角和大规模的互联网数据与实验为社会科学的发展提供了前所未有的理想条件，并乐观地认为“基于因特网的传播数据和互动将会变革我们对于人类群体行为的理解”。

邓肯·瓦茨2008年在《自然》杂志上发表了题为《一个二十一世纪的科学》的文章。瓦茨认为社会科学才是二十一世纪的科学。社会系统当中充满了海量的异质性个体构成，这些个体之间的互动使得社会过程充满了复杂性。相比于自然科学，社会科学内部的复杂性更高，也更难研究。人类对于自然现象当中的很多规律已经非常了解，但对于社会现象的理解则通常非常有限。面对这些挑战，或许很多人可以做一群鸵鸟，只盯住让自己感觉舒适的领域，当危险来的时候干脆把头埋进沙子里，但是年轻人没有逃避的理由。年轻研究者唯有敢于冒险，才能走出不一样的路来。

“计算传播学”这个词语的提出源于香港城市大学互联网挖掘实验室成员之间在2012年初的一次组会讨论。

互联网挖掘实验室由祝建华老师在2000年创建，最初起源于香港互联网使用调查项目。祝建华老师每周都会组织实验室成员进行讨论，讨论的主要内容除了每个人的研究进展之外，还包括文献分享、经验见闻等内容。置身于这样的一个实验室当中，使得我们较早就感受到在互联网人类传播行为的研究领域里来自跨学科的学术创新。这种范式的革新确立的一个标志是2009年大卫·拉泽等人发表在《科学》杂志上的一篇名为《计算社会科学》的文章。以拉泽为首的一群来自社会科学、计算机科学、网络科学等领域的资深研究者们宣告了计算社会科学的诞生。计算社会科学以大规模数据收集和数据分析作为主要的工具，采用网络科学作为主要的研究视角，力图揭示个体和群体行为的模式。
2010年我（王成军）作为博士生进入到香港城市大学互联网挖掘实验室以来，切身感受到了传播学研究者在互联网时代的身份焦虑。2012年1月，我在博客上写了一篇题为《计算传播学：宣言与版图》的短文，试图走一条计算驱动的研究道路，强调了将寻找人类传播行为的可计算基因作为计算传播学的发展使命。在更早一些时候，这篇小文章首先在一个名为《数字媒体阅读报告》的小圈子里流传。2012年2月，合作者林武来实验室交流，分享了关于Python编程基础、数据抓取、Hadoop使用等方面的知识。我们在此期间的一次组会中再次讨论了我们自己期待传播学将走向什么地方这一时代问题，并提出了计算传播（computational communication）的思路，激发了大家的进一步讨论的兴趣。在吴令飞的提议之下，计算传播学谷歌邮件组在2012年2月建立；2012年3月，计算传播学豆瓣小站正式建立；2012年底，吴令飞在多贝网上发布了一个名为计算传播学的系列课程；2014年暑假，我在腾讯实习期间，计算传播网正式建立。在此期间，我和许小可老师进行了一次讨论，我介绍了计算传播学的发展思路。当时，许小可、胡海波和张伦老师在写作一本关于社交网络上的信息传播的书，小可敏锐地觉察到他们所探索的研究范式可以采用计算传播学作为一个理论框架来进行理解，我也加入了这本书的写作。作为第一本计算传播学的图书，《社交网络上的计算传播学》于2015年在科学出版社正式出版。
2014年之后，计算传播学开始步入学科建制化的发展阶段。南京大学新闻传播学院计算传播学实验中心经过半年多的筹备在2015年2月成立；2016年1月国际传播学会（ICA）计算方法兴趣小组建立；2016年9月25日第一届计算传播学论坛在南京成功举办，此次会议的主题是“计算传播时代”，旨在让人们认识到基于互联网传播产生的数据和互动性正在变革我们对人类传播行为的认知，传播学研究面临着新的问题与挑战，以人类传播行为的可计算性基础为研究中心的计算传播学为传播学的发展提供了更广阔的空间与可能性；2017年9月14日，第六届全国社会媒体处理大会（SMP2017）在北京举办，张伦和我一起在SMP讲习班介绍了《计算社会科学视角下的计算传播学》，此次会议还设有计算传播学分论坛；2017年9月22-24日，第二届计算传播学论坛暨工作坊在南京大学成功举办。
2017年计算传播学工作坊为期一天半，分为两个子题并行进行，分别为“信息传播的网络分析”(Network Approaches to Information Diffusion)和“文本数据处理方法”(Processing Text Data)。前者定位为高级程度，聚焦于计算传播学研究中的一个核心而又困难的题目，以探讨研究设计、理论模型、数据要求、方法选择等问题为主、操作问题为辅，适合已掌握基本方法并有一定研究经验者。后者定位为入门程度，介绍用于文本数据处理的各个步骤上的方法、工具、算法等，含有众多动手操作。这次工作坊“信息传播的网络分析”部分由张子柯和王成军主讲《网络信息传播基础》、许小可讲《网络信息传播实证研究》、胡海波和阮中远讲解《网络信息传播模型》，“文本数据处理方法”部分由张伦主讲《文本分析的基本步骤与方法》、王成军介绍《主题模型》、汪臻真主讲《情感分析》。在酝酿

在大数据和人工智能时代，未来的计算社会科学家更需要训练问题意识、培养计算思维、增强数据挖掘和分析的能力，而这正是本书写作的一个重要目的。

第二届计算传播学论坛暨工作坊的过程中，许小可、胡海波、张伦和我开始计划写一本《计算传播学导论》书。按照祝建华老师的建议，我们曾对参加了2016年第一届计算传播学论坛的研究者公开征集计算传播学工作坊的题目。经过汇总整理之后的题目包括：计算机模拟/多主体建模、社交媒体数据爬取、传播文本挖掘和主题模型分析、使用深度学习进行传播学研究、社交媒体数据的时间序列分析和空间分析、传播学研究和数据新闻的可视化方法、传播网络分析（社区识别、复杂网络与信息流动）、机器学习、意见形成、Python编程，以及如何教授新闻传播学专业的学生网络分析/数据新闻/编程。我们的想法是每年遴选两个主题组织计算传播学工作坊，系统地整理和组织工作坊教学材料，基于此形成《计算传播学导论》一书的基本材料。
计算传播学作为一个概念的提出主要源于计算社会科学的发展。直到计算社会科学成为研究热点之后，计算传播作为一个概念才被正式提出。另外一种定义计算传播学的思路是计算传播的产业实践，可以将计算传播定义为数据驱动的、借助于可计算方法所进行的传播过程，而分析计算传播现象的研究领域就是计算传播学。计算传播的应用有很多，例如数据新闻、计算广告、媒体推荐系统等，在过去的几年里，产生了深远的影响。数据新闻风靡全球，重要的国际媒体和国内媒体纷纷采用数据新闻，以开放数据、数据挖掘、可视化的方式提供信息；计算广告备受瞩目，不管是门户网站、搜索引擎，还是社交媒体，纷纷将计算广告当做数据变现的重要渠道，以可计算的方法对广告进行拍卖，实现媒体、内容和用户三方的匹配；媒体推荐系统成为个性化信息获取的重要途径，既包括传统的社交新闻网站，也包括今日头条这种后起之秀，它们纷纷采用协同过滤的方法为用户提供信息，建立了新的信息把关模式。
计算传播学将传播学研究置于数据和计算方法的坚固基础上。数据作为一种新的石油，解放了社会科学家对于理论的过度依赖。随着数字媒体的发展，人类社会积累的人类传播行为数据的规模日趋庞大，详尽地记录了社会发展和人类互动的各种细节。运用这些生动的人类传播行为数据，可以从更细的颗粒度、更大的样本规模上让我们捕捉社会的发展。毫无疑问，对于数据的挖掘依赖于人类的计算能力的提高，依赖于跨学科的研究方法和研究视角。我们人类传播行为的基因恰恰隐藏在互动性当中，但这种人类传播行为的互动性本身也使得传播过程充满了复杂性。网络科学为捕捉到纷繁复杂的人类互动提供了一个很好的视角。从数据出发，借助于计算方法和好的理论视角，就可以更好地刻画人类传播行为的模式和法则。需要指出的是，不管是模式还是法则，本身并没有能够回答我们所观察到的社会现实是由何种社会机制构成，因而需要通过建构数学和物理模型的方式来解释社会机制并基于社会机制预测具体的社会现实。社会机制虽然可能非常复杂，但背后的普适性原理却可以非常简单。

计算传播学试图从重大的社会问题出发，系统地收集并分析人类传播行为的数据，刻画数据背后的行为模式，探索模式背后的社会机制，试图上升到一般性的原理，达到更好地解释和预测人类传播行为的目的。一个好的理论应当尝试捕捉到这种普适性的原理，基于一般性的原理生成机制，基于因果机制解释行为模式，基于模式预测现实，最终回答重要的社会问题。

目标读者

致力于进行“计算社会科学” 研究的本科生与研究生
准备开设《计算传播学》或《计算社会科学》课程的青年教师
对于定量传播学研究有基本了解
对于Python、R等软件仅初步了解
致力于日后进入相关数据科学领域工作的学生

本书特色

强调跨学科合作（传播学、网络科学、计算机科学）
介绍大量发表于Science、Nature、Proceedings of National Sciences (PNAS) 等国际顶级期刊的论文
附加主要Python程序代码

书籍网站

Slides和Code见：https://github.com/computational-class/ccrbook

本词条内容翻译自 wikipedia.org，遵守 CC3.0协议。