添加12,574字节
、 2020年10月14日 (三) 22:16
本页面主要内容为计算士2013年9月14日在西五艺术中心的报告
<slidy/>
==什么是大数据?==
===什么样的数据算大数据?===
[[File:wulingfei_130901_1.png|800px]]
半个多世纪以来,社会科学家其实一直在处理及其小规模的数据,无论是数千上万人的社会调查,还是多次累积的实验,其规模一般都在MB以下。所以,在他们的概念里,超过这个规模的数据就是大数据,更有及其无知者,把数值的大与数据规模的大混为一谈,如此算来,宏观经济研究的GDP也算大数据了。
在大数据处理的问题上,物理学家和计算科学家远远走在社会科学家前面。欧洲粒子对撞机每天产生42T新数据,哈勃望远镜每天搜集17G新数据,而像谷歌这样的互联网公司每天处理的用户数据在PB级以上。仅仅一个大的互联网社区每天可以就产生几T新数据。(1 P = 103 T = 106 G)总结起来,我们认为,以现有人类的数据处理能力,只有在PB级以上,不得不使用并行计算架构处理的,才叫大数据。
[[File:Screen Shot 2014-10-18 at 3.37.13 PM.png|800px]]
我们是否有理由期待,人们很快就可以像了解基本粒子和黑洞一样了解我们自己的社会?
===这么大的数据如何分析?===
[[File:Wulingfei 20130901 2.png|800px]]
并行计算:使用成千上万的机器奴隶进行并行处理。
现状:根据2008年的数据,Yahoo!拥有1万个机器奴隶。其他互联网公司,如Google, Amazon等,都拥有相似规模的并行计算系统。
趋势:从批处理计算到流式计算:让机器奴隶们实时响应;从大公司垄断集群的使用到开放云客户端给普通用户。
==大数据对社会科学的影响:社会科学进入可计算化阶段==
===物理学的转折===
没有第谷积累的大量数据,就没有开普勒简洁又美妙的模型
“Kepler … was not satisfied with the complex and still slightly inaccurate result; at certain points the model differed from the data by up to eight arcminutes … ”
===西方思想回顾===
两千四百年前(古希腊时代),学科之间只有思考对象的分别,没有研究方法的区别。亚里斯多德使用同样的方法研究行星运动与诗歌,柏拉图把几何定理和城邦政治混为一谈。
一千一百年前(中世纪),基督教神学(经院哲学)占据统治地位,其他学科几乎完全消亡。经院哲学的意义在于以神学为外壳,保留了部分古希腊思想。
三百六十年前(启蒙时代),哲学(形而上学)带领所有的其他学科反叛基督教神学。在反叛过程中,哲学获得极高地位,自然科学叫自然哲学,社会科学叫道德哲学,都是哲学的附庸。各个学科之间在研究方法上仍然没有壁垒。达芬奇,笛卡尔,康德,这些人,各有所长,但都有跨界行为。
启蒙时代时,站在第谷和开普勒肩膀上的牛顿出生。自然科学的黄金时代开始,以物理学为代表的自然科学与其他学科,在研究方法上分道扬镳。但牛顿本人还没有清晰看见这个未来,所以他的书很谦虚地叫《自然哲学的数学原理》。
两百六十年前,自然科学的积累引发技术的飞跃,工业革命爆发。从此自然科学与技术相互扶持,其他学科望尘莫及。孔德等人非常羡慕,创立“社会物理学”,想要为研究人类社会建立严格的方法论,但并不成功。直到今天,比起物理学等自然科学,社会科学在描述和预测研究对象的规律上,还处在非常落后的状态。
===为什么孔德的社会物理学没有成功?===
孔德的思想:1.社会同自然并无本质的不同,没有必要在自然科学和社会科学之间作出划分。2.研究社会要采取实证的办法,即观察法、实验法、比较法和历史法。3 .社会物理学可以分为社会静力学和社会动力学。社会静力学就是从静止的状态去研究社会,是研究一般的社会关系、秩序、结构及其性质的学说。社会动力学是在静力学的基础上研究人类社会发展的动力、速度、方向和规律的学说。
孔德以后,实证主义尝试一直在被延续,例如从工程数据借力的帕累托式经济分析,从统计学借力的涂尔干式社会调查研究,效仿博物学,对社会结构贴标签分类的马克思韦伯等。
数据与假设,是一对trade-off。从这个角度看,实证社会科学的问题是:早期没有数据,所以只好依赖假设和对假设的演绎推进认知;后期有了数据,但量非常少,而且关于收集什么样的数据没有达成共识。还是依赖假设和对假设的演绎推进认知。
===数据采集技术 + 从基础数据中总结的核心定量范式 = 科学===
[[File:wulingfei_20130901_3.png|800px]]
回顾科学史,我们发现,所有当代科学都经历了前科学摸索时期。而一个领域与哲学的关系越大,说明越处于前科学阶段,因为数据不够,所以严重依赖假设
===计算社会科学的崛起===
David Lazer,Alex Pentland, Albert Barabasi等15个来自社会学、计算机科学、物理学的重要科学家联名在Science(2009-02-06)发表文章Life in the network: the coming age of computational social science一文,宣告计算社会科学诞生。
Nature (2012-08-22)等杂志发表了Computational social science: making the links等评论,进行推波助澜。
===计算社会科学的迷思===
1. 计算社会科学是社会科学的一个快速崛起的子领域
不对。计算社会科学不是一个子领域,而是社会科学可计算化的过程,是一个新阶段。
就好像实验生物学->分子生物学->信息生物学。现在信息生物学渐渐没落,不是因为不流行,而是
因为太流行了,已经成为共识了,它的历史使命也宣告结束。等到每一个社会科学的学生都掌握
使用互联网搜集分析大数据的技巧,计算社会科学就没落了。
2.计算社会科学的扩展要很久,起码要等现在社会科学各领域的大学教授们退休,了解互联网技术的
新一代人进入学术资源分配的核心圈才行。
不用。这是一场来自外部的殖民,而不是来自内部的革命。研究大规模人类行
为,研究社交网络,计算机科学家和物理学家已经做了大量工作,社会科学家正在失去话语权。
社会科学面临这样的情况:要么进行“内部革命”,每一个学生都尽快掌握基于计算机和互联网的
数据采集、分析、可视化等技术,要么被从计算机等领域分裂出来的“human behavior studies”所代替。
===我们的研究===
[[File:wulingfei_20130901_4.png|800px]]
1.研究方向:Kleiber’s law描述了不同物种的能量消耗与体积的普适规律。
West等人在这个基础上建立了生物学的新陈代谢理论。 Bettencourt等将这个理论用于描述人类城市的能量消耗与居民数。
我和jake将这个理论用于描述网站(虚拟世界的生物)的注意力消耗与信息产出之间的关系。
2.图景:国家,物种和网站,都可以看做一般流系统。货币、能量、注意力在其中流进流出,满足新陈代谢的一般方程。
3.成果:已在PloS One, Physical Review E, European Physical Journal B等期刊上发表数片论文,得到New Scientist,Science Daily等杂志报道。
拓展阅读:[http://www.jianshu.com/p/ddc347b0518c 《无形生命》]
===宇宙的各项同性使得社会物理学是可能的===
[[File:wulingfei_20130901_5.png|300px]]
在我看来,宇宙以一种奇妙的方式构成:我们处理的对象每上一个层级,数量和复杂性就迫使我们放弃依靠下一个层级获得的知识来理解本层级的对象。因此,如果我们要相信科学,我们只能坚信科学原理具有这样的特征:每一个层级的对象,只要我们忽略足够多细节,都能看到类似足够简洁的物理法则。我称这种性质为Eadem Mutata Resurgo。
其实这种观点并不新,它是物理学的平权原理的推演。即把物理宇宙的各项同性(isotropy)加多一个维度:观察的层次(scale)。物理法则不仅invariant of time-space operation,还要invariant of scale operation。
例如,人们现在各粒子的运动方式相对清晰,化学键也基本明白,到大分子有点搞不定,生命有机体如何形成基本靠猜,到人的行为和社会运动,要从基本粒子开始解释按道理完全就是瞎扯了。但奇怪的是,大规模人类运动的方式又满足基本粒子的levy flight方程了 (Gonzalez et al. , Nature, 2008)。
对抗复杂性的办法就是忽略信息,但没有大数据,就不知道该忽略什么信息。因为在大规则行为中,次要的信息相互抵消,主要的趋势不断加强,最后涌现出强力的统计法则。 Anderson (1972) 说,More is different。但我要说,他说得还不够透彻。 More is different, but massive is simple。
===计算社会学课程===
[http://lingfeiw.gitbooks.io/data-mining-in-social-science/ Data Mining in Social Science]
==大数据对艺术的影响:数据可视化的兴起==
===什么是数据可视化?===
====音乐旋律的可视化====
[[File:wulingfei_20130901_6.png]]
====游戏玩家活动的可视化====
[[File:wulingfei_20130901_7.png]]
====Google查询词的可视化====
[[File:wulingfei_20130901_8.png]]
====Facebook交友关系的可视化====
[[File:wulingfei_20130901_9.png]]
====互联网网站流量与相对位置的可视化====
[[File:wulingfei_20130901_10.png]]
====机场航班的可视化====
[[File:wulingfei_20130901_11.png]]
====科学理论引用关系的可视化====
[[File:wulingfei_20130901_12.png]]
====用户对在线期刊点击流的可视化====
[[File:wulingfei_20130901_13.png]]
Eh pá GNR é que não ! Até me causam urac¡Ãirit, o Reininho não tem os requisitos mÃnimos para gravar, até eu canto mais afinado que ele.
====艺术家的一生的可视化====
[[File:wulingfei_20130901_15.png]]
===如何完成一个数据可视化项目?===
====互联网点击流:一个数据可视化项目====
[[File:wulingfei_20130901_16.png|缩略图|none|800px]]
1. 使用Python从Google Ad Planner上抓取排名前1000的网站列表;利用AlchemyAPI鉴别这些网站使用的语言;从Alexa上抓取这些网站彼此之间的点击流关系 。
2. 构思,设计网络展示方式及与用户的交互方式。
3. 使用Python对数据进行预处理。
4. 使用Processing设计可视化界面。 不同语言网站用不同颜色显示,当用户把鼠标放到相应网站的点上,可以显示网站的流量,语言等基本信息。
====中国风画板:一个无需数据的可视化项目====
[[File:wulingfei_20130901_17.png|缩略图|none|800px|]]
其实数字艺术,就是不使用真实数据,而是使用模拟数据的可视化!
==== 使用NASA卫星照片来分析城市的财富分布:不是用数据画图像,而是反过来,从图像中提取数据 ====
[[File:wulingfei_20130901_18.png|缩略图|none|800px]]
科学家可以当艺术家,艺术家也可以当科学家!
===优秀可视化作品分析===
1. Jer Thorp:一个数据可视化的艺术先锋
blogDOTblprntDOTcom/
[[File:wulingfei_20130901_19.png|缩略图|none|800px]]
2. Jer Thorp作品欣赏一:在New York Times R&D Lab完成的作品Cascade
[[File:wulingfei_20130901_20.png]]
3. Jer Thorp作品欣赏二:行星运动
[[File:wulingfei_20130901_21.png]]
==一些学习材料==
[[File:wulingfei_20130901_22.png|缩略图]]
* http://www.visualcomplexity.com/vc/
* http://datavlab.org/
* http://www.flowjustflow.com/
* http://tinyurl.com/dj4epq
* http://blog.counter-strike.net/science/
* http://data-arts.appspot.com/globe-search
* http://www.openprocessing.org/
* http://www.vizinsight.com/
现状:纽约时报等建立了专门的可视化实验室,将传统新闻行业的重心转移到interactive data visualization上来。哥伦比亚大学也已经建立Digital journalism研究中心。
趋势:艺术家、工程师、新闻记者身份将日趋模糊。界面设计,写代码操控数据,故事提取展现能力缺一不可。
[[Category:旧词条迁移]]