DataList
应该积累一批高精度、长时间的重要社会科学的数据。
数据列表
- Code and Data for The spread of true and false news online 2018-03-11 23:30:59 We are indebted to Twitter for providing funding and access to the data. We are also grateful to members of the MIT research community for invaluable discussions. The research was approved by the MIT institutional review board. The analysis code is freely available at https://goo.gl/forms/AKIlZujpexhN7fY33. The entire data set is also available, from the same link, upon signing an access agreement stating that (i) you shall only use the data set for the purpose of validating the results of the MIT study and for no other purpose; (ii) you shall not attempt to identify, reidentify, or otherwise deanonymize the data set; and (iii) you shall not further share, distribute, publish, or otherwise disseminate the data set. Those who wish to use the data for any other purposes can contact and make a separate agreement with Twitter.
重要问题
大家都关系的问题。Github Archive 的数据就是数据规模很大、格式变化、维度有限。
积累变量,而不仅仅是数据
- 比如web of science的数据,数据的规模很大,非常多的人投入到这个数据的分析和挖掘过程中来。
- 面对种数据,从建立一个新的研究的角度切入,就需要从某一个核心概念和变量切入。
快变量+慢变量
- 入伍对收入的影响
长时间数据vs高精度数据
- 社会科学家应该追求长时间数据
- 物理学家应该追求短时间、高精度数据
- 周雪光 江苏官员升迁数据 制度变迁数据
- 谢宇 中国家庭追踪调查 http://www.isss.pku.edu.cn
- 唐杰 研究者社会网络ArnetMiner系统 https://www.aminer.cn/
- 包弼德 Peter K. Bol 哈佛大学中国历代人物传记资料库(CBDB)项目 https://projects.iq.harvard.edu/cbdb
变量直接联系社会现实
将社会科学的故事(比如阶级)同这种直接联系社会现实的测量联系起来。
- facebook数据最难拿
- 产业和组织数据相对好拿