数据科学常用数据集

复杂系统与数据科学

复杂系统研究基本上经历过三个发展阶段:哲学思辨阶段、计算机模拟阶段和数据科学阶段。现在的复杂系统研究前沿基本上围绕着各种数据展开。在此,我将列出各种非常实用的数据下载网站,方便研究者们快速地找到想要的数据。

数据源

综合数据源网站

1、英国公开数据源:UK Data

其中包括各种:经济、城市、交通、环境、生态等

2、联合国统计司:UN Stats

包括国际贸易、人口、经济、环境等数据。

3、世界银行:World Bank Website

世界各国的详细数据信息,包括经济、人口、环境等,该网站有很先进的数据挖掘工具,可以直接交互性地下载数据,还具有开放API。

4、非常好的开源数据共享网站:

Data hub: http://datahub.io/

复杂网络综合数据源

1、Barabasi的复杂网络数据:Barabasi lab

这里是著名的复杂网络研究者Barabasi研究组维护的复杂网络数据页面,其中包括:World-Wide-Web,Actor, Celluar Network,Protein Interaction Network, Email等数据。

2、Network Workbench:Workbench

其中包括几类网络数据:生物、经济、科学引文网、交通网等

3、Stanford Large Network Dataset Collection: Stanford

包括社交网络、引文网络、亚马逊网络(客户--商品)、互联网、WIKIPEDIA, Facebook, Twitter等

4、Mark Neumann收集的网络:Mark Neumann

网络科学家Mark Neumann收集的网络数据,包括跆拳道俱乐部、小说的形容词、名词网络、科学引文网、合作网络等。

5、网络软件Pajek收集的网络数据:pajek 包括食物网、社会网络、生物网络、美国航空网络等。


6、香港城市大学陈关荣老师收集的复杂网络数据以及各种实用的算法和工具:http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/SoftwareDatabases.htm

特殊数据源

1、国际贸易流量网:International Trade Flow From 1962 to 2000

包含任意国家到任意国家任意商品的贸易流,从62年到2000年。相当于可以形成长时间、加权、多资源流量网络。

2、英国道路网交通流GK Urban Flow 包括每条道路上各种种类的车辆流,以年为平均,大概10年的数据

3、美国NASA卫星数据Satellite map nightlight 2013年的全球卫星夜视图

4、美国河流公开数据集:[1] 美国河流网络,另外,这里有源代码:[2]

5、世界范围的投入产出表:[3]

计算机程序调用数据集

1、Computer Immune Systems (Unix系统函数之间的调用数据):http://cs.unm.edu/~immsec/systemcalls.htm

2、Cyber Systm and Technology: http://www.ll.mit.edu/mission/communications/cyber/CSTcorpora/ideval/data/index.html

3、各种文件I/O系统的调用数据: http://iotta.snia.org/tracetypes/1

数据知识备注

1、卫星搜集数据的方法

卫星分为极轨卫星和同步轨道卫星两种。

同步轨道卫星绕地球纬线转动,像削苹果一样转圈,一般与地球保持同步(具体地说,完全同步的话要求距离地面为6.6个地球半径),这意味着它可以悬停地球某个地点的上方做长期的观察。

极轨卫星绕地球经线转动,像切苹果一样竖着走,基本上是与赤道面保持90度角,但不一定,有时候也会有一定角度倾斜,只要其轨道中心是地球圆心就可以。因为地球在不停自转,所以极轨卫星可以在一段时间内扫过全球。我们使用的数据是极轨卫星,因为只有这类卫星才能得到世界地图。它分为两种类型,子夜极轨和黄昏-凌晨极轨。前者穿过日地连线,总是看到正午12点或者夜晚12点的世界;后者轨道面与日地连线垂直,总是看到黄昏6点或者凌晨6点的世界。我们用的是夜间卫星图,所以是前者。

我们使用两个数据源,NOAA的DMSP卫星和NASA的Suomi NPP卫星。

NOAA是美国海洋与大气管理局,DMSP是军事与气象卫星,属于NOAA和美国空军联合管理,载有多种测量仪器,可收集磁场,太阳风,云层等数据,上面的OLS相当于一个兼有可见光和红外线波长的照相机,我们看到的夜间灯光图就是这个仪器搜集的。DMSP从六七十年代开始发射,不停更换,保证每一年有1-2颗在天上,数据里的F10编号就意味着第10颗。DMSP离地面比较近,只有830公里,绕自己轨道环球一周只要101分钟(实际上,卫星离地球越近就越快,否则就会掉下来)。每12小时就可以扫描一遍全球。但一张好的合成图往往需要绕许多圈才能得到。因为要排除掉云层等因素的干扰。不过这个图像处理在数据公开前已经完成了。


NASA不用说了,美国宇航局,我们使用的数据源的图是NPP卫星转了312圈,收集了2.5T数据后合成的(所以没有任何云彩)。NPP也是每天扫两遍全球,离地824公里,绕自己轨道环球一周是102分钟。每绕地球一圈,就向挪威站传输数据。