大数据 Big data领域研究如何系统地从传统数据处理应用软件无法处理的太大或太复杂的数据集中提取、分析并处理信息。由于具有多个字段(列)的数据提供了更大的统计能力,同样,具有更高复杂性(更多属性或列)的数据也可能会导致更高的错误率。[2]大数据分析挑战包括捕获数据、数据存储数据分析、数据搜索、数据共享数据传输数据可视化、数据查询、数据更新、信息隐私和数据源。大数据最初与三个关键概念有关:大数据量、多样性和高速度。[3]大数据分析意味着抽样存在挑战,因此旧技术只能进行观察和抽样。而大数据分析通常包括超过传统软件在有限时间及性能内能处理的数据量。


随着移动设备以及众多廉价的信息传感物联网设备、天线(遥感)、软件日志、相机、麦克风、射频识别(RFID)阅读器和无线传感器网络等设备收集数据,可用数据集的规模和数量在迅速增长。[7][8]自20世纪80年代以来,世界人均存储信息的技术能力大约每40个月翻一番,[9] 每天约生成2.5 EB (Exabytes )(2.5×260字节)的数据。[10]根据IDC的一份报告预测,2013年至2020年间,全球数据量将从4.4 ZB (zettabytes)呈指数增长至44 ZB (zettabytes)。IDC还预测,到2025年,数据量将达到163兆字节。[11]因此大型企业正面临的问题是,谁应该开始计划覆盖全企业的大数据转型计划。[12]

用于可视化数据的关系型数据库管理系统 Relational Database Management Systems和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十台、数百台甚至数千台服务器上的大规模软件”,[13]“大数据”的具体定义取决于分析者及其工具的能力。此外,不断扩充数据的能力使大数据的定义也比较灵活。“对于一些组织来说,首次面对数百GB的数据可能就需要调整数据管理策略,而对于另一些组织来说,可能需要数十或数百TB的数据大小才需要这种改变。”[14]


大数据这个词从20世纪90年代开始使用,一些人认为是约翰·马西 John Mashey推广了这个词。[15][16]大数据通常包括大小超出常用软件工具能力(在可承受的时间内捕获、管理和处理数据)的数据集。[17] 大数据包括非结构化、半结构化和结构化数据,但主要关注非结构化数据。[18]大数据的“规模”是一个比较灵活的衡量标准;从几十兆字节到许多兆字节的数据。[19]大数据需要一套具有新集成技术来处理多样化、复杂和大规模的数据集。[20]

一些组织增加了“多样性”、“准确性”和其他各种“V”开头的字母来描述它,但这一修订受到了一些行业权威的质疑。[21]大数据的V通常被称为三V、四V和V。它们代表了大数据的大数量、多样性、速度、准确性和价值(volume, variety, velocity, veracity, and value)。[3] 可变性通常被视为大数据的额外属性。





天睿(Teradata Corporation)于1984年推出了并行处理DBC 1012系统。1992年,Teradata系统是第一个存储和分析1TB数据的系统。1991年硬盘驱动器为2.5GB,因此大数据的定义不断演变。Teradata于2007年安装了第一个基于PB级RDBMS的系统,安装了几十个PB级的Teradata关系数据库,其中最大的超过50PB。直到2008年,系统都是100%结构化的关系数据。从那时起,Teradata添加了非结构化数据类型,包括XML、JSON和Avro。

2000年,Seisint公司(现为LexisNexis Risk Solutions)开发了一个基于C++的分布式数据处理和查询平台,称为HPCC系统平台。该系统可以跨多个商品服务器自动划分、分发、存储和交付结构化、半结构化和非结构化数据。用户可以用一种称为ECL的声明性数据流编程语言编写数据处理管道和查询。在ECL工作的数据分析师不需要预先定义数据模式,而是可以专注于手头的特定问题,并在开发解决方案时以最佳方式重塑数据。2004年,LexisNexis收购了Seisint公司及其高速并行处理平台,[30]并在2008年收购Choicepoint公司时成功利用该平台集成了该公司的数据系统。[31]《华盛顿邮报》2011年报道,HPCC 系统平台根据 Apache v2.0许可证开源。



MIKE2.0是一个开放的信息管理方法,由于在一篇题为《大数据解决方案提供 Big Data Solution Offering》的文章中指出的大数据影响,该方法仍需要进行修订。[34]这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的难度等方面处理大数据。[35]




麦肯锡全球研究所 McKinsey Global Institute2011年的一份报告将大数据的主要组成部分和生态系统描述如下:

  • 分析数据的技术,如A/B测试、机器学习和自然语言处理
  • 大数据技术,如商业智能、云计算和数据库
  • 可视化,如图表、图表和其他数据显示

多维大数据也可以表示为OLAP数据立方体或数学上的张量。阵列数据库系统已经支持这种数据类型的存储和高级查询。[39]应用于大数据的其他技术包括基于张量的高效计算,如多线性子空间学习、[40]大规模并行处理(MPP)数据库、基于搜索的应用、数据挖掘、[41]分布式文件系统、分布式缓存(如burst buffer和Memcached)、分布式数据库,基于云和HPC的基础设施(应用程序、存储和计算资源)[42]以及互联网。尽管已经开发了许多方法和技术,但使用大数据进行机器学习仍然很困难。[43]




实时或近实时信息交付是大数据分析的特征之一。因此,无论何时何地都可以避免延迟。直连内存或磁盘中的数据是良好的,而FC SAN连接另一端的内存或磁盘中的数据则不是。分析应用程序所需规模的SAN的成本比其他存储技术高得多。


大数据极大地增加了对信息管理专家的需求,以至于Software AG、甲骨文、IBM、微软、SAP、EMC、惠普和戴尔在专门从事数据管理和分析的软件公司上花费了150多亿美元。2010年,这个行业的价值超过1000亿美元,并以每年近10%的速度增长:大约是整个软件行业的两倍。

发达经济体越来越多地使用数据密集型技术。全世界有46亿手机用户,有10亿到20亿人上网。从1990年到2005年,全世界有超过10亿人进入中产阶级,这意味着更多的人变得更有文化,进而导致了信息的增长。1986年,世界通过电信网络交换信息的有效容量为281 PB,1993年为471 PB,2000年为2.2 EB,2007年为65 EB。[9]据预测,到2014年,互联网流量将达到每年667 EB。据估计,全球存储信息的三分之一是字母数字文本和静态图像数据,[47] 这是大多数大数据应用最有用的格式。这也显示了尚未使用的(以视频和音频内容的形式)数据的潜力。



在政府流程中应用大数据可以提高成本、生产率和创新效率,[49] 但也并非没有缺陷。数据分析通常需要政府的多个部门(中央和地方)合作,创建新的流程以实现预期结果。国家安全局(NSA)是一个利用大数据的常见政府组织,它不断监控互联网的活动,寻找其系统可能发现的可疑或非法活动的潜在模式。



关于有效利用信息和通信技术促进发展(也称为“ICT4D”)的研究表明,大数据技术可以做出重要贡献,但也对国际发展提出了独特的挑战。[50][51]大数据分析的进步为改善关键发展领域的决策提供了高成本效益的机会,如医疗保健、就业、经济生产率、犯罪、安全、自然灾害和资源管理。[52][53][54]此外,用户生成的数据提供了闻所未闻的新机会。[55] 然而,发展中地区面临的长期挑战,如技术基础设施不足、经济和人力资源匮乏,加剧了对大数据的现有担忧,如隐私、不完善的方法和互操作性问题。[52] “大数据促进发展”[52]的挑战目前正朝着通过机器学习的方向发展,称为“人工智能促进发展”(AI4D)。[56]


大数据促进发展的一个主要实际应用是“用数据战胜贫困”。[57]2015年,Blumenstock及其同事通过手机元数据预测贫困和财富,[58] and in 2016 Jean and colleagues combined satellite imagery and machine learning to predict poverty.[59]2016年Jean及其同事结合卫星图像和机器学习预测贫困。Hilbert及其同事利用数字跟踪数据研究拉丁美洲的劳动力市场和数字经济,[60][61]认为数字跟踪数据有以下几个好处:

  • 领域覆盖范围:包括以前难以或无法衡量的领域。
  • 地理覆盖范围:我们的国际来源提供了几乎所有国家的大量可比数据,包括许多通常不包括在国际清单中的小国。
  • 详细程度:提供具有许多相关变量和新方面(如网络连接)的细粒度数据。
  • 及时性:图表可以在收集后的几天内生成。



  • 代表性。虽然传统的发展统计主要关注随机调查样本的代表性,但数字跟踪数据绝不是随机样本。[62]
  • 普遍性。虽然观测数据总是很好地代表了这个来源,但它只代表了它所代表的东西。虽然从一个平台的具体观察概括到更广泛的环境是很有诱惑力的,但这通常非常具有欺骗性。
  • 整合协调。数字跟踪数据仍然需要指标的国际间整合协调。它增加了“数据融合”的挑战,即不同来源的整合协调。
  • 数据过载。分析师和机构不习惯有效地处理大量变量,这是通过交互式仪表盘能有效地完成。从业仍者然缺乏一个标准的工作流程,使研究人员、用户和决策者能够高效、高效地执行任务。[60]




医疗领域中一个严重依赖大数据的子领域是医学中的计算机辅助诊断。[72]例如,对于癫痫监测,通常每天创建5到10GB的数据。[73]类似地,一张未压缩的乳房断层合成图像的平均数据量为450 MB。[74]这些只是计算机辅助诊断使用大数据的众多例子中的一小部分。因此,大数据被认为是计算机辅助诊断系统需要克服的七大关键挑战之一。[75]




为了理解媒体如何使用大数据,首先需要为媒体处理所使用的机制提供一些场景。尼克·库尔德利(Nick Couldry)和约瑟夫·图罗(Joseph Turow)曾建议,媒体和广告从业者在处理大数据时,应尽可能多地处理数百万个人的可操作信息点。该行业似乎正在摆脱使用特定媒体环境(如报纸、杂志或电视节目)的传统方式,转而利用技术在最佳时间、最佳地点接触目标人群,以吸引消费者。最终目的是提供或传达符合消费者心态的信息或内容(在统计学上)。例如,发布环境越来越多地定制消息(广告)和内容(文章),以吸引专门通过各种数据挖掘活动收集的消费者。[80]

  • 以消费者为目标(针对营销人员的广告)。[81]
  • 数据捕获。
  • 数据新闻:出版商和记者使用大数据工具提供独特和创新的见解和信息图表。





大数据和物联网协同工作,从物联网设备提取的数据提供了设备间连接的映射。媒体行业、公司和政府已经使用这种映射来更准确地定位受众并提高媒体效率。物联网也越来越多地被用作收集感官数据的手段,这种感官数据已被用于医疗[84]、制造[85]和运输[86] 环境。

数字创新专家凯文·阿什顿 Kevin Ashton创造了这个词,[87]在这句话中定义了物联网:“如果我们有一台计算机,它知道所有关于事物的知识,使用它们在没有我们任何帮助的情况下收集的数据,我们将能够跟踪和计算所有东西,并大大减少浪费、损失和成本。我们将知道什么时候需要更换、修理或召回,以及它们是新鲜的还是过时的。”


特别是自2015年以来,大数据作为一种帮助员工更高效地工作并简化信息技术收集和分发的工具,在企业运营中日益突出。利用大数据解决企业内部的IT和数据收集问题称为IT运营分析 IT operations analytics(ITOA)。[88]通过将大数据原理应用到机器智能和深度计算的概念中,IT部门可以预测潜在问题并加以预防。[88]ITOA企业提供系统管理平台,将数据仓库整合在一起,从整个系统而不是从孤立的数据包中产生见解。




  • 一体化联合作战平台 The Integrated Joint Operations Platform(IJOP)被政府用来监控人口,尤其是维吾尔族。[89]通过免费体检项目收集生物特征(包括DNA样本)。[90]
  • 到2020年,中国计划根据所有公民的行为给他们个人“社会信用”评分。[91]目前正在中国多个城市试点的社会信用体系被认为是一种使用大数据分析技术的大规模监控。[92][93]


  • 为了赢得2014年印度大选,印度人民党尝试了大数据分析。[94]
  • 印度政府使用多种技术来确定印度选民对政府行动的反应,以及对政策的看法。


  • 通过GlucoMe的大数据解决方案创建了个性化的糖尿病治疗。[95]



  • 处方药数据:通过连接每种处方药的产地、地点和时间,研究单位能够检查任何给定药物的释放与英国全国卫生保健研究所 National Institute for Health and Care Excellence指南在全英范围内的调整之间存在的延迟。以往,新的或最新的药物需要一些时间才能渗透到普通患者身上。[96]
  • 整合数据:地方当局将道路沙砾摊等服务的数据与为高危人群提供的服务(如轮上用餐)混合在一起。数据的连接使地方当局得以避免天气导致的延迟。[97]


  • 2012年,奥巴马政府宣布了大数据研发计划,以探索如何利用大数据解决政府面临的重要问题。[98]该计划由分布在六个部门的84个不同的大数据项目组成。[99]
  • 大数据分析在奥巴马2012年成功连任竞选中发挥了重要作用。[100]
  • 美国联邦政府拥有世界上最强大的十台超级计算机中的五台。[101][102]
  • 犹他州数据中心由美国国家安全局建造。完成后,该设施将能够处理NSA通过互联网收集的大量信息。确切的存储空间数量不得而知,但最近的消息来源称,存储空间大约为几EB。[103][104][105]这对所收集数据的匿名性提出了安全担忧。


  • 沃尔玛每小时处理超过100万笔客户交易,这些交易被导入数据库,据估计包含超过2.5 PB(2560 TB)的数据,相当于美国国会图书馆所有书籍所包含信息的167倍。
  • Windermere Real Estate利用近1亿名司机的位置信息,帮助新购房者确定一天中不同时间上下班的典型驾驶时间。[106]
  • FICO卡检测系统保护世界各地的账户。[107]


  • 大型强子对撞机的实验有着大约1.5亿个传感器每秒传送4000万次数据。每秒有近6亿次碰撞。在过滤并避免记录超过99.99995%的流之后,[108]每秒有1000次感兴趣的碰撞。[109][110][111]
    • 因此,仅使用不到0.001%的传感器流数据,所有四个LHC实验的数据流在复制前代表25 PB的年速率。复制后,这将变成近200 PB。
    • 如果所有传感器数据都记录在LHC中,数据流将非常难以处理。在复制之前,数据流的年速率将超过1.5亿PB,即每天近500 EB。从长远来看,这个数字相当于每天500五百万(5×1020)字节,几乎是世界上所有其他数据源总和的200倍。
  • 平方公里阵列(Square Kilometre Array)是一个由数千根天线组成的射电望远镜。预计将于2024年投入使用。这些天线的总容量预计为14 EB,每天存储1 PB。[112][113]它被认为是有史以来最雄心勃勃的科学项目之一。[114]
  • 斯隆数字天空测量(SDSS)在2000年开始收集天文数据时,它在最初几周收集的数据比之前天文学史上收集的所有数据都多。SDS以每晚约200 GB的速度运行,已经积累了超过140 TB的信息。[115] 当SDSS的后继者大型天气观测望远镜在2020年上线时,其设计者预计它将每五天获取如此数量的数据。
  • 解码人类基因组最初需要10年的时间;现在不到一天就可以实现。在过去十年中,DNA测序仪将测序成本除以10000,比摩尔定律预测的成本低100倍。[116]
  • 美国国家航空航天局气候模拟中心(NCCS)在探索超级计算集群上存储了32 PB的气候观测和模拟数据。[117][118]
  • 谷歌的DNAStack对来自世界各地的基因数据的DNA样本进行编译和组织,以识别疾病和其他医疗缺陷。这些快速而精确的计算消除了任何“摩擦点”,或是众多研究DNA的科学和生物学专家中可能出现的人为错误。DNAStack是谷歌基因组学的一部分,它允许科学家使用谷歌搜索服务器上的大量样本资源来规模化社会实验,这些实验通常需要数年的时间。[119][120]
  • 23andMe的DNA数据库包含全世界100多万人的基因信息。[121]该公司探索在患者同意的情况下,将“匿名聚合基因数据”出售给其他研究人员和制药公司用于研究目的。[122][123][124][125][126]杜克大学(Duke University)心理学和神经科学教授艾哈迈德·哈里里(Ahmad Hariri)自2009年以来一直在使用23andMe进行研究。他表示,该公司新服务的最重要方面是,它使科学家可以进行基因研究,而且成本相对较低。[122]一项研究在23andMe的数据库中确定了15个与抑郁症相关的基因组位点,导致访问存储库的需求激增,23andMe在论文发表后的两周内提出了近20个访问抑郁症数据的请求。[127]
  • 计算流体力学(CFD)和流体动力湍流研究产生了大量数据集。约翰·霍普金斯湍流数据库(JHTDB)包含超过350 TB的时空场,这些场来自各种湍流的直接数值模拟。使用下载平面模拟输出文件等传统方法很难共享此类数据。JHTDB中的数据可以使用“虚拟传感器”进行访问,其访问模式多种多样,从直接网络浏览器查询、通过在客户平台上执行的Matlab、Python、Fortran和C程序进行访问,到切断服务下载原始数据。这些数据已用于150多份科学出版物。


In Formula One races, race cars with hundreds of sensors generate terabytes of data. These sensors collect data points from tire pressure to fuel burn efficiency. Based on the data, engineers and data analysts decide whether adjustments should be made in order to win a race. Besides, using big data, race teams try to predict the time they will finish the race beforehand, based on simulations using data collected over the season.



易趣网使用两个7.5 PB和40PB的数据仓库,以及一个40PB的Hadoop集群来进行搜索、消费者推荐和商品销售。

亚马逊每天处理数以百万计的后端操作,以及来自50多万第三方卖家的查询。保持亚马逊运行的核心技术是基于Linux的,他们拥有世界上三大Linux数据库,容量分别为7.8 TB、18.5 TB和24.7 TB。





Governments used big data to track infected people to minimise spread. Early adopters included China, Taiwan, South Korea, and Israel.



Encrypted search and cluster formation in big data were demonstrated in March 2014 at the American Society of Engineering Education. Gautam Siwach engaged at Tackling the challenges of Big Data by MIT Computer Science and Artificial Intelligence Laboratory and Amir Esmailpour at the UNH Research Group investigated the key features of big data as the formation of clusters and their interconnections. They focused on the security of big data and the orientation of the term towards the presence of different types of data in an encrypted form at cloud interface by providing the raw definitions and real-time examples within the technology. Moreover, they proposed an approach for identifying the encoding technique to advance towards an expedited search over encrypted text leading to the security enhancements in big data.[141]

【终译版】2014年3月,美国工程教育学会(American Society of Engineering Education)展示了大数据中的加密搜索和集群形成。麻省理工学院计算机科学和人工智能实验室的Gautam Siwach和UNH研究小组的Amir Esmailpour致力于解决大数据的挑战,他们研究了大数据的关键特征,如集群的形成及其相互关联。他们通过提供技术中的原始定义和实时示例,重点关注大数据的安全性,以及该术语在云接口以加密形式存在不同类型数据的方向。此外,他们还提出了一种识别编码技术的方法,以加快对加密文本的搜索,从而增强大数据的安全性。

In March 2012, The White House announced a national "Big Data Initiative" that consisted of six federal departments and agencies committing more than $200 million to big data research projects.[142]


The initiative included a National Science Foundation "Expeditions in Computing" grant of $10 million over five years to the AMPLab[143] at the University of California, Berkeley.[144] The AMPLab also received funds from DARPA, and over a dozen industrial sponsors and uses big data to attack a wide range of problems from predicting traffic congestion[145] to fighting cancer.[146]

【终译版】该举措包括一个国家科学基金会“计算远征”,该项目将在五年内向加州大学伯克利分校的 AMPLab 提供1000万美元的资助。AMPLab还从DARPA和十几家行业赞助商那里获得资金,并利用大数据解决从预测交通拥堵到抗击癌症等一系列问题。

The White House Big Data Initiative also included a commitment by the Department of Energy to provide $25 million in funding over five years to establish the Scalable Data Management, Analysis and Visualization (SDAV) Institute,[147] led by the Energy Department's Lawrence Berkeley National Laboratory. The SDAV Institute aims to bring together the expertise of six national laboratories and seven universities to develop new tools to help scientists manage and visualize data on the department's supercomputers.


The U.S. state of Massachusetts announced the Massachusetts Big Data Initiative in May 2012, which provides funding from the state government and private companies to a variety of research institutions.[148] The Massachusetts Institute of Technology hosts the Intel Science and Technology Center for Big Data in the MIT Computer Science and Artificial Intelligence Laboratory, combining government, corporate, and institutional funding and research efforts.[149]

【终译版】2012年5月,美国马萨诸塞州宣布了马萨诸塞州大数据计划,该计划由州政府和私营公司向各种研究机构提供资金。麻省理工学院(Massachusetts Institute of Technology)在麻省理工学院计算机科学与人工智能实验室(MIT Computer Science and Artificial Intelligence Laboratory)设立了英特尔大数据科学技术中心(Intel Science and Technology Center for Big Data),该中心将政府、企业和机构的资金和研究工作结合起来。

The European Commission is funding the two-year-long Big Data Public Private Forum through their Seventh Framework Program to engage companies, academics and other stakeholders in discussing big data issues. The project aims to define a strategy in terms of research and innovation to guide supporting actions from the European Commission in the successful implementation of the big data economy. Outcomes of this project will be used as input for Horizon 2020, their next framework program.[150]


The British government announced in March 2014 the founding of the Alan Turing Institute, named after the computer pioneer and code-breaker, which will focus on new ways to collect and analyze large data sets.[151]

【终译版】2014年3月,英国政府宣布成立艾伦·图灵研究所(Alan Turing Institute),该研究所以计算机先驱和破译者的名字命名,将专注于收集和分析大型数据集的新方法。

At the University of Waterloo Stratford Campus Canadian Open Data Experience (CODE) Inspiration Day, participants demonstrated how using data visualization can increase the understanding and appeal of big data sets and communicate their story to the world.[152]


Computational social sciences – Anyone can use application programming interfaces (APIs) provided by big data holders, such as Google and Twitter, to do research in the social and behavioral sciences.[153] Often these APIs are provided for free.[153] Tobias Preis et al. used Google Trends data to demonstrate that Internet users from countries with a higher per capita gross domestic products (GDPs) are more likely to search for information about the future than information about the past. The findings suggest there may be a link between online behaviors and real-world economic indicators.[154][155][156] The authors of the study examined Google queries logs made by ratio of the volume of searches for the coming year (2011) to the volume of searches for the previous year (2009), which they call the "future orientation index".[157] They compared the future orientation index to the per capita GDP of each country, and found a strong tendency for countries where Google users inquire more about the future to have a higher GDP.

【终译版】计算社会科学——任何人都可以使用谷歌和Twitter等大数据持有者提供的应用程序编程接口(API)进行社会和行为科学研究。这些API通常是免费提供的。Tobias Preis等人利用谷歌趋势数据证明,来自人均国内生产总值(GDP)较高国家的互联网用户搜索未来信息的可能性大于搜索过去信息的可能性。研究结果表明,在线行为与现实世界的经济指标之间可能存在联系。这项研究的作者根据下一年(2011年)的搜索量与上一年(2009年)的搜索量之比来检查谷歌的查询日志,他们称之为“未来方向指数”。他们将未来导向指数与每个国家的人均GDP进行了比较,发现谷歌用户查询更多关于未来的国家有更高GDP的强烈趋势。

Tobias Preis and his colleagues Helen Susannah Moat and H. Eugene Stanley introduced a method to identify online precursors for stock market moves, using trading strategies based on search volume data provided by Google Trends.[158] Their analysis of Google search volume for 98 terms of varying financial relevance, published in Scientific Reports,[159] suggests that increases in search volume for financially relevant search terms tend to precede large losses in financial markets.[160][161][162][163][164][165][166]

【终译版】Tobias Preis和他的同事Helen Susannah Moat和H.Eugene Stanley介绍了一种方法,使用基于谷歌趋势(Google Trends)提供的搜索量数据的交易策略,识别股市走势的在线前兆。他们在科学报告中对谷歌98个不同财务相关性的搜索量进行的分析表明,财务相关搜索量的增加往往先于金融市场的巨大损失。

Big data sets come with algorithmic challenges that previously did not exist. Hence, there is seen by some to be a need to fundamentally change the processing ways.[167]

大数据集带来了以前不存在的算法挑战。因此,有些人认为有必要从根本上改变处理方式。Sejdi (2014年3月)。“调整现有工具,以便与大数据一起使用”。自然。507 (7492): 306.


The Workshops on Algorithms for Modern Massive Data Sets (MMDS) bring together computer scientists, statisticians, mathematicians, and data analysis practitioners to discuss algorithmic challenges of big data.[168] Regarding big data, such concepts of magnitude are relative. As it is stated "If the past is of any guidance, then today's big data most likely will not be considered as such in the near future."[72]


Sampling big data


A research question that is asked about big data sets is whether it is necessary to look at the full data to draw certain conclusions about the properties of the data or if is a sample is good enough. The name big data itself contains a term related to size and this is an important characteristic of big data. But sampling enables the selection of right data points from within the larger data set to estimate the characteristics of the whole population. In manufacturing different types of sensory data such as acoustics, vibration, pressure, current, voltage, and controller data are available at short time intervals. To predict downtime it may not be necessary to look at all the data but a sample may be sufficient. Big data can be broken down by various data point categories such as demographic, psychographic, behavioral, and transactional data. With large sets of data points, marketers are able to create and use more customized segments of consumers for more strategic targeting.

There has been some work done in sampling algorithms for big data. A theoretical formulation for sampling Twitter data has been developed.[169]

在大数据的抽样算法方面已经做了一些工作。已经开发了一个抽样 Twitter 数据的理论公式。


Critiques of the big data paradigm come in two flavors: those that question the implications of the approach itself, and those that question the way it is currently done.[170] One approach to this criticism is the field of critical data studies.



"A crucial problem is that we do not know much about the underlying empirical micro-processes that lead to the emergence of the[se] typical network characteristics of Big Data."[17] In their critique, Snijders, Matzat, and Reips point out that often very strong assumptions are made about mathematical properties that may not at all reflect what is really going on at the level of micro-processes. Mark Graham has leveled broad critiques at Chris Anderson's assertion that big data will spell the end of theory:[171] focusing in particular on the notion that big data must always be contextualized in their social, economic, and political contexts.[172] Even as companies invest eight- and nine-figure sums to derive insight from information streaming in from suppliers and customers, less than 40% of employees have sufficiently mature processes and skills to do so. To overcome this insight deficit, big data, no matter how comprehensive or well analyzed, must be complemented by "big judgment", according to an article in the Harvard Business Review.[173]

【终译版】“一个关键问题是,我们对导致大数据典型网络特征出现的潜在经验微观过程知之甚少。”Snijders、Matzat和Reips在他们的评论中指出,通常对数学性质做出非常强烈的假设,这些假设可能根本无法反映微观过程上的真实情况。马克·格雷厄姆(Mark Graham)批评了克里斯·安德森(Chris Anderson)关于大数据将意味着理论的终结的断言:他特别关注大数据必须始终在其社会、经济和政治背景下进行语境化的概念。尽管公司投入8位数甚至9位数的资金,从供应商和客户的信息流中获取洞察力,但只有不到40%的员工拥有足够成熟的技能。根据《哈佛商业评论》(Harvard Business Review)上的一篇文章,为了克服这种洞察力缺陷,大数据无论多么全面或分析得多么好,都必须辅之以“综合判断力”。

Much in the same line, it has been pointed out that the decisions based on the analysis of big data are inevitably "informed by the world as it was in the past, or, at best, as it currently is".[52] Fed by a large number of data on past experiences, algorithms can predict future development if the future is similar to the past.[174] If the system's dynamics of the future change (if it is not a stationary process), the past can say little about the future. In order to make predictions in changing environments, it would be necessary to have a thorough understanding of the systems dynamic, which requires theory.[174] As a response to this critique Alemany Oliver and Vayre suggest to use "abductive reasoning as a first step in the research process in order to bring context to consumers' digital traces and make new theories emerge".[175] Additionally, it has been suggested to combine big data approaches with computer simulations, such as agent-based models[52] and complex systems. Agent-based models are increasingly getting better in predicting the outcome of social complexities of even unknown future scenarios through computer simulations that are based on a collection of mutually interdependent algorithms.[176][177] Finally, the use of multivariate methods that probe for the latent structure of the data, such as factor analysis and cluster analysis, have proven useful as analytic approaches that go well beyond the bi-variate approaches (e.g. contingency tables) typically employed with smaller data sets.

【终译版】与此大致相同的是,有人指出,基于大数据分析的决策不可避免地“像过去一样,或者充其量也像现在一样,受到世界的影响”。如果未来与过去相似,通过大量关于过去经验的数据,算法可以预测未来的发展。如果系统对未来的动态变化(如果它不是一个平稳的过程),那么过去对未来的影响就很小。为了在不断变化的环境中做出预测,有必要对系统动力学有一个透彻的了解。作为对这一批评的回应,Alemany Oliver和Vayre建议使用“诱因推理作为研究过程的第一步,以便为消费者的数字痕迹提供背景,并使新的理论出现”。此外,有人建议将大数据方法与计算机模拟相结合,例如基于代理的模型和复杂系统。通过基于一系列相互依赖的算法的计算机模拟,基于代理的模型在预测甚至未知场景的社会复杂性的结果方面越来越好。最后,探索数据潜在结构的多变量方法的使用,如因子分析和聚类分析,已被证明是有用的分析方法,远远超出了通常用于较小数据集的双变量方法。

In health and biology, conventional scientific approaches are based on experimentation. For these approaches, the limiting factor is the relevant data that can confirm or refute the initial hypothesis.[178] A new postulate is accepted now in biosciences: the information provided by the data in huge volumes (omics) without prior hypothesis is complementary and sometimes necessary to conventional approaches based on experimentation.[179][180] In the massive approaches it is the formulation of a relevant hypothesis to explain the data that is the limiting factor.[181] The search logic is reversed and the limits of induction ("Glory of Science and Philosophy scandal", C. D. Broad, 1926) are to be considered.[citation needed]

在健康和生物学领域,传统的科学方法是建立在实验的基础上的。对于这些方法,限制因素是相关的数据,可以证实或反驳最初的假设。生物科学现在接受了一个新的假设: 没有事先假设的大量数据(组学)所提供的信息是互补的,有时是基于实验的传统方法所必需的。在大量的方法中,它是一个相关假设的表述,以解释数据,这是限制因素。搜索的逻辑是颠倒的,归纳法的局限性(“科学的荣耀与哲学的丑闻”,C.d. 布罗德,1926)是需要考虑的。


Privacy advocates are concerned about the threat to privacy represented by increasing storage and integration of personally identifiable information; expert panels have released various policy recommendations to conform practice to expectations of privacy.[182] The misuse of big data in several cases by media, companies, and even the government has allowed for abolition of trust in almost every fundamental institution holding up society.[183]


Nayef Al-Rodhan argues that a new kind of social contract will be needed to protect individual liberties in the context of big data and giant corporations that own vast amounts of information, and that the use of big data should be monitored and better regulated at the national and international levels.[184] Barocas and Nissenbaum argue that one way of protecting individual users is by being informed about the types of information being collected, with whom it is shared, under what constraints and for what purposes.[185]

【终译版】Nayef Al-Rodhan认为,在大数据和拥有大量信息的大公司的背景下,需要一种新的社会契约来保护个人自由,大数据的使用应该在国家和国际层面受到更好的监管。Barocas和Nissenbaum认为,保护个人用户的一种方法是,让用户了解所收集的信息类型、与谁共享信息、在什么约束下以及出于什么目的。

The "V" model of big data is concerning as it centers around computational scalability and lacks in a loss around the perceptibility and understandability of information. This led to the framework of cognitive big data, which characterizes big data applications according to:[186]

  • Data completeness: understanding of the non-obvious from data
  • Data correlation, causation, and predictability: causality as not essential requirement to achieve predictability
  • Explainability and interpretability: humans desire to understand and accept what they understand, where algorithms do not cope with this
  • Level of automated decision making: algorithms that support automated decision making and algorithmic self-learning

Ulf-Dietrich Reips and Uwe Matzat wrote in 2014 that big data had become a "fad" in scientific research.[153] Researcher danah boyd has raised concerns about the use of big data in science neglecting principles such as choosing a representative sample by being too concerned about handling the huge amounts of data.[187] This approach may lead to results that have a bias in one way or another.[188] Integration across heterogeneous data resources—some that might be considered big data and others not—presents formidable logistical as well as analytical challenges, but many researchers argue that such integrations are likely to represent the most promising new frontiers in science.[189] In the provocative article "Critical Questions for Big Data",[190] the authors title big data a part of mythology: "large data sets offer a higher form of intelligence and knowledge [...], with the aura of truth, objectivity, and accuracy". Users of big data are often "lost in the sheer volume of numbers", and "working with Big Data is still subjective, and what it quantifies does not necessarily have a closer claim on objective truth".[190] Recent developments in BI domain, such as pro-active reporting especially target improvements in the usability of big data, through automated filtering of non-useful data and correlations.[191] Big structures are full of spurious correlations[192] either because of non-causal coincidences (law of truly large numbers), solely nature of big randomness[193] (Ramsey theory), or existence of non-included factors so the hope, of early experimenters to make large databases of numbers "speak for themselves" and revolutionize scientific method, is questioned.[194]

Big data analysis is often shallow compared to analysis of smaller data sets.[195] In many big data projects, there is no large data analysis happening, but the challenge is the extract, transform, load part of data pre-processing.[195]

【终译版】Ulf Dietrich Reips和Uwe Matzat在2014年写道,大数据已经成为科学研究的“风潮”。研究人员Danah Boyd对大数据在科学中的使用提出了担忧,因为研究往往忽略了一些原则,比如选择代表性样本时过于关注处理大量数据,这种方法可能会导致结果在某种程度上存在偏差。大量异构数据资源的集成(有些被认为是大数据,有些则不是)带来巨大的后勤和分析挑战,但许多研究人员认为,这种集成可能代表着科学领域最有前途的新前沿。在这篇颇具煽动性的文章《大数据的关键问题》(Critical Questions for Big Data)中,作者将大数据称为神话的一部分:“大数据集提供了更高形式的智能和知识……大数据的用户往往“迷失在庞大的数据量中”,而且“使用大数据仍然是主观的,它量化的东西不一定能够更接近客观事实”。BI领域的最新发展,例如前瞻性报告,特别是通过自动过滤无用数据及相关性来改善大数据的可用性。大数据充满了虚假的相关性,要么是因为非因果巧合(真大数定律),要么是大随机数的唯一性(拉姆齐理论)或其他未发现的因素,因此早期实验者建立大型数字数据库“用数据说话”以及宣称的革新科学方法都受到了质疑。


Big data is a buzzword and a "vague term",[196][197] but at the same time an "obsession"[197] with entrepreneurs, consultants, scientists, and the media. Big data showcases such as Google Flu Trends failed to deliver good predictions in recent years, overstating the flu outbreaks by a factor of two. Similarly, Academy awards and election predictions solely based on Twitter were more often off than on target. Big data often poses the same challenges as small data; adding more data does not solve problems of bias, but may emphasize other problems. In particular data sources such as Twitter are not representative of the overall population, and results drawn from such sources may then lead to wrong conclusions. Google Translate—which is based on big data statistical analysis of text—does a good job at translating web pages. However, results from specialized domains may be dramatically skewed. On the other hand, big data may also introduce new problems, such as the multiple comparisons problem: simultaneously testing a large set of hypotheses is likely to produce many false results that mistakenly appear significant. Ioannidis argued that "most published research findings are false"[198] due to essentially the same effect: when many scientific teams and researchers each perform many experiments (i.e. process a big amount of scientific data; although not with big data technology), the likelihood of a "significant" result being false grows fast – even more so, when only positive results are published. Furthermore, big data analytics results are only as good as the model on which they are predicated. In an example, big data took part in attempting to predict the results of the 2016 U.S. Presidential Election[199] with varying degrees of success.

【终译版】大数据是一个时髦的“模糊术语”,但同时也是企业家、咨询师、科学家和媒体的关注热点。近年来,谷歌流感趋势(Google Flu Trends)等大数据应用在最近几年未能提供好的预测,将流感疫情高估了两倍。类似地,基于Twitter的奥斯卡奖和选举预测往往偏离目标。大数据往往与小数据面临同样的挑战;添加更多数据并不能解决偏见问题,甚至可能会强调其他问题。尤其是Twitter等数据源不能代表整体人口的意见,从这些数据源得出的结果可能会导致错误结论。基于文本大数据统计分析的谷歌翻译在翻译网页方面做得很好。然而,来自专门领域的结果可能会有很大的偏差。另一方面,大数据也可能带来新的问题,比如多重比较问题:同时测试大量假设可能会产生许多错误的结果,这些结果被错误地认为是重要的。Ioannidis认为,“大多数已发表的研究结果都是错误的”,其原因基本上是相同的:当许多科学团队和研究人员各自进行许多实验(即处理大量科学数据;尽管没有使用大数据技术),一个“重大”结果被错误的可能性会迅速增加。而当只有正面的结果被公布时,这种可能性更大。


Critiques of big data policing and surveillance

Big data has been used in policing and surveillance by institutions like law enforcement and corporations.[200] Due to the less visible nature of data-based surveillance as compared to traditional methods of policing, objections to big data policing are less likely to arise. According to Sarah Brayne's Big Data Surveillance: The Case of Policing,[201] big data policing can reproduce existing societal inequalities in three ways:

大数据已被执法和企业等机构用于警务和监视。与传统的警务方法相比,基于数据的监控不那么明显,因此反对大数据警务的可能性较小。根据Sarah Brayne的《大数据监控:警务案例》(Big Data Surveillance: The Case of Policing),大数据警务会通过三种方式加剧现有的社会不平等:



大数据已被执法和企业等机构用于警务和监视。与传统的警务方法相比,基于数据的监控不那么明显,因此反对大数据警务的可能性较小。根据Sarah Brayne的《大数据监控:警务案例》(Big Data Surveillance: The Case of Policing),大数据警务会通过三种方式加剧现有的社会不平等:





In popular culture


  • Moneyball is a non-fiction book that explores how the Oakland Athletics used statistical analysis to outperform teams with larger budgets. In 2011 a film adaptation starring Brad Pitt was released.
《点球成金》是一本非小说类书籍,书中探讨了奥克兰运动家是如何利用统计分析来超越那些预算较大的团队的。2011年,由布拉德 · 皮特主演的改编电影上映。



  • In The Dark Knight, Batman uses a sonar device that can spy on all of Gotham City. The data is gathered from the mobile phones of people within the city.
  • 在《蝙蝠侠: 黑暗骑士》中,蝙蝠侠使用了一种可以监视整个哥谭市的声纳设备。这些数据是通过城市里人们的手机收集的。


在《蝙蝠侠: 黑暗骑士》中,蝙蝠侠使用的声纳设备可以监视整个哥谭市,这些数据是通过市内居民的手机收集的。



