数据科学

来自集智百科
跳到导航 跳到搜索
机器学习与数据挖掘

数据科学 Data science数据挖掘和大数据有关,是一个通过科学的方法、过程、算法和系统从众多结构化和非结构化的数据中提取知识和见解的跨学科领域。 [1] [2]


数据科学的概念结合了统计学、数据分析、机器学习等相关方法,以便于借助数据理解和分析实际现象。 它使用了从数学统计学信息科学计算机科学等许多学科领域获得的技术与理论。图灵奖得主吉姆·格雷 Jim Gray将数据科学设想为一种科学的“第四范式”(经验主义理论研究、计算机辅助,现在是数据驱动),并且断言由于信息技术和数据洪流的影响,所有关于科学的事物都在不断地发生改变。 [3] [4]


在2012年《哈佛商业评论》称其为“21世纪最富有魅力的工作”后,“数据科学”成了一个流行术语。它现在经常与早期概念互换使用,例如商业分析 [5]商业智能预测模型统计学。“数据科学富有魅力”的观点甚至被汉斯·罗斯林 Hans Rosling博士在2011年BBC纪录片中转述为“统计学是当今世界最具吸引力的学科”。内特·西尔弗 Nate Silver [6] 则将数据科学描述为一种对于统计学家更具吸引力的词语。


在许多场合,为了博人眼球,一些早期的解决方案现在被简单地打上了“数据科学”的旗号,而这可能冲淡这个术语的效用。 [7] 虽然现在许多大学的项目都提供数据科学学位,然而它们对数据科学的定义或者合适的课程内容都没有达成一致。 [5] 数据科学学位分量大跌,究其原因是许多数据科学和大数据项目没能给出有用的结果,而这通常是糟糕的管理和资源利用造成的。 [8] [9] [10] [11]

背景

数据科学是一个跨学科的领域,致力于从数据集中提取知识,这些数据集通常都很大(请参阅大数据)。[12] 该领域包括分析,准备分析数据,及呈现结果,以此为组织的高层决策提供依据。因此,它融合了计算机科学、数学、统计学、信息可视化、图形设计和商业方面的技能。[13][14]统计学家丘南森 Nathan Yau借鉴本•弗莱 Ben Fry的观点,将数据科学和人机交互联系起来: 用户应该能够直观地控制和探索数据。[15][16] 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。[17]

术语词义衍变

早期使用

“数据科学”在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被彼得·诺尔 Peter Naur用作计算机科学的代名词。诺尔后来引入了“数据学” datalogy这一术语。 [18]


1962年,约翰•图基 John Tukey描述了一个他称之为“数据分析”的领域,这个领域类似于现代的数据科学。[19] 之后,1992年,在蒙彼利埃第二大学举办的统计研讨会上,与会者们承认了一个新的学科的出现,这个学科专注于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算结合起来。[20][21]


“数据科学”这一术语可以追溯到1974年,当时Peter Naur将其作为计算机科学的替代名称提出。[22] 1996年,国际分级社团联盟 International Federation of Classification Societies成为第一个以数据科学为专题的会议。[23] 不过,关于数据科学的定义仍在不断变化。1997年,吴建福(C.F.Jeff Wu)建议将统计学重新命名为数据科学。他认为,新的名称将有助于统计学摆脱不准确的刻板印象,例如被认为是会计的同义词,或仅限于描述数据。1998年,林知己夫 Chikio Hayashi主张将数据科学作为一个新的跨学科概念,包括三个方面:数据设计、收集和分析。


在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”[24][22]

现代用法

数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰 William S. Cleveland。[25] 在2001年的一篇论文中,他主张将统计学从理论扩展到技术领域;由于这将大大改变这个领域,因此它需要一个新的名称。在接下来的几年里,“数据科学”的应用更加广泛:2002年,数据科学与技术分会 CODATA [26] 创办了数据科学期刊 Data Science Journal[27]2014年,美国统计协会将其统计学习与数据挖掘部更名为统计学习与数据科学部,这反映了数据科学的日益普及。


2008年,帕蒂尔 DJ Patil和杰弗·哈梅巴赫 Jeff Hammerbacher共同提出了“数据科学家”这一职称名词。[28]尽管美国国家科学委员会 National Science Board在其2005年的报告《长期数字数据收集: 促进21世纪的研究和教育》 Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century中使用了这个词,但它泛指在数字化数据收集管理中起关键性作用的人。[29]


目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。[30]

研究内容

数据科学基础理论

数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是--"基础理论"与"理论基础"是两个不同的概念。数据科学的"基础理论"在数据科学的研究边界之内,而其"理论基础"在数据科学的研究边界之外,是数据科学的理论依据和来源。


数据预处理

为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理--进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。


数据计算

在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。 数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。


数据管理

在完成"数据预处理"(或"数据计算")之后,我们需要对数据进行管理,以便进行(再次进行)"数据处理"以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变--不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。

数据科学的相关职业

数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。[31] 数据科学家的平均薪资为每年118,370美元或每小时56.91美元。[32] 该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。[32]美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。[32] 通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。


教育路径

要成为一名数据科学家,需要接受充分教育、积累大量经验。成为数据科学家的第一步通常是取得与计算或数学相关的学士学位;[33][34]其他领域的学士也可以通过参加编程训练营作为补充,获取资格。[33] 大多数数据科学家也在该领域取得了硕士或博士学位。达成这些条件后,下一步就是申请该领域的入门级工作。一些数据科学家以后可能会选择专攻数据科学的某个分支领域。[33]


专业细分和相关职业

  • 机器学习科学家: 机器学习科学家研究数据分析新方法,创立算法.[35]
  • 数据分析师: 数据分析师利用大型数据集来收集信息,以满足公司需求[35]
  • 数据顾问: 数据顾问与企业合作,以确定对数据分析产生的信息的最佳利用[33]
  • 数据架构师: 数据架构师提供针对性能和设计应用优化的数据解决方案[35]
  • 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.[35]

数据科学的影响

大数据正在迅速成为不同规模的企业和公司的重要工具。[36]大数据的可用性和对其的解释说明改变了旧行业的商业模式,并促进了新行业的产生。[36] 2015年,数据驱动型企业的总价值为3330亿,到2020年,这一数值已经增长到1.2万亿。[37] 数据科学家负责将大数据分解为可用信息,并创建软件和算法,来帮助公司和组织确定最佳操作。大数据持续对世界产生重大影响,由于两者之间的密切关系,数据科学也产生了同样重大的影响。[37]


大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷 Jim Gray在他最后一次演讲中描绘了数据密集型科学研究的“第四范式” The Fourth Paradigm,把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。


不仅如此,数据分析几乎涉及到了现代数学的所有分支。甚至于像表示论这样的极其抽象的分支,在数据科学领域也有其发挥作用的余地。所以数据科学对数学的要求和推动是全面的,而不是仅仅局限在几个领域。数据应该成为数、图形和方程之外数学研究的基本对象之一。


对计算机学科的影响

数据科学对计算机科学的发展也会带来很大的影响。图灵奖得主John Hopcroft曾经指出,在过去的几十年里,计算机科学的研究对象主要是计算机本身,包括硬件和软件。以后计算机科学的发展将主要围绕应用展开。而从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强。


对统计学的影响

再看统计学。统计学一直就是一门研究数据的学科。所以它也是数据科学最核心的部分之一。但在数据科学的框架之下,统计学的发展也会受到很大的冲击。


这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。

所涉及的科技和技术

根据应用的不同,数据科学采用了多种不同的科技和技术。

技术

聚类

聚类是一种将数据分组整合的技术。


聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。


聚类的基本思想:

  1. 有大量的样本。
  2. 假定研究的样本之间存在程度不同的相似性,可以分为几类;相同类别的样本相似度高,不同类别的样本相似度差。
  3. 用一些数据指标来描述样本的若干属性,构成向量。
  4. 用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。
  5. 根据分类来研究各类样本的共性,找出规律。


降维

降维用于降低数据计算的复杂度,从而提高计算速度。


数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。


数据降维有两种方式:特征选择,维度转换。


  • 特征选择

特征选择指根据一定的规则和经验,直接在原有的维度中挑选一部分参与到计算和建模过程,用选择的特征代替所有特征,不改变原有特征,也不产生新的特征值。 特征选择的降维方式好处是可以保留原有维度特征的基础上进行降维,既能满足后续数据处理和建模需求,又能保留维度原本的业务含义,以便于业务理解和应用。对于业务分析性的应用而言,模型的可理解性和可用性很多时候要有限于模型本身的准确率、效率等技术指标。例如,决策树得到的特征规则,可以作为选择用户样本的基础条件,而这些特征规则便是基于输入的维度产生。

  • 维度转换

维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析 ICA,主成分分析 PCA,因子分析 Factor Analysis,FA,线性判别分析 LDA,局部线性嵌入 LLE,核主成分分析 Kernel PCA等。


机器学习

机器学习是一种通过从数据中推断模式来执行任务的技术。


专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。


科技

Python语言

Python是数据科学中广泛使用的一种语法简单的编程语言。[38]数据科学中使用了大量的python库,包括numpy、panda和scipy。


R语言

R语言是一种为统计学家和数据挖掘而设计的编程语言,[39] 并优化了计算。


R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:

  1. R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能;
  2. R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到;
  3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等;
  4. R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口;
  5. 如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。


TensorFlow

TensorFlow是由Google开发的用于创建机器学习模型的框架。


Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于数据流编程 Dataflow Programming 的符号数学系统,被广泛应用于各类机器学习 Machine Learning算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。


Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 TensorFlow由谷歌人工智能团队谷歌大脑 Google Brain 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类应用程序接口 Application Programming Interface。自2015年11月9日起,TensorFlow依据阿帕奇授权协议 Apache 2.0 open source license 开放源代码 。


Pytorch

Pytorch是Facebook开发的另一个机器学习框架。


PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。 2017年1月,由Facebook人工智能研究院(FAIR)基于Torch推出了PyTorch。它是一个基于Python的可续计算包,提供两个高级功能:

  1. 具有强大的GPU加速的张量计算(如NumPy)。
  2. 包含自动求导系统的的深度神经网络。


Jupyter Notebook

Jupyter Notebook是一个用于Python的交互式web界面,可以更快地进行实验。


Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。


Tableau软件

Tableau制作了许多用于数据可视化的软件。[40].


Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。


Apache Hadoop

Apache Hadoop是一个用于在大型分布式系统上处理数据的软件框架。


它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。


与机器学习、人工智能之间的异同

需要清楚的是,数据科学、机器学习、人工智能这三者之间的限定并不是那么绝对:并不是所有符合每个定义的东西都只属于这个领域。使用的是描述性的方法而不是说明性的方法来说明这三者的区别:

  • 数据科学产生见解
  • 机器学习产生预测
  • 人工智能产生行为


数据科学负责见解

数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。杰夫·利克 Jeff Leek 对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。


同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。


因此,数据科学的定义强调:

  1. 统计推断
  2. 数据可视化
  3. 实验设计
  4. 领域知识
  5. 沟通

数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。


机器学习负责预测

机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。


数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。


像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。


大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。


人工智能负责行为

人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。


在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括:


  1. 游戏算法(Deep Blue,AlphaGo)
  2. 机器人技术与控制理论(运动规划,行走两足机器人)
  3. 优化(谷歌地图选择路线)
  4. 自然语言处理(bots)
  5. 强化学习

同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。


但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。


人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。


案例研究:三项技术如何一起使用?

假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。


机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。


人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。


数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。


来源:https://blog.csdn.net/dev_csdn/article/details/79127658 翻译原文http://varianceexplained.org/r/ds-ml-ai/ 原文作者:David Robinson

与统计学的关系

飞速增长的职位空缺表明“数据科学”的概念在商业界和学术界可谓一夜蹿红。 [41] 然而许多持批判态度的学者和新闻记者并没有看出数据科学与统计学的区别。吉尔·普莱斯 Gil Press在福布斯杂志上撰文主张数据科学只是一个缺乏清晰定义的流行术语,并且在诸如研究生的课程内容中成了“商业分析”的简单替代。 [5]


包括纳特•西尔弗 Nate Silver 在内的许多统计学家都认为,数据科学不是一个新领域,而是统计学的另一个名称。[42] 其他人则认为,数据科学与统计学不同,因为它关注的是数字化数据特有的问题和技术。[43] 瓦桑特·达尔 Vasant Dhar写道,统计学强调定量的数据和描述。相比之下,数据科学处理定量和定性的数据(例如,图像),并强调预测和行动。[44]哥伦比亚大学的安德鲁·格尔曼 Andrew Gelman 和数据科学家文森特·格兰维尔 Vincent Granville将统计学描述为数据科学中一个不重要的部分。[45][46]


斯坦福大学教授 大卫·多诺霍 David Donoho 写道,数据科学与统计学的区别不在于数据集的大小或计算的使用,许多研究生课程误导性地将他们的分析与统计培训宣传为数据科学课程的核心。他把数据科学描述为从传统统计学中发展出来的一个应用领域。[19]


美国统计协会的联合统计学会议上发表主旨演说后的问答部分,著名应用统计学家纳特·西尔弗 Nate Silver说道:“我认为数据科学家对于统计学家是一个富有魅力的词语…统计学是科学的一条分支。数据科学家在某种意义上略显多余,而且人们不应该痛斥统计学家这个词。” [6] 同样,在商业领域,各方研究者和分析师表示,仅仅有数据科学家远远不足以赋予公司真正的竞争优势, [47] 而且,仅仅把数据科学家看作四项更伟大的工作种类之一,各公司需要为大数据进行有效的融资,亦即:数据分析师、数据科学家、大数据开发者和大数据工程师[48]


另一方面,也有无数对批评的回应。在2014年一篇《华尔街日报》的文章中,欧文·沃拉达斯凯-伯杰 Irving Wladawsky-Berger比较了数据科学的狂热与计算机科学的黎明。他坚称,就像其他交叉学科领域一样,数据科学利用来自学术界工业界方法论和实践,但之后会将它们变成一个新学科。他特别强调了现在一个广受认可的学术科目计算机科学曾面临的尖锐批评。 [49] 类似地,就像许多其他数据科学学界支持者一样, [49] 纽约大学斯特恩商学院的瓦桑特·达尔 Vasant Dhar在2013年12月更加明确地表示数据科学与现存的仅仅聚焦于解释数据集的横跨所有学科的数据分析实践不同。数据科学为预测模型寻求了可行和一致的模式[1] 这项实际的工程目标采用了超越了传统数据分析的数据科学。如今这些学科和应用领域的数据缺乏可靠理论以供形成有力的预测模型,就像健康科学社会科学那样。 [1]


斯坦福大学教授大卫·多诺霍 David Donoho于2015年9月在一次与达尔类似的尝试中,通过抵制批评界对数据科学的三种过分简单化和误导性的定义,提出了更长远的主张。 [34] 第一,对多诺霍而言,数据科学不等同于大数据,因为数据集的规模不是区分数据科学和统计学的标准。 [34] 第二,数据科学不是由将大数据集分类整理的计算技能定义的,因为这些技能已经被广泛地用作所有学科的分析。 [34] 第三,数据科学现在是一个学术项目尚不足以给数据科学家日后的工作提供充足准备,而已然得到大量应用的领域,因为许多研究生项目带有误导性地宣传他们的分析和统计学训练是一个数据科学项目的实质。 [34] [50] 作为一名统计学家多诺霍继承了学界诸多前辈的衣钵,拥护着数据科学研究范围的扩充, [34] 就像约翰·钱伯斯 John Chambers极力主张统计学家采用一种包容的从数据中学习的概念、 [51] 威廉·克利夫兰 William Cleveland强调把从数据中提取具有应用价值的预测工具摆在比发掘解释性理论更高的优先级上一样。这些统计学家们共同展望着一个日益包容、从传统的统计学中生长出来并青出于蓝而胜于蓝的应用领域。


为了数据科学的未来,多诺霍为开放性科学规划了一个不断成长的环境,使所有研究者都可以访问用于学术出版物的数据集。 [34] 美国国家卫生研究院已经宣布了提高研究数据再现性和透明度的计划。 [52] 其它的大型期刊亦紧随其后。 [53] [54] 这样,数据科学的未来不仅在规模和方法论上超越了统计学理论的界线,它还会彻底革新现在的学术和研究范式[34]


诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。”[34]

参考文献

  1. 1.0 1.1 1.2 Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64. doi:10.1145/2500499.
  2. Jeff Leek 2013-12-12. The key word in "Data Science" is not Data, it is Science. Simply Statistics.
  3. Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. https://books.google.com/books?id=oGs_AQAAIAAJ. 
  4. Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075.
  5. 5.0 5.1 5.2 Data Science: What's The Half-Life Of A Buzzword?. Forbes.2013-08-19.
  6. 6.0 6.1 "Nate Silver: What I need from statisticians". 23 Aug 2013
  7. Warden, Pete(2011-05-09). "Why the term "data science" is flawed but useful" O'Reilly Radar. Retrieved 2018-05-20.
  8. "Are You Setting Your Data Scientists Up to Fail?". Harvard Business Review.2018-01-25. Retrieved 2018-05-26.
  9. "70% of Big Data projects in UK fail to realise full potential" www.consultancy.uk. Retrieved 2018-05-26.
  10. "The Data Economy: Why do so many analytics projects fail? - Analytics Magazine". Analytics Magazine. 2014-07-07. Retrieved 2018-05-26.
  11. "Data Science: 4 Reasons Why Most Are Failing to Deliver". www.kdnuggets.com. Retrieved 2018-05-26.
  12. "About Data Science | Data Science Association". www.datascienceassn.org. Retrieved 2020-04-03.
  13. "1. Introduction: What Is Data Science? - Doing Data Science [Book]". www.oreilly.com (in English). Retrieved 2020-04-03.
  14. "the three sexy skills of data geeks". m.e.driscoll: data utopian (in English). Retrieved 2020-04-03.
  15. Yau, Nathan (2009-06-04). "Rise of the Data Scientist". FlowingData (in English). Retrieved 2020-04-03.
  16. "Basic Example". benfry.com. Retrieved 2020-04-03.
  17. "ASA Statement on the Role of Statistics in Data Science". AMSTATNEWS. American Statistical Association. 2015-10-01. Archived from the original on 20 June 2019. Retrieved 2019-05-29.
  18. Naur, Peter (1 July 1966). "The science of datalogy". Communications of the ACM. 9 (7): 485. doi:10.1145/365719.366510.
  19. 19.0 19.1 Donoho, David (September 18, 2015). "50 years of Data Science" (PDF). Retrieved April 2, 2020.
  20. Data science and its applications = La @science des données et ses applications. Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.. Tokyo: Academic Press/Harcourt Brace. 1995. ISBN 0-12-241770-4. OCLC 489990740. 
  21. Murtagh, Fionn; Devlin, Keith (2018). "The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development". Big Data and Cognitive Computing (in English). 2 (2): 14. doi:10.3390/bdcc2020014.
  22. 22.0 22.1 CaoLongbing (2017-06-29). "Data Science". ACM Computing Surveys (CSUR) (in English). 50 (3): 1–42. doi:10.1145/3076253.
  23. Wu, C.F. Jeff. "Statistics=Data Science?" (PDF). Retrieved April 2, 2020.
  24. Press, Gil. "A Very Short History Of Data Science". Forbes (in English). Retrieved 2020-04-03.
  25. Gupta, Shanti (December 11, 2015). "William S Cleveland". Retrieved April 2, 2020.
  26. International Council for Science : Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science : Committee on Data for Science and Technology: http://www.codata.org/
  27. Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols
  28. Davenport, Thomas H.; Patil, D. J. (2012-10-01). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review (October 2012). ISSN 0017-8012. Retrieved 2020-04-03.
  29. "US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". www.nsf.gov. Retrieved 2020-04-03.
  30. Press, Gil. "Data Science: What's The Half-Life Of A Buzzword?". Forbes (in English). Retrieved 2020-04-03.
  31. "Best Jobs in America". Glassdoor (in English). Retrieved 2020-04-03.
  32. 32.0 32.1 32.2 "Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics". www.bls.gov (in English). Retrieved 2020-04-03.
  33. 33.0 33.1 33.2 33.3 "What is a Data Scientist?". Master's in Data Science (in English). Retrieved 2020-04-03.
  34. 34.0 34.1 34.2 34.3 34.4 34.5 34.6 34.7 34.8 Donoho, David (September 2015). "50 Years of Data Science" (PDF). Based on a talk at Tukey Centennial workshop, Princeton NJ Sept 18 2015.
  35. 35.0 35.1 35.2 35.3 "11 Data Science Careers Shaping the Future". Northeastern University Graduate Programs (in English). 2018-11-23. Retrieved 2020-04-03.
  36. 36.0 36.1 Pham, Peter. "The Impacts Of Big Data That You May Not Have Heard Of". Forbes (in English). Retrieved 2020-04-03.
  37. 37.0 37.1 Martin, Sophia (2019-09-20). "How Data Science will Impact Future of Businesses?". Medium (in English). Retrieved 2020-04-03.
  38. Shell, M Scott (September 24, 2019). "An introduction to Python for scientific computing" (PDF). Retrieved April 2, 2020.
  39. "R FAQ". cran.r-project.org. Retrieved 2020-04-03.
  40. Rhodes, Margaret (15 July 2014). "A Dead-Simple Tool That Lets Anyone Create Interactive Maps". Wired. Retrieved 2020-04-03.
  41. Darrow,Barb(May 21, 2015). "Data science is still white hot, but nothing lasts forever" .Fortune. Retrieved November 20, 2017.
  42. "Nate Silver: What I need from statisticians - Statistics Views". www.statisticsviews.com. Retrieved 2020-04-03.
  43. "What's the Difference Between Data Science and Statistics?". Priceonomics (in English). Retrieved 2020-04-03.
  44. DharVasant (2013-12-01). "Data science and prediction". Communications of the ACM (in English). 56 (12): 64–73. doi:10.1145/2500499.
  45. "Statistics is the least important part of data science « Statistical Modeling, Causal Inference, and Social Science". statmodeling.stat.columbia.edu. Retrieved 2020-04-03.
  46. Posted by Vincent Granville on December 8, 2014 at 5:00pm; Blog, View. "Data science without statistics is possible, even desirable". www.datasciencecentral.com (in English). Retrieved 2020-04-03.
  47. Miller, Steven (2014-04-10). "Collaborative Approaches Needed to Close the Big Data Skills Gap". Journal of Organization Design (in English). 3 (1): 26–30. doi:10.7146/jod.9823. ISSN 2245-408X.
  48. De Mauro, Andrea; Greco, Marco; Grimaldi, Michele; Ritala, Paavo. "Human resources for Big Data professions: A systematic classification of job roles and required skill sets". Information Processing & Management. doi:10.1016/j.ipm.2017.05.004.
  49. 49.0 49.1 Wladawsky-Berger,Irving (May 2, 2014). "Why Do We Need Data Science When We’ve Had Statistics for Centuries?". The Wall Street Journal. Retrieved November 20, 2017.
  50. Barlow, Mike (2013). The Culture of Big Data. O'Reilly Media, Inc.. 
  51. Chambers, John M. (1993-12-01). "Greater or lesser statistics: a choice for future research". Statistics and Computing (in English). 3 (4): 182–184. doi:10.1007/BF00141776. ISSN 0960-3174.
  52. Collins, Francis S.; Tabak, Lawrence A. (2014-01-30). "NIH plans to enhance reproducibility". Nature. 505 (7485): 612–613. doi:10.1038/505612a. ISSN 0028-0836. PMC 4058759. PMID 24482835.
  53. McNutt, Marcia (2014-01-17). "Reproducibility". Science (in English). 343 (6168): 229–229. doi:10.1126/science.1250475. ISSN 0036-8075. PMID 24436391.
  54. Peng, Roger D. (2009-07-01). "Reproducible research and Biostatistics". Biostatistics (in English). 10 (3): 405–408. doi:10.1093/biostatistics/kxp014. ISSN 1465-4644.

编者推荐

书籍推荐

《数据科学实战》封面

数据科学实战

该书籍界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。


数据科学入门

本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。


视频推荐

数据科学的数学基础

微积分、线性代数以及最优化理论基础是机器学习领域所需的基本数学理论。本视频主要介绍微积分理论中的一元微分学、一元积分学和多元微分学,线性代数中的线性方程组和矩阵的基本运算,以及最优化理论基础中的经典理论和算法。适合零基础或者需要回顾相关知识的同学观看。


课程推荐

数据科学心法与机器学习实战

本课程是由具有16年数据科学工作经验的尹相志老师亲自教授的,以数据科学方法论与机器学习理论实践为主要内容的直播课程。主讲老师首先从“ 数据科学的方法论”入手,向大家介绍数据科学的概念及技巧,待学者逐步熟悉数据科学的基本原理后,引出分类问题,推估计问题,相似性问题这三种机器学习中最常见问题的解决方案。最后再以三个实际案例,“运营商通过数据设置留存客户的方法”,“基于大数据和深度学习的金融评级策略”,“产品内容推荐系统”,将数据科学的方法论与机器学习解决方案合并实战。


从Python到机器学习

本系列课程将全面介绍深度学习入门的应用知识。包括从Python基础开始,到深度学习框架Tensorflow的使用方法。是一套简练风趣,易懂易学的入门课程。


深度学习原理与PyTorch实战

此系列课程主要围绕集智俱乐部众包写作的书籍《深度学习原理与 PyTorch 实战》展开,兼具理论与实践,是想要掌握一门深度学习技术不可错过的课程。课程中不仅循序渐进地讲解了PyTorch的基本使用、神经网络的搭建、卷积神经网络和循环神经网络的实现,而且全面深入地介绍了计算机视觉、自然语言处理、迁移学习,以及最新的对抗学习和深度强化学习等前沿技术。


本中文词条由乐多多厚朴趣木木用户参与编译,苏格兰审校,乐多多编辑,欢迎在讨论页面留言。


本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。