更改

跳到导航 跳到搜索
添加19字节 、 2020年5月15日 (五) 15:54
无编辑摘要
第99行: 第99行:  
{{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}}
 
{{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}}
 
</ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=American Statistical Association|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
 
</ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=American Statistical Association|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
 +
    
== 术语词义衍变==
 
== 术语词义衍变==
第130行: 第131行:     
在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" />   
 
在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" />   
        第155行: 第155行:     
目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
 
目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
 +
    
==研究内容==
 
==研究内容==
第192行: 第193行:     
* 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" />
 
* 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" />
 +
    
==数据科学的影响 ==
 
==数据科学的影响 ==
第212行: 第214行:     
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
 
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
 +
    
== 所涉及的科技和技术==
 
== 所涉及的科技和技术==
第256行: 第259行:     
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。
 
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。
 +
    
=== 科技 ===
 
=== 科技 ===
第262行: 第266行:       −
====[[R(程序设计语言)|R]]====
+
====[[R(程序设计语言)|R语言]]====
 
R语言是一种为统计学家和数据挖掘而设计的编程语言,<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。
 
R语言是一种为统计学家和数据挖掘而设计的编程语言,<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。
   第279行: 第283行:     
Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统,被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。
 
Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统,被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。
 +
    
Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。
 
Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。
第301行: 第306行:       −
====[[Tableau软件|Tableau]]====
+
====[[Tableau软件|Tableau软件]]====
 
Tableau制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.
 
Tableau制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.
   第313行: 第318行:     
它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。
 
它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。
 +
    
==与机器学习、人工智能之间的异同==
 
==与机器学习、人工智能之间的异同==
第335行: 第341行:  
#沟通
 
#沟通
 
数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。
 
数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。
 +
    
===机器学习负责预测===
 
===机器学习负责预测===
   
机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。
 
机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。
   第566行: 第572行:     
诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。”<ref name=":2" />
 
诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。”<ref name=":2" />
 +
    
==参考文献==
 
==参考文献==
763

个编辑

导航菜单