更改

数据科学 (查看源代码)

2020年5月15日 (五) 15:54的版本

添加19字节、 2020年5月15日 (五) 15:54

无编辑摘要

第99行：第99行：

{{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}}

</ref> 2015年，美国统计协会 American Statistical Association将数据库管理、统计和机器学习，以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=American Statistical Association|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>

+

== 术语词义衍变==

第130行：第131行：

在20世纪90年代，描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" />

−

第155行：第155行：

目前，对于数据科学的定义依旧没有达成共识，有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>

+

==研究内容==

第192行：第193行：

* 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况，以及其与用户和其他应用程序的交互情况.<ref name=":4" />

+

==数据科学的影响 ==

第212行：第214行：

这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念，如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。

+

== 所涉及的科技和技术==

第256行：第259行：

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。

+

=== 科技 ===

第262行：第266行： −

====[[R(程序设计语言)|R]]====

+

====[[R(程序设计语言)|R语言]]====

R语言是一种为统计学家和数据挖掘而设计的编程语言，<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。

第279行：第283行：

Tensorflow拥有一个全面而灵活的生态系统，其中包含各种工具、库和社区资源，可助力研究人员推动先进机器学习技术的发展，并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统，被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现，其前身是谷歌的神经网络算法库DistBelief 。

+

Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究。

第301行：第306行： −

====[[Tableau软件|~~Tableau~~]]====

+

====[[Tableau软件|Tableau软件]]====

Tableau制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.

第313行：第318行：

它实现了Map/Reduce编程范型，计算任务会被分割成小块（多次）运行在不同的节点上。除此之外，它还提供了一款分布式文件系统（HDFS），数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。

+

==与机器学习、人工智能之间的异同==

第335行：第341行：

#沟通

数据科学家可能使用一些简单的工具：可以报告百分比，并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作，分析数以万亿计的记录，开发前沿的统计技术，建立交互式可视化。不管使用什么，目的是为了更好地理解数据。

+

===机器学习负责预测===

−

机器学习是一个预测领域：“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”)，但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据，然后看看竞争对手能否对新的例子做出准确的预测。

第566行：第572行：

诚如多诺霍所言蔽之：“数据科学的范围和影响在今后数十年会继续扩充，科研数据和有关科学本身的数据将无处不在、俯拾即是。”<ref name=":2" />

+

==参考文献==

乐多多

763

个编辑

更改

数据科学 (查看源代码)

2020年5月15日 (五) 15:54的版本

导航菜单

搜索