第99行: |
第99行: |
| {{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}} | | {{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}} |
| </ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=American Statistical Association|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> | | </ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=American Statistical Association|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> |
| + | |
| | | |
| == 术语词义衍变== | | == 术语词义衍变== |
第130行: |
第131行: |
| | | |
| 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" /> | | 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" /> |
− |
| |
| | | |
| | | |
第155行: |
第155行: |
| | | |
| 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref> | | 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref> |
| + | |
| | | |
| ==研究内容== | | ==研究内容== |
第192行: |
第193行: |
| | | |
| * 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" /> | | * 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" /> |
| + | |
| | | |
| ==数据科学的影响 == | | ==数据科学的影响 == |
第212行: |
第214行: |
| | | |
| 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 | | 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 |
| + | |
| | | |
| == 所涉及的科技和技术== | | == 所涉及的科技和技术== |
第256行: |
第259行: |
| | | |
| 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 | | 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 |
| + | |
| | | |
| === 科技 === | | === 科技 === |
第262行: |
第266行: |
| | | |
| | | |
− | ====[[R(程序设计语言)|R]]==== | + | ====[[R(程序设计语言)|R语言]]==== |
| R语言是一种为统计学家和数据挖掘而设计的编程语言,<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。 | | R语言是一种为统计学家和数据挖掘而设计的编程语言,<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。 |
| | | |
第279行: |
第283行: |
| | | |
| Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统,被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。 | | Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统,被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。 |
| + | |
| | | |
| Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 | | Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 |
第301行: |
第306行: |
| | | |
| | | |
− | ====[[Tableau软件|Tableau]]==== | + | ====[[Tableau软件|Tableau软件]]==== |
| Tableau制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. | | Tableau制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. |
| | | |
第313行: |
第318行: |
| | | |
| 它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。 | | 它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。 |
| + | |
| | | |
| ==与机器学习、人工智能之间的异同== | | ==与机器学习、人工智能之间的异同== |
第335行: |
第341行: |
| #沟通 | | #沟通 |
| 数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。 | | 数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。 |
| + | |
| | | |
| ===机器学习负责预测=== | | ===机器学习负责预测=== |
− |
| |
| 机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。 | | 机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。 |
| | | |
第566行: |
第572行: |
| | | |
| 诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。”<ref name=":2" /> | | 诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。”<ref name=":2" /> |
| + | |
| | | |
| ==参考文献== | | ==参考文献== |