第25行: |
第25行: |
| | | |
| 数据科学的概念结合了统计学、数据分析、机器学习等相关方法,以便于借助数据理解和分析实际现象。 | | 数据科学的概念结合了统计学、数据分析、机器学习等相关方法,以便于借助数据理解和分析实际现象。 |
− | <ref name="Hayashi" />
| |
| 它使用了从[https://en.wikipedia.org/wiki/Mathematics 数学]、[https://en.wikipedia.org/wiki/Statistics 统计学]、[https://en.wikipedia.org/wiki/Information_science 信息科学]、[https://en.wikipedia.org/wiki/Computer_science 计算机科学]等许多学科领域获得的技术与理论。[https://en.wikipedia.org/wiki/Turing_award 图灵奖]得主[https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist) 吉姆·格雷] Jim Gray将数据科学设想为一种科学的“第四范式”([https://en.wikipedia.org/wiki/Empirical_research 经验主义]、[https://en.wikipedia.org/wiki/Basic_research 理论研究]、计算机辅助,现在是数据驱动),并且断言由于信息技术和[https://en.wikipedia.org/wiki/Information_explosion 数据洪流]的影响,所有关于科学的事物都在不断地发生改变。 | | 它使用了从[https://en.wikipedia.org/wiki/Mathematics 数学]、[https://en.wikipedia.org/wiki/Statistics 统计学]、[https://en.wikipedia.org/wiki/Information_science 信息科学]、[https://en.wikipedia.org/wiki/Computer_science 计算机科学]等许多学科领域获得的技术与理论。[https://en.wikipedia.org/wiki/Turing_award 图灵奖]得主[https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist) 吉姆·格雷] Jim Gray将数据科学设想为一种科学的“第四范式”([https://en.wikipedia.org/wiki/Empirical_research 经验主义]、[https://en.wikipedia.org/wiki/Basic_research 理论研究]、计算机辅助,现在是数据驱动),并且断言由于信息技术和[https://en.wikipedia.org/wiki/Information_explosion 数据洪流]的影响,所有关于科学的事物都在不断地发生改变。 |
| <ref name="TansleyTolle2009"> | | <ref name="TansleyTolle2009"> |
第56行: |
第55行: |
| | | |
| | | |
− | 在2012年[https://en.wikipedia.org/wiki/Harvard_Business_Review 《哈佛商业评论》]称其为“21世纪最富有魅力的工作”后 | + | 在2012年[https://en.wikipedia.org/wiki/Harvard_Business_Review 《哈佛商业评论》]称其为“21世纪最富有魅力的工作”后,“数据科学”成了一个[https://en.wikipedia.org/wiki/Buzzword 流行术语]。它现在经常与早期概念互换使用,例如[https://en.wikipedia.org/wiki/Business_analytics 商业分析] |
− | <ref name="Harvard" />
| |
− | ,“数据科学”成了一个[https://en.wikipedia.org/wiki/Buzzword 流行术语]。它现在经常与早期概念互换使用,例如[https://en.wikipedia.org/wiki/Business_analytics 商业分析]
| |
| <ref name="GilPress" /> | | <ref name="GilPress" /> |
| 、[https://en.wikipedia.org/wiki/Business_intelligence 商业智能]、[https://en.wikipedia.org/wiki/Predictive_modelling 预测模型]和[https://en.wikipedia.org/wiki/Statistics 统计学]。“数据科学富有魅力”的观点甚至被汉斯·罗斯林 Hans Rosling博士在2011年BBC纪录片中转述为“统计学是当今世界最具吸引力的学科”。内特·西尔弗 Nate Silver | | 、[https://en.wikipedia.org/wiki/Business_intelligence 商业智能]、[https://en.wikipedia.org/wiki/Predictive_modelling 预测模型]和[https://en.wikipedia.org/wiki/Statistics 统计学]。“数据科学富有魅力”的观点甚至被汉斯·罗斯林 Hans Rosling博士在2011年BBC纪录片中转述为“统计学是当今世界最具吸引力的学科”。内特·西尔弗 Nate Silver |
第98行: |
第95行: |
| {{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}} | | {{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}} |
| </ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> | | </ref> 2015年,美国统计协会 American Statistical Association将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> |
| + | |
| | | |
| == 术语词义衍变== | | == 术语词义衍变== |
| === 早期使用 === | | === 早期使用 === |
− | “数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔] Peter Naur用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”](datalogy)这一术语。 | + | “数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔] Peter Naur用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”] datalogy这一术语。 |
| <ref> | | <ref> |
| {{cite journal | | {{cite journal |
第121行: |
第119行: |
| | | |
| | | |
− | “数据科学”这一术语可以追溯到1974年,当时Peter Naur将其作为计算机科学的替代名称提出。<ref name=":0"> | + | “数据科学”这一术语可以追溯到1974年,当时Peter Naur将其作为计算机科学的替代名称提出。<ref name=":00"> |
| {{Cite journal|last=CaoLongbing|date=2017-06-29|title=Data Science|journal=ACM Computing Surveys (CSUR)|volume=50|issue=3|pages=1–42|language=EN|doi=10.1145/3076253|doi-access=free}} | | {{Cite journal|last=CaoLongbing|date=2017-06-29|title=Data Science|journal=ACM Computing Surveys (CSUR)|volume=50|issue=3|pages=1–42|language=EN|doi=10.1145/3076253|doi-access=free}} |
| </ref> 1996年,国际分级社团联盟(International Federation of Classification Societies)成为第一个以数据科学为专题的会议。<ref> | | </ref> 1996年,国际分级社团联盟(International Federation of Classification Societies)成为第一个以数据科学为专题的会议。<ref> |
第128行: |
第126行: |
| | | |
| | | |
− | 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" /> | + | 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":01">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":00" /> |
| | | |
| | | |
第135行: |
第133行: |
| 数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰 William S. Cleveland。<ref> | | 数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰 William S. Cleveland。<ref> |
| {{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}} | | {{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}} |
− | </ref> 在2001年的一篇论文中,他主张将统计学从理论扩展到技术领域;由于这将大大改变这个领域,因此它需要一个新的名称。在接下来的几年里,“数据科学”的应用更加广泛:2002年,数据科学与技术分会(CODATA) | + | </ref> 在2001年的一篇论文中,他主张将统计学从理论扩展到技术领域;由于这将大大改变这个领域,因此它需要一个新的名称。在接下来的几年里,“数据科学”的应用更加广泛:2002年,数据科学与技术分会 CODATA |
| <ref name="ics12"> | | <ref name="ics12"> |
| International Council for Science : Committee on Data for Science and Technology. (2012, April). | | International Council for Science : Committee on Data for Science and Technology. (2012, April). |
第154行: |
第152行: |
| | | |
| 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref> | | 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref> |
| + | |
| | | |
| ==研究内容== | | ==研究内容== |
第174行: |
第173行: |
| | | |
| ==数据科学的相关职业== | | ==数据科学的相关职业== |
− | 数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> 数据科学家的平均薪资为每年118,370美元或每小时56.91美元。<ref name=":2">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> 该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。<ref name=":2" />美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。<ref name=":2" /> 通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。 | + | 数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> 数据科学家的平均薪资为每年118,370美元或每小时56.91美元。<ref name=":02">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> 该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。<ref name=":02" />美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。<ref name=":02" /> 通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。 |
| | | |
| | | |