更改

跳到导航 跳到搜索
添加18,950字节 、 2020年5月15日 (五) 13:04
撤销乐多多讨论)的版本8362
第1行: 第1行:  +
此词条暂由彩云小译翻译,未经人工整理和审校,带来阅读不便,请见谅。
    +
* 词条预计填充内容
 +
1.foundations 背景(了解的一些基础知识);<br>
    +
2.术语内涵衍变(该术语如何产生及目前为止用法的一些不同);<br>
 +
 +
3.数据科学的研究内容<br>
 +
 +
3.1数据科学基础理论<br>
 +
 +
3.2 数据预处理<br>
 +
 +
3.3数据计算<br>
 +
 +
3.4数据管理<br>
 +
 +
4.在数据科学方面的职业和工作;<br>
 +
 +
5.数据科学的影响;<br>
 +
 +
6.数据科学中所涉及的一些技术和应用软件;<br>
 +
 +
7.数据科学、人工智能、机器学习之间的差别<br>
 +
 +
找到两篇博文供参考https://blog.csdn.net/fengdu78/article/details/105154546  https://blog.csdn.net/dev_csdn/article/details/79127658 <br>
 +
 +
8.与统计学的关系 <br>
 +
 +
 +
其中,第2部分是需要搜集补充的内容,第7部分有一些参考资料(后续还会再找一些),第8部分可进行补充。
 +
 +
有英文翻译的部分'''引言、1,2,4,5,6,8''',没有英文内容'''3、7'''
 +
 +
*任务分配
 +
'''任务一:引言,1背景、2术语内涵、3研究内容'''【负责人[[用户:乐多多|乐多多]] 】
 +
其中'''背景'''部分文字需要进行翻译;'''引言、术语内涵'''已有参考资料和初期的人工翻译文本,'''研究内容'''需要找到资料进行填充;<br>
 +
 +
'''任务二:4相关职业【[[Dorr]]已修订】、5数据科学的影响'''【负责人:    】
 +
其中并没有初期的人工翻译文本,可进一步搜集资料,使其更加完善;<br>
 +
 +
'''任务三:6相关应用软件、7与机器学习人工智能的差别、8与统计学的关系'''【负责人:[[趣木木]]    】
 +
其中7、8需要搜集资料进行填充,8已有参考资料和初期的人工翻译文本;<br>
 +
 +
 +
*附言
 +
#任务完成上交为5月11号下午六点前
 +
#有些部分的内容过少,需要大家自行斟酌进行一下填充
 +
#任务领取方式 在对应的任务一二三后附上自己的名字或者昵称
 +
#大家有相关的参考资料也可以共享出来,并发给[[趣木木]]以便后期编者推荐时挑选进行运用
 +
#觉得还需要再添加什么模块,或者遇到什么问题可及时微信私聊[[趣木木]]
 +
 +
 +
 +
旧版有这个词条,感觉可以在方法论层面再充实一下
 +
 +
 +
--[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])下为旧版相对应的引言内容的参考 可进行一下整及或填充
 +
 +
 +
'''Data science''' is an [[inter-disciplinary]] field that uses scientific methods, processes, algorithms and systems to extract [[knowledge]] and insights from many structural and [[unstructured data]].<ref>{{Cite journal | last1 = Dhar | first1 = V. | title = Data science and prediction | doi = 10.1145/2500499 | journal = Communications of the ACM | volume = 56 | issue = 12 | pages = 64–73 | year = 2013 | pmid =  | pmc =  | url = http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext | access-date = 2 September 2015 | archive-url = https://web.archive.org/web/20141109113411/http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext | archive-date = 9 November 2014 | url-status = live }}</ref><ref>{{cite web | url=http://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-science/ | title=The key word in "Data Science" is not Data, it is Science | publisher=Simply Statistics | date=2013-12-12 | author=[[Jeffrey T. Leek|Jeff Leek]] | access-date=1 January 2014 | archive-url=https://web.archive.org/web/20140102194117/http://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-science/ | archive-date=2 January 2014 | url-status=live }}</ref> Data science is related to [[data mining]] and [[big data]]. Data science is a "concept to unify [[statistics]], [[data analysis]], [[machine learning]] and their related methods" in order to "understand and analyze actual phenomena" with data.<ref>{{Cite book|chapter-url=https://www.springer.com/book/9784431702085|title=Data Science, Classification, and Related Methods|last=Hayashi|first=Chikio|date=1998-01-01|publisher=Springer Japan|isbn=9784431702085|editor-last=Hayashi|editor-first=Chikio|series=Studies in Classification, Data Analysis, and Knowledge Organization|location=|pages=40–51|language=en|chapter=What is Data Science? Fundamental Concepts and a Heuristic Example|doi=10.1007/978-4-431-65950-1_3|editor-last2=Yajima|editor-first2=Keiji|editor-last3=Bock|editor-first3=Hans-Hermann|editor-last4=Ohsumi|editor-first4=Noboru|editor-last5=Tanaka|editor-first5=Yutaka|editor-last6=Baba|editor-first6=Yasumasa}}</ref> It uses techniques and theories drawn from many fields within the context of [[mathematics]], [[statistics]], [[computer science]], and [[information science]]. [[Turing award]] winner [[Jim Gray (computer scientist)|Jim Gray]] imagined data science as a "fourth paradigm" of science ([[Empirical research|empirical]], [[Basic research|theoretical]], [[computational science|computational]] and now data-driven) and asserted that "everything about science is changing because of the impact of information technology" and the [[information explosion|data deluge]].<ref name="TansleyTolle2009">{{cite book|author1=Stewart Tansley|author2=Kristin Michele Tolle|title=The Fourth Paradigm: Data-intensive Scientific Discovery|url=https://books.google.com/?id=oGs_AQAAIAAJ|year=2009|publisher=Microsoft Research|isbn=978-0-9825442-0-4|access-date=16 December 2016|archive-url=https://web.archive.org/web/20170320193019/https://books.google.com/books?id=oGs_AQAAIAAJ|archive-date=20 March 2017|url-status=live}}</ref><ref name="BellHey2009">{{cite journal|last1=Bell|first1=G.|last2=Hey|first2=T.|last3=Szalay|first3=A.|title=COMPUTER SCIENCE: Beyond the Data Deluge|journal=Science|volume=323|issue=5919|year=2009|pages=1297–1298|issn=0036-8075|doi=10.1126/science.1170411|pmid=19265007}}</ref>
    
数据科学与[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]和大数据有关,是一个通过科学的方法、过程、算法和系统从众多结构化和非结构化的[https://en.wikipedia.org/wiki/Data 数据]中提取[https://en.wikipedia.org/wiki/Knowledge 知识]和见解的跨学科领域。
 
数据科学与[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]和大数据有关,是一个通过科学的方法、过程、算法和系统从众多结构化和非结构化的[https://en.wikipedia.org/wiki/Data 数据]中提取[https://en.wikipedia.org/wiki/Knowledge 知识]和见解的跨学科领域。
第92行: 第151行:     
== Foundations背景 ==
 
== Foundations背景 ==
 +
 +
 +
 +
Data science is an interdisciplinary field focused on extracting knowledge from data sets, which are typically large (see [[big data]]).<ref>{{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}}</ref> The field encompasses analysis, preparing data for analysis, and presenting findings to inform high-level decisions in an organization. As such, it incorporates skills from computer science, mathematics, statistics, [[information visualization]], graphic design, and business.<ref>{{Cite web|url=https://www.oreilly.com/library/view/doing-data-science/9781449363871/ch01.html|title=1. Introduction: What Is Data Science? - Doing Data Science [Book]|website=www.oreilly.com|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://medriscoll.com/post/4740157098/the-three-sexy-skills-of-data-geeks|title=the three sexy skills of data geeks|website=m.e.driscoll: data utopian|language=en|access-date=2020-04-03}}</ref> Statistician [[Nathan Yau]], drawing on [[Ben Fry]], also links data science to [[Human–computer interaction|human-computer interaction]]: users should be able to intuitively control and explore data.<ref>{{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}}</ref> In 2015, the [[American Statistical Association]] identified [[Database|database management]], statistics and [[machine learning]], and [[Distributed computing|distributed and parallel systems]] as the three emerging foundational professional communities.<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
 +
 
数据科学是一个跨学科的领域,致力于从数据集中提取知识,这些数据集通常都很大(请参阅[[大数据]])。<ref>
 
数据科学是一个跨学科的领域,致力于从数据集中提取知识,这些数据集通常都很大(请参阅[[大数据]])。<ref>
 
{{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}}
 
{{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}}
第99行: 第163行:  
</ref> 2015年,美国统计协会(American Statistical Association)将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
 
</ref> 2015年,美国统计协会(American Statistical Association)将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
    +
== Etymology 术语词义衍变==
 +
 +
=== Early usage ===
 +
 +
'''早期使用'''
   −
==术语词义衍变==
  −
=== 早期使用 ===
   
“数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔](Peter Naur)用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”](datalogy)这一术语。
 
“数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔](Peter Naur)用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”](datalogy)这一术语。
 
<ref>
 
<ref>
第116行: 第183行:  
}}</ref>
 
}}</ref>
    +
 +
In 1962, [[John Tukey]] described a field he called “data analysis,” which resembles modern data science.<ref name=":7">{{Cite web|url=http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf|title=50 years of Data Science|last=Donoho|first=David|date=September 18, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> Later, attendees at a 1992 statistics symposium at the [[Montpellier 2 University|University of Montpellier II]] acknowledged the emergence of a new discipline focused on data of various origins and forms, combining established concepts and principles of statistics and data analysis with computing.<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref> 
    
1962年,约翰•图基(John Tukey)描述了一个他称之为“数据分析”的领域,这个领域类似于现代的数据科学。<ref name=":7">
 
1962年,约翰•图基(John Tukey)描述了一个他称之为“数据分析”的领域,这个领域类似于现代的数据科学。<ref name=":7">
第121行: 第190行:  
</ref> 之后,1992年,在蒙彼利埃第二大学举办的统计研讨会上,与会者们承认了一个新的学科的出现,这个学科专注于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算结合起来。<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref>   
 
</ref> 之后,1992年,在蒙彼利埃第二大学举办的统计研讨会上,与会者们承认了一个新的学科的出现,这个学科专注于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算结合起来。<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref>   
    +
 +
The term “data science” has been traced back to 1974, when [[Peter Naur]] proposed it as an alternative name for computer science.<ref name=":0">{{Cite journal|last=CaoLongbing|date=2017-06-29|title=Data Science|journal=ACM Computing Surveys (CSUR)|volume=50|issue=3|pages=1–42|language=EN|doi=10.1145/3076253|doi-access=free}}</ref> In 1996, the International Federation of Classification Societies became the first conference to specifically feature data science as a topic.<ref name=":0" /> However, the definition was still in flux. In 1997, [[C.F. Jeff Wu]] suggested that statistics should be renamed data science. He reasoned that a new name would help statistics shed inaccurate stereotypes, such as being synonymous with accounting, or limited to describing data.<ref>{{Cite web|url=http://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf|title=Statistics=Data Science?|last=Wu|first=C.F. Jeff|date=|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> In 1998, Chikio Hayashi argued for data science as a new, interdisciplinary concept, with three aspects: data design, collection, and analysis.<ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref> 
    
“数据科学”这一术语可以追溯到1974年,当时彼得·诺尔(Peter Naur)将其作为计算机科学的替代名称提出。<ref name=":0">
 
“数据科学”这一术语可以追溯到1974年,当时彼得·诺尔(Peter Naur)将其作为计算机科学的替代名称提出。<ref name=":0">
第128行: 第199行:  
</ref> 不过,关于数据科学的定义仍在不断变化。1997年,吴建福(C.F.Jeff Wu)建议将统计学重新命名为数据科学。他认为,新的名称将有助于统计学摆脱不准确的刻板印象,例如被认为是会计的同义词,或仅限于描述数据。1998年,林知己夫(Chikio Hayashi)主张将数据科学作为一个新的跨学科概念,包括三个方面:数据设计、收集和分析。
 
</ref> 不过,关于数据科学的定义仍在不断变化。1997年,吴建福(C.F.Jeff Wu)建议将统计学重新命名为数据科学。他认为,新的名称将有助于统计学摆脱不准确的刻板印象,例如被认为是会计的同义词,或仅限于描述数据。1998年,林知己夫(Chikio Hayashi)主张将数据科学作为一个新的跨学科概念,包括三个方面:数据设计、收集和分析。
    +
 +
During the 1990s, popular terms for the process of finding patterns in datasets (which were increasingly large) included “knowledge discovery” and “data mining.”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" /> 
    
在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" />   
 
在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" />   
    +
  --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])下为旧版关于数据科学的词源演变由来的部分内容  可参考整合并进行填充
 +
 +
=== Modern usage ===
 +
 +
'''现代用法'''
 +
 +
The modern conception of data science as an independent discipline is sometimes attributed to [[William S. Cleveland]].<ref>{{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> In a 2001 paper, he advocated an expansion of statistics beyond theory into technical areas; because this would significantly change the field, it warranted a new name.<ref name=":1" /> "Data science" became more widely used in the next few years: in 2002, the [[Committee on Data for Science and Technology]] launched ''Data Science Journal.'' In 2003, Columbia University launched ''The Journal of Data Science''.<ref name=":1" /> In 2014, the [[American Statistical Association]]'s Section on Statistical Learning and Data Mining changed its name to the Section on Statistical Learning and Data Science, reflecting the ascendant popularity of data science.<ref>{{Cite news|last=Talley|first=Jill|url=https://magazine.amstat.org/blog/2016/06/01/datascience-2/|title=ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science|date=June 1, 2016|work=Amstat News|access-date=|url-status=live|publisher=American Statistical Association}}</ref>
   −
=== 现代用法 ===
   
数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰(William S. Cleveland)。<ref>
 
数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰(William S. Cleveland)。<ref>
 
{{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}
 
{{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}
第147行: 第226行:  
</ref>2014年,美国统计协会将其统计学习与数据挖掘部更名为统计学习与数据科学部,这反映了数据科学的日益普及。
 
</ref>2014年,美国统计协会将其统计学习与数据挖掘部更名为统计学习与数据科学部,这反映了数据科学的日益普及。
    +
 +
The professional title of “data scientist” has been attributed to [[DJ Patil]] and [[Jeff Hammerbacher]] in 2008.<ref>{{Cite news|last=Davenport|first=Thomas H.|url=https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century|title=Data Scientist: The Sexiest Job of the 21st Century|date=2012-10-01|work=Harvard Business Review|access-date=2020-04-03|last2=Patil|first2=D. J.|issue=October 2012|issn=0017-8012}}</ref> Though it was used by the [[National Science Board]] in their 2005 report, "Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century," it referred broadly to any key role in managing a digital data collection.<ref>{{Cite web|url=https://www.nsf.gov/pubs/2005/nsb0540/|title=US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century|website=www.nsf.gov|access-date=2020-04-03}}</ref>
    
2008年,帕蒂尔(DJ Patil)和杰弗·哈梅巴赫(Jeff Hammerbacher)共同提出了“数据科学家”这一职称名词。<ref>
 
2008年,帕蒂尔(DJ Patil)和杰弗·哈梅巴赫(Jeff Hammerbacher)共同提出了“数据科学家”这一职称名词。<ref>
第152行: 第233行:  
</ref>尽管美国国家科学委员会(National Science Board)在其2005年的报告《长期数字数据收集: 促进21世纪的研究和教育》(Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century)中使用了这个词,但它泛指在数字化数据收集管理中起关键性作用的人。<ref>{{Cite web|url=https://www.nsf.gov/pubs/2005/nsb0540/|title=US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century|website=www.nsf.gov|access-date=2020-04-03}}</ref>
 
</ref>尽管美国国家科学委员会(National Science Board)在其2005年的报告《长期数字数据收集: 促进21世纪的研究和教育》(Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century)中使用了这个词,但它泛指在数字化数据收集管理中起关键性作用的人。<ref>{{Cite web|url=https://www.nsf.gov/pubs/2005/nsb0540/|title=US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century|website=www.nsf.gov|access-date=2020-04-03}}</ref>
    +
 +
There is still no consensus on the definition of data science and it is considered by some to be a buzzword.<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
    
目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
 
目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
      
==研究内容==
 
==研究内容==
 +
  --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])并不限于所列出来的条目 可以根据研究内容进行自主填充
 
===数据科学基础理论===
 
===数据科学基础理论===
 
数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是--"基础理论"与"理论基础"是两个不同的概念。数据科学的"基础理论"在数据科学的研究边界之内,而其"理论基础"在数据科学的研究边界之外,是数据科学的理论依据和来源。
 
数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是--"基础理论"与"理论基础"是两个不同的概念。数据科学的"基础理论"在数据科学的研究边界之内,而其"理论基础"在数据科学的研究边界之外,是数据科学的理论依据和来源。
      
===数据预处理===
 
===数据预处理===
 
为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理--进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
 
为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理--进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
      
===数据计算===
 
===数据计算===
 
在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
 
在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
      
===数据管理===
 
===数据管理===
 
在完成"数据预处理"(或"数据计算")之后,我们需要对数据进行管理,以便进行(再次进行)"数据处理"以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变--不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。
 
在完成"数据预处理"(或"数据计算")之后,我们需要对数据进行管理,以便进行(再次进行)"数据处理"以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变--不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。
    +
== Careers in data science 数据科学的相关职业==
 +
 +
Data science is a growing field. A career as a data scientist is ranked at the third best job in America for 2020 by Glassdoor, and was ranked the number one best job from 2016-2019.<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> Data scientists have a median salary of $118,370 per year or $56.91 per hour.<ref name=":2">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> Job growth in this field is also above average, with a projected increase of 16% from 2018 to 2028.<ref name=":2" /> The largest employer of data scientists in the US is the federal government, employing 28% of the data science workforce.<ref name=":2" /> Other large employers of data scientists are computer system design services, research and development laboratories, and colleges and universities.<ref name=":2" /> Typically, data scientists work full time, and some work more than 40 hours a week.<ref name=":2" />
   −
== 数据科学的相关职业==
   
数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。数据科学家的平均薪资为每年118,370美元或每小时56.91美元。该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。
 
数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。数据科学家的平均薪资为每年118,370美元或每小时56.91美元。该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。
      −
===教育路径 ===
+
=== Educational path ===
 +
 
 +
'''教育路径'''
 +
 
 +
In order to become a data scientist, there is a significant amount of education and experience required. The first step in becoming a data scientist is to earn a bachelor's degree, typically in a field related to computing or mathematics.<ref name=":3">{{Cite web|url=https://www.mastersindatascience.org/careers/data-scientist/|title=What is a Data Scientist?|website=Master's in Data Science|language=en-US|access-date=2020-04-03}}</ref><ref name=":2" /> Coding bootcamps are also available and can be used as an alternate pre-qualification to supplement a bachelor's degree in another field.<ref name=":3" /> Most data scientists also complete a master’s degree or a PhD in data science.<ref name=":3" /> Once these qualifications are met, the next step to becoming a data scientist is to apply for an entry level job in the field.<ref name=":3" /> Some data scientists may later choose to specialize in a sub-field of data science.<ref name=":3" />
 +
 
 
要成为一名数据科学家,需要接受充分教育、积累大量经验。成为数据科学家的第一步通常是取得与计算或数学相关的学士学位;其他领域的学士也可以通过参加编程训练营作为补充,获取资格。大多数数据科学家也在该领域取得了硕士或博士学位。达成这些条件后,下一步就是申请该领域的入门级工作。一些数据科学家以后可能会选择专攻数据科学的某个分支领域。
 
要成为一名数据科学家,需要接受充分教育、积累大量经验。成为数据科学家的第一步通常是取得与计算或数学相关的学士学位;其他领域的学士也可以通过参加编程训练营作为补充,获取资格。大多数数据科学家也在该领域取得了硕士或博士学位。达成这些条件后,下一步就是申请该领域的入门级工作。一些数据科学家以后可能会选择专攻数据科学的某个分支领域。
    +
=== Specializations and associated careers ===
   −
===专业细分和相关职业 ===
+
'''专业细分和相关职业'''
    
* 机器学习科学家: 机器学习科学家研究数据分析新方法,创立算法.<ref name=":4">{{Cite web|url=https://www.northeastern.edu/graduate/blog/data-science-careers-shaping-our-future/|title=11 Data Science Careers Shaping the Future|date=2018-11-23|website=Northeastern University Graduate Programs|language=en-US|access-date=2020-04-03}}</ref>
 
* 机器学习科学家: 机器学习科学家研究数据分析新方法,创立算法.<ref name=":4">{{Cite web|url=https://www.northeastern.edu/graduate/blog/data-science-careers-shaping-our-future/|title=11 Data Science Careers Shaping the Future|date=2018-11-23|website=Northeastern University Graduate Programs|language=en-US|access-date=2020-04-03}}</ref>
第193行: 第281行:  
* 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" />
 
* 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" />
   −
== 数据科学的影响 ==
+
== Impacts of data science数据科学的影响 ==
 +
 
 +
  --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])需要再进行补充 内容过少
 +
 
 +
Big data is very quickly becoming a vital tool for businesses and companies of all sizes.<ref name=":5">{{Cite web|url=https://www.forbes.com/sites/peterpham/2015/08/28/the-impacts-of-big-data-that-you-may-not-have-heard-of/|title=The Impacts Of Big Data That You May Not Have Heard Of|last=Pham|first=Peter|website=Forbes|language=en|access-date=2020-04-03}}</ref> The availability and interpretation of big data has altered the business models of old industries and enabled the creation of new ones.<ref name=":5" /> Data-driven businesses are worth $1.2 trillion collectively in 2020, an increase from $333 billion in the year 2015.<ref name=":6">{{Cite web|url=https://towardsdatascience.com/how-data-science-will-impact-future-of-businesses-7f11f5699c4d|title=How Data Science will Impact Future of Businesses?|last=Martin|first=Sophia|date=2019-09-20|website=Medium|language=en|access-date=2020-04-03}}</ref> Data scientists are responsible for breaking down big data into usable information and creating software and algorithms that help companies and organizations determine optimal operations.<ref name=":6" /> As big data continues to have a major impact on the world, data science does as well due to the close relationship between the two.<ref name=":6" />
 +
 
 
大数据正在迅速成为不同规模的企业和公司的重要工具。大数据的可用性和对其的解释说明改变了旧行业的商业模式,并促进了新行业的产生。2015年,数据驱动型企业的总价值为3330亿,到2020年,这一数值已经增长到1.2万亿。数据科学家负责将大数据分解为可用信息,并创建软件和算法,来帮助公司和组织确定最佳操作。大数据持续对世界产生重大影响,由于两者之间的密切关系,数据科学也产生了同样重大的影响。
 
大数据正在迅速成为不同规模的企业和公司的重要工具。大数据的可用性和对其的解释说明改变了旧行业的商业模式,并促进了新行业的产生。2015年,数据驱动型企业的总价值为3330亿,到2020年,这一数值已经增长到1.2万亿。数据科学家负责将大数据分解为可用信息,并创建软件和算法,来帮助公司和组织确定最佳操作。大数据持续对世界产生重大影响,由于两者之间的密切关系,数据科学也产生了同样重大的影响。
      −
大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(TheFourth Paradigm),把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。
      +
 +
 +
 +
 +
大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(TheFourth Paradigm)[5],把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。
    
不仅如此,数据分析几乎涉及到了现代数学的所有分支。甚至于像表示论这样的极其抽象的分支,在数据科学领域也有其发挥作用的余地。所以数据科学对数学的要求和推动是全面的,而不是仅仅局限在几个领域。数据应该成为数、图形和方程之外数学研究的基本对象之一。
 
不仅如此,数据分析几乎涉及到了现代数学的所有分支。甚至于像表示论这样的极其抽象的分支,在数据科学领域也有其发挥作用的余地。所以数据科学对数学的要求和推动是全面的,而不是仅仅局限在几个领域。数据应该成为数、图形和方程之外数学研究的基本对象之一。
    +
'''对计算机学科的影响'''
   −
===对计算机学科的影响===
   
数据科学对计算机科学的发展也会带来很大的影响。图灵奖得主John Hopcroft曾经指出,在过去的几十年里,计算机科学的研究对象主要是计算机本身,包括硬件和软件。以后计算机科学的发展将主要围绕应用展开。而从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强。
 
数据科学对计算机科学的发展也会带来很大的影响。图灵奖得主John Hopcroft曾经指出,在过去的几十年里,计算机科学的研究对象主要是计算机本身,包括硬件和软件。以后计算机科学的发展将主要围绕应用展开。而从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强。
    +
'''对统计学的影响'''
   −
===对统计学的影响===
   
再看统计学。统计学一直就是一门研究数据的学科。所以它也是数据科学最核心的部分之一。但在数据科学的框架之下,统计学的发展也会受到很大的冲击。
 
再看统计学。统计学一直就是一门研究数据的学科。所以它也是数据科学最核心的部分之一。但在数据科学的框架之下,统计学的发展也会受到很大的冲击。
    +
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
   −
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
+
== Technologies and techniques 所涉及的科技和技术==
 +
  --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词  cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197);
    +
There are a variety of different technologies and techniques that are used for data science which depending on the application.
   −
== 所涉及的科技和技术==
   
根据应用的不同,数据科学采用了多种不同的科技和技术。
 
根据应用的不同,数据科学采用了多种不同的科技和技术。
      −
=== 技术 ===
+
=== Techniques ===
====聚类====
+
'''技术'''
 +
 
 +
* [[Cluster analysis|Clustering]] is a technique used to group data together.
 
*[[聚类分析|聚类]]是一种将数据分组整合的技术。
 
*[[聚类分析|聚类]]是一种将数据分组整合的技术。
       
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
 
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
      
聚类的基本思想:
 
聚类的基本思想:
763

个编辑

导航菜单