第1行: |
第1行: |
− | 此词条暂由彩云小译翻译,未经人工整理和审校,带来阅读不便,请见谅。
| |
− |
| |
− | * 词条预计填充内容
| |
− | 1.foundations 背景(了解的一些基础知识);<br>
| |
− |
| |
− | 2.术语内涵衍变(该术语如何产生及目前为止用法的一些不同);<br>
| |
− |
| |
− | 3.数据科学的研究内容<br>
| |
− |
| |
− | 3.1数据科学基础理论<br>
| |
− |
| |
− | 3.2 数据预处理<br>
| |
− |
| |
− | 3.3数据计算<br>
| |
− |
| |
− | 3.4数据管理<br>
| |
− |
| |
− | 4.在数据科学方面的职业和工作;<br>
| |
− |
| |
− | 5.数据科学的影响;<br>
| |
− |
| |
− | 6.数据科学中所涉及的一些技术和应用软件;<br>
| |
− |
| |
− | 7.数据科学、人工智能、机器学习之间的差别<br>
| |
− |
| |
− | 找到两篇博文供参考https://blog.csdn.net/fengdu78/article/details/105154546 https://blog.csdn.net/dev_csdn/article/details/79127658 <br>
| |
− |
| |
− | 8.与统计学的关系 <br>
| |
− |
| |
− |
| |
− | 其中,第2部分是需要搜集补充的内容,第7部分有一些参考资料(后续还会再找一些),第8部分可进行补充。
| |
− |
| |
− | 有英文翻译的部分'''引言、1,2,4,5,6,8''',没有英文内容'''3、7'''
| |
− |
| |
− | *任务分配
| |
− | '''任务一:引言,1背景、2术语内涵、3研究内容'''【负责人[[用户:乐多多|乐多多]] 】
| |
− | 其中'''背景'''部分文字需要进行翻译;'''引言、术语内涵'''已有参考资料和初期的人工翻译文本,'''研究内容'''需要找到资料进行填充;<br>
| |
− |
| |
− | '''任务二:4相关职业【[[Dorr]]已修订】、5数据科学的影响'''【负责人: 】
| |
− | 其中并没有初期的人工翻译文本,可进一步搜集资料,使其更加完善;<br>
| |
− |
| |
− | '''任务三:6相关应用软件、7与机器学习人工智能的差别、8与统计学的关系'''【负责人:[[趣木木]] 】
| |
− | 其中7、8需要搜集资料进行填充,8已有参考资料和初期的人工翻译文本;<br>
| |
− |
| |
− |
| |
− | *附言
| |
− | #任务完成上交为5月11号下午六点前
| |
− | #有些部分的内容过少,需要大家自行斟酌进行一下填充
| |
− | #任务领取方式 在对应的任务一二三后附上自己的名字或者昵称
| |
− | #大家有相关的参考资料也可以共享出来,并发给[[趣木木]]以便后期编者推荐时挑选进行运用
| |
− | #觉得还需要再添加什么模块,或者遇到什么问题可及时微信私聊[[趣木木]]
| |
− |
| |
− |
| |
− |
| |
− | 旧版有这个词条,感觉可以在方法论层面再充实一下
| |
− |
| |
− |
| |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])下为旧版相对应的引言内容的参考 可进行一下整及或填充
| |
− |
| |
− |
| |
− | '''Data science''' is an [[inter-disciplinary]] field that uses scientific methods, processes, algorithms and systems to extract [[knowledge]] and insights from many structural and [[unstructured data]].<ref>{{Cite journal | last1 = Dhar | first1 = V. | title = Data science and prediction | doi = 10.1145/2500499 | journal = Communications of the ACM | volume = 56 | issue = 12 | pages = 64–73 | year = 2013 | pmid = | pmc = | url = http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext | access-date = 2 September 2015 | archive-url = https://web.archive.org/web/20141109113411/http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext | archive-date = 9 November 2014 | url-status = live }}</ref><ref>{{cite web | url=http://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-science/ | title=The key word in "Data Science" is not Data, it is Science | publisher=Simply Statistics | date=2013-12-12 | author=[[Jeffrey T. Leek|Jeff Leek]] | access-date=1 January 2014 | archive-url=https://web.archive.org/web/20140102194117/http://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-science/ | archive-date=2 January 2014 | url-status=live }}</ref> Data science is related to [[data mining]] and [[big data]]. Data science is a "concept to unify [[statistics]], [[data analysis]], [[machine learning]] and their related methods" in order to "understand and analyze actual phenomena" with data.<ref>{{Cite book|chapter-url=https://www.springer.com/book/9784431702085|title=Data Science, Classification, and Related Methods|last=Hayashi|first=Chikio|date=1998-01-01|publisher=Springer Japan|isbn=9784431702085|editor-last=Hayashi|editor-first=Chikio|series=Studies in Classification, Data Analysis, and Knowledge Organization|location=|pages=40–51|language=en|chapter=What is Data Science? Fundamental Concepts and a Heuristic Example|doi=10.1007/978-4-431-65950-1_3|editor-last2=Yajima|editor-first2=Keiji|editor-last3=Bock|editor-first3=Hans-Hermann|editor-last4=Ohsumi|editor-first4=Noboru|editor-last5=Tanaka|editor-first5=Yutaka|editor-last6=Baba|editor-first6=Yasumasa}}</ref> It uses techniques and theories drawn from many fields within the context of [[mathematics]], [[statistics]], [[computer science]], and [[information science]]. [[Turing award]] winner [[Jim Gray (computer scientist)|Jim Gray]] imagined data science as a "fourth paradigm" of science ([[Empirical research|empirical]], [[Basic research|theoretical]], [[computational science|computational]] and now data-driven) and asserted that "everything about science is changing because of the impact of information technology" and the [[information explosion|data deluge]].<ref name="TansleyTolle2009">{{cite book|author1=Stewart Tansley|author2=Kristin Michele Tolle|title=The Fourth Paradigm: Data-intensive Scientific Discovery|url=https://books.google.com/?id=oGs_AQAAIAAJ|year=2009|publisher=Microsoft Research|isbn=978-0-9825442-0-4|access-date=16 December 2016|archive-url=https://web.archive.org/web/20170320193019/https://books.google.com/books?id=oGs_AQAAIAAJ|archive-date=20 March 2017|url-status=live}}</ref><ref name="BellHey2009">{{cite journal|last1=Bell|first1=G.|last2=Hey|first2=T.|last3=Szalay|first3=A.|title=COMPUTER SCIENCE: Beyond the Data Deluge|journal=Science|volume=323|issue=5919|year=2009|pages=1297–1298|issn=0036-8075|doi=10.1126/science.1170411|pmid=19265007}}</ref>
| |
− |
| |
| 数据科学与[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]和大数据有关,是一个通过科学的方法、过程、算法和系统从众多结构化和非结构化的[https://en.wikipedia.org/wiki/Data 数据]中提取[https://en.wikipedia.org/wiki/Knowledge 知识]和见解的跨学科领域。 | | 数据科学与[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]和大数据有关,是一个通过科学的方法、过程、算法和系统从众多结构化和非结构化的[https://en.wikipedia.org/wiki/Data 数据]中提取[https://en.wikipedia.org/wiki/Knowledge 知识]和见解的跨学科领域。 |
| <ref name=":0"> | | <ref name=":0"> |
第83行: |
第21行: |
| Simply Statistics. | | Simply Statistics. |
| </ref> | | </ref> |
| + | |
| + | |
| 数据科学的概念结合了统计学、数据分析、机器学习等相关方法,以便于借助数据理解和分析实际现象。 | | 数据科学的概念结合了统计学、数据分析、机器学习等相关方法,以便于借助数据理解和分析实际现象。 |
| <ref name="Hayashi" /> | | <ref name="Hayashi" /> |
第150行: |
第90行: |
| | | |
| | | |
− | == Foundations背景 == | + | == 背景 == |
− | | |
− | | |
− | | |
− | Data science is an interdisciplinary field focused on extracting knowledge from data sets, which are typically large (see [[big data]]).<ref>{{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}}</ref> The field encompasses analysis, preparing data for analysis, and presenting findings to inform high-level decisions in an organization. As such, it incorporates skills from computer science, mathematics, statistics, [[information visualization]], graphic design, and business.<ref>{{Cite web|url=https://www.oreilly.com/library/view/doing-data-science/9781449363871/ch01.html|title=1. Introduction: What Is Data Science? - Doing Data Science [Book]|website=www.oreilly.com|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://medriscoll.com/post/4740157098/the-three-sexy-skills-of-data-geeks|title=the three sexy skills of data geeks|website=m.e.driscoll: data utopian|language=en|access-date=2020-04-03}}</ref> Statistician [[Nathan Yau]], drawing on [[Ben Fry]], also links data science to [[Human–computer interaction|human-computer interaction]]: users should be able to intuitively control and explore data.<ref>{{Cite web|url=https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/|title=Rise of the Data Scientist|last=Yau|first=Nathan|date=2009-06-04|website=FlowingData|language=en|access-date=2020-04-03}}</ref><ref>{{Cite web|url=https://benfry.com/phd/dissertation/2.html|title=Basic Example|last=|first=|date=|website=benfry.com|url-status=live|archive-url=|archive-date=|access-date=2020-04-03}}</ref> In 2015, the [[American Statistical Association]] identified [[Database|database management]], statistics and [[machine learning]], and [[Distributed computing|distributed and parallel systems]] as the three emerging foundational professional communities.<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref>
| |
− | | |
| 数据科学是一个跨学科的领域,致力于从数据集中提取知识,这些数据集通常都很大(请参阅[[大数据]])。<ref> | | 数据科学是一个跨学科的领域,致力于从数据集中提取知识,这些数据集通常都很大(请参阅[[大数据]])。<ref> |
| {{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}} | | {{Cite web|url=http://www.datascienceassn.org/about-data-science|title=About Data Science {{!}} Data Science Association|website=www.datascienceassn.org|access-date=2020-04-03}} |
第163行: |
第98行: |
| </ref> 2015年,美国统计协会(American Statistical Association)将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> | | </ref> 2015年,美国统计协会(American Statistical Association)将数据库管理、统计和机器学习,以及分布式和并行系统确定为三个新兴的基础专业领域。<ref>{{Cite web|url=https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|title=ASA Statement on the Role of Statistics in Data Science|date=2015-10-01|website=AMSTATNEWS|publisher=[[American Statistical Association]]|access-date=2019-05-29|archive-url=https://web.archive.org/web/20190620184935/https://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/|archive-date=20 June 2019|url-status=live}}</ref> |
| | | |
− | == Etymology 术语词义衍变==
| |
− |
| |
− | === Early usage ===
| |
− |
| |
− | '''早期使用'''
| |
| | | |
| + | == 术语词义衍变== |
| + | === 早期使用 === |
| “数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔](Peter Naur)用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”](datalogy)这一术语。 | | “数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被[https://en.wikipedia.org/wiki/Peter_Naur 彼得·诺尔](Peter Naur)用作[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的代名词。诺尔后来引入了[https://en.wikipedia.org/wiki/Datalogy “数据学”](datalogy)这一术语。 |
| <ref> | | <ref> |
第183行: |
第115行: |
| }}</ref> | | }}</ref> |
| | | |
− |
| |
− | In 1962, [[John Tukey]] described a field he called “data analysis,” which resembles modern data science.<ref name=":7">{{Cite web|url=http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf|title=50 years of Data Science|last=Donoho|first=David|date=September 18, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> Later, attendees at a 1992 statistics symposium at the [[Montpellier 2 University|University of Montpellier II]] acknowledged the emergence of a new discipline focused on data of various origins and forms, combining established concepts and principles of statistics and data analysis with computing.<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref>
| |
| | | |
| 1962年,约翰•图基(John Tukey)描述了一个他称之为“数据分析”的领域,这个领域类似于现代的数据科学。<ref name=":7"> | | 1962年,约翰•图基(John Tukey)描述了一个他称之为“数据分析”的领域,这个领域类似于现代的数据科学。<ref name=":7"> |
第190行: |
第120行: |
| </ref> 之后,1992年,在蒙彼利埃第二大学举办的统计研讨会上,与会者们承认了一个新的学科的出现,这个学科专注于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算结合起来。<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref> | | </ref> 之后,1992年,在蒙彼利埃第二大学举办的统计研讨会上,与会者们承认了一个新的学科的出现,这个学科专注于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算结合起来。<ref>{{Cite book|title=Data science and its applications = La @science des données et ses applications|date=1995|publisher=Academic Press/Harcourt Brace|others=Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard.|year=1995|isbn=0-12-241770-4|location=Tokyo|pages=|oclc=489990740}}</ref><ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref> |
| | | |
− |
| |
− | The term “data science” has been traced back to 1974, when [[Peter Naur]] proposed it as an alternative name for computer science.<ref name=":0">{{Cite journal|last=CaoLongbing|date=2017-06-29|title=Data Science|journal=ACM Computing Surveys (CSUR)|volume=50|issue=3|pages=1–42|language=EN|doi=10.1145/3076253|doi-access=free}}</ref> In 1996, the International Federation of Classification Societies became the first conference to specifically feature data science as a topic.<ref name=":0" /> However, the definition was still in flux. In 1997, [[C.F. Jeff Wu]] suggested that statistics should be renamed data science. He reasoned that a new name would help statistics shed inaccurate stereotypes, such as being synonymous with accounting, or limited to describing data.<ref>{{Cite web|url=http://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf|title=Statistics=Data Science?|last=Wu|first=C.F. Jeff|date=|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> In 1998, Chikio Hayashi argued for data science as a new, interdisciplinary concept, with three aspects: data design, collection, and analysis.<ref>{{Cite journal|last=Murtagh|first=Fionn|last2=Devlin|first2=Keith|date=2018|title=The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development|url=https://www.mdpi.com/2504-2289/2/2/14|journal=Big Data and Cognitive Computing|language=en|volume=2|issue=2|pages=14|doi=10.3390/bdcc2020014|via=|doi-access=free}}</ref>
| |
| | | |
| “数据科学”这一术语可以追溯到1974年,当时彼得·诺尔(Peter Naur)将其作为计算机科学的替代名称提出。<ref name=":0"> | | “数据科学”这一术语可以追溯到1974年,当时彼得·诺尔(Peter Naur)将其作为计算机科学的替代名称提出。<ref name=":0"> |
第199行: |
第127行: |
| </ref> 不过,关于数据科学的定义仍在不断变化。1997年,吴建福(C.F.Jeff Wu)建议将统计学重新命名为数据科学。他认为,新的名称将有助于统计学摆脱不准确的刻板印象,例如被认为是会计的同义词,或仅限于描述数据。1998年,林知己夫(Chikio Hayashi)主张将数据科学作为一个新的跨学科概念,包括三个方面:数据设计、收集和分析。 | | </ref> 不过,关于数据科学的定义仍在不断变化。1997年,吴建福(C.F.Jeff Wu)建议将统计学重新命名为数据科学。他认为,新的名称将有助于统计学摆脱不准确的刻板印象,例如被认为是会计的同义词,或仅限于描述数据。1998年,林知己夫(Chikio Hayashi)主张将数据科学作为一个新的跨学科概念,包括三个方面:数据设计、收集和分析。 |
| | | |
− |
| |
− | During the 1990s, popular terms for the process of finding patterns in datasets (which were increasingly large) included “knowledge discovery” and “data mining.”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" />
| |
| | | |
| 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" /> | | 在20世纪90年代,描述在越来越大的数据集中寻找模式的流行术语包括“知识发现”和“数据挖掘”<ref name=":1">{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/|title=A Very Short History Of Data Science|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref><ref name=":0" /> |
| | | |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])下为旧版关于数据科学的词源演变由来的部分内容 可参考整合并进行填充
| |
− |
| |
− | === Modern usage ===
| |
| | | |
− | '''现代用法'''
| |
− |
| |
− | The modern conception of data science as an independent discipline is sometimes attributed to [[William S. Cleveland]].<ref>{{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> In a 2001 paper, he advocated an expansion of statistics beyond theory into technical areas; because this would significantly change the field, it warranted a new name.<ref name=":1" /> "Data science" became more widely used in the next few years: in 2002, the [[Committee on Data for Science and Technology]] launched ''Data Science Journal.'' In 2003, Columbia University launched ''The Journal of Data Science''.<ref name=":1" /> In 2014, the [[American Statistical Association]]'s Section on Statistical Learning and Data Mining changed its name to the Section on Statistical Learning and Data Science, reflecting the ascendant popularity of data science.<ref>{{Cite news|last=Talley|first=Jill|url=https://magazine.amstat.org/blog/2016/06/01/datascience-2/|title=ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science|date=June 1, 2016|work=Amstat News|access-date=|url-status=live|publisher=American Statistical Association}}</ref>
| |
| | | |
| + | === 现代用法 === |
| 数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰(William S. Cleveland)。<ref> | | 数据科学作为一门独立学科的现代概念,一定程度上归功于威廉 · s · 克利夫兰(William S. Cleveland)。<ref> |
| {{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}} | | {{Cite web|url=https://www.stat.purdue.edu/~wsc/|title=William S Cleveland|last=Gupta|first=Shanti|date=December 11, 2015|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}} |
第226行: |
第147行: |
| </ref>2014年,美国统计协会将其统计学习与数据挖掘部更名为统计学习与数据科学部,这反映了数据科学的日益普及。 | | </ref>2014年,美国统计协会将其统计学习与数据挖掘部更名为统计学习与数据科学部,这反映了数据科学的日益普及。 |
| | | |
− |
| |
− | The professional title of “data scientist” has been attributed to [[DJ Patil]] and [[Jeff Hammerbacher]] in 2008.<ref>{{Cite news|last=Davenport|first=Thomas H.|url=https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century|title=Data Scientist: The Sexiest Job of the 21st Century|date=2012-10-01|work=Harvard Business Review|access-date=2020-04-03|last2=Patil|first2=D. J.|issue=October 2012|issn=0017-8012}}</ref> Though it was used by the [[National Science Board]] in their 2005 report, "Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century," it referred broadly to any key role in managing a digital data collection.<ref>{{Cite web|url=https://www.nsf.gov/pubs/2005/nsb0540/|title=US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century|website=www.nsf.gov|access-date=2020-04-03}}</ref>
| |
| | | |
| 2008年,帕蒂尔(DJ Patil)和杰弗·哈梅巴赫(Jeff Hammerbacher)共同提出了“数据科学家”这一职称名词。<ref> | | 2008年,帕蒂尔(DJ Patil)和杰弗·哈梅巴赫(Jeff Hammerbacher)共同提出了“数据科学家”这一职称名词。<ref> |
第234行: |
第153行: |
| | | |
| | | |
− | There is still no consensus on the definition of data science and it is considered by some to be a buzzword.<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
| + | 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref> |
| | | |
− | 目前,对于数据科学的定义依旧没有达成共识,有些人认为这是一个流行词。<ref>{{Cite web|url=https://www.forbes.com/sites/gilpress/2013/08/19/data-science-whats-the-half-life-of-a-buzzword/|title=Data Science: What's The Half-Life Of A Buzzword?|last=Press|first=Gil|website=Forbes|language=en|access-date=2020-04-03}}</ref>
| |
| | | |
| ==研究内容== | | ==研究内容== |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])并不限于所列出来的条目 可以根据研究内容进行自主填充
| |
| ===数据科学基础理论=== | | ===数据科学基础理论=== |
| 数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是--"基础理论"与"理论基础"是两个不同的概念。数据科学的"基础理论"在数据科学的研究边界之内,而其"理论基础"在数据科学的研究边界之外,是数据科学的理论依据和来源。 | | 数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是--"基础理论"与"理论基础"是两个不同的概念。数据科学的"基础理论"在数据科学的研究边界之内,而其"理论基础"在数据科学的研究边界之外,是数据科学的理论依据和来源。 |
| + | |
| | | |
| ===数据预处理=== | | ===数据预处理=== |
| 为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理--进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。 | | 为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理--进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。 |
| + | |
| | | |
| ===数据计算=== | | ===数据计算=== |
− | 在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。 | + | 在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。 |
| + | 数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。 |
| + | |
| | | |
| ===数据管理=== | | ===数据管理=== |
| 在完成"数据预处理"(或"数据计算")之后,我们需要对数据进行管理,以便进行(再次进行)"数据处理"以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变--不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。 | | 在完成"数据预处理"(或"数据计算")之后,我们需要对数据进行管理,以便进行(再次进行)"数据处理"以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变--不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。 |
| | | |
− | == Careers in data science 数据科学的相关职业== | + | |
| + | ==数据科学的相关职业== |
| | | |
| Data science is a growing field. A career as a data scientist is ranked at the third best job in America for 2020 by Glassdoor, and was ranked the number one best job from 2016-2019.<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> Data scientists have a median salary of $118,370 per year or $56.91 per hour.<ref name=":2">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> Job growth in this field is also above average, with a projected increase of 16% from 2018 to 2028.<ref name=":2" /> The largest employer of data scientists in the US is the federal government, employing 28% of the data science workforce.<ref name=":2" /> Other large employers of data scientists are computer system design services, research and development laboratories, and colleges and universities.<ref name=":2" /> Typically, data scientists work full time, and some work more than 40 hours a week.<ref name=":2" /> | | Data science is a growing field. A career as a data scientist is ranked at the third best job in America for 2020 by Glassdoor, and was ranked the number one best job from 2016-2019.<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> Data scientists have a median salary of $118,370 per year or $56.91 per hour.<ref name=":2">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> Job growth in this field is also above average, with a projected increase of 16% from 2018 to 2028.<ref name=":2" /> The largest employer of data scientists in the US is the federal government, employing 28% of the data science workforce.<ref name=":2" /> Other large employers of data scientists are computer system design services, research and development laboratories, and colleges and universities.<ref name=":2" /> Typically, data scientists work full time, and some work more than 40 hours a week.<ref name=":2" /> |
| | | |
− | 数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。数据科学家的平均薪资为每年118,370美元或每小时56.91美元。该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。 | + | 数据科学是一个不断发展的领域。2020年,Glassdoor(美国一家职业点评网站)评出的美国最佳职业中,数据科学家位居第三,而在2016-2019年的最佳职业中,位居第一。<ref>{{Cite web|url=https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm|title=Best Jobs in America|website=Glassdoor|language=en|access-date=2020-04-03}}</ref> 数据科学家的平均薪资为每年118,370美元或每小时56.91美元。<ref name=":2">{{Cite web|url=https://www.bls.gov/ooh/computer-and-information-technology/computer-and-information-research-scientists.htm|title=Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics|website=www.bls.gov|language=en-us|access-date=2020-04-03}}</ref> 该领域的就业增长率也高于平均水平,预计从2018年到2028年将增长16%。<ref name=":2" />美国的数据科学家的最大雇佣方是美国联邦政府,占比28%;其他主要雇主包括计算机系统设计服务、研究和开发实验室以及高等院校。<ref name=":2" /> 通常情况下,数据科学家为全职工作,有些人每周工作时间超过40小时。 |
− | | |
− | | |
− | === Educational path ===
| |
− | | |
− | '''教育路径'''
| |
− | | |
− | In order to become a data scientist, there is a significant amount of education and experience required. The first step in becoming a data scientist is to earn a bachelor's degree, typically in a field related to computing or mathematics.<ref name=":3">{{Cite web|url=https://www.mastersindatascience.org/careers/data-scientist/|title=What is a Data Scientist?|website=Master's in Data Science|language=en-US|access-date=2020-04-03}}</ref><ref name=":2" /> Coding bootcamps are also available and can be used as an alternate pre-qualification to supplement a bachelor's degree in another field.<ref name=":3" /> Most data scientists also complete a master’s degree or a PhD in data science.<ref name=":3" /> Once these qualifications are met, the next step to becoming a data scientist is to apply for an entry level job in the field.<ref name=":3" /> Some data scientists may later choose to specialize in a sub-field of data science.<ref name=":3" />
| |
− | | |
− | 要成为一名数据科学家,需要接受充分教育、积累大量经验。成为数据科学家的第一步通常是取得与计算或数学相关的学士学位;其他领域的学士也可以通过参加编程训练营作为补充,获取资格。大多数数据科学家也在该领域取得了硕士或博士学位。达成这些条件后,下一步就是申请该领域的入门级工作。一些数据科学家以后可能会选择专攻数据科学的某个分支领域。
| |
| | | |
− | === Specializations and associated careers ===
| |
| | | |
− | '''专业细分和相关职业''' | + | === 教育路径 === |
| + | 要成为一名数据科学家,需要接受充分教育、积累大量经验。成为数据科学家的第一步通常是取得与计算或数学相关的学士学位;<ref name=":3">{{Cite web|url=https://www.mastersindatascience.org/careers/data-scientist/|title=What is a Data Scientist?|website=Master's in Data Science|language=en-US|access-date=2020-04-03}}</ref><ref name=":2" />其他领域的学士也可以通过参加编程训练营作为补充,获取资格。<ref name=":3" /> 大多数数据科学家也在该领域取得了硕士或博士学位。达成这些条件后,下一步就是申请该领域的入门级工作。一些数据科学家以后可能会选择专攻数据科学的某个分支领域。<ref name=":3" /> |
| | | |
| + | === 专业细分和相关职业=== |
| * 机器学习科学家: 机器学习科学家研究数据分析新方法,创立算法.<ref name=":4">{{Cite web|url=https://www.northeastern.edu/graduate/blog/data-science-careers-shaping-our-future/|title=11 Data Science Careers Shaping the Future|date=2018-11-23|website=Northeastern University Graduate Programs|language=en-US|access-date=2020-04-03}}</ref> | | * 机器学习科学家: 机器学习科学家研究数据分析新方法,创立算法.<ref name=":4">{{Cite web|url=https://www.northeastern.edu/graduate/blog/data-science-careers-shaping-our-future/|title=11 Data Science Careers Shaping the Future|date=2018-11-23|website=Northeastern University Graduate Programs|language=en-US|access-date=2020-04-03}}</ref> |
| | | |
第280行: |
第194行: |
| | | |
| * 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" /> | | * 应用程序架构师: 应用程序架构师跟踪应用程序在整个业务中的使用情况,以及其与用户和其他应用程序的交互情况.<ref name=":4" /> |
− |
| |
− | == Impacts of data science数据科学的影响 ==
| |
− |
| |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])需要再进行补充 内容过少
| |
− |
| |
− | Big data is very quickly becoming a vital tool for businesses and companies of all sizes.<ref name=":5">{{Cite web|url=https://www.forbes.com/sites/peterpham/2015/08/28/the-impacts-of-big-data-that-you-may-not-have-heard-of/|title=The Impacts Of Big Data That You May Not Have Heard Of|last=Pham|first=Peter|website=Forbes|language=en|access-date=2020-04-03}}</ref> The availability and interpretation of big data has altered the business models of old industries and enabled the creation of new ones.<ref name=":5" /> Data-driven businesses are worth $1.2 trillion collectively in 2020, an increase from $333 billion in the year 2015.<ref name=":6">{{Cite web|url=https://towardsdatascience.com/how-data-science-will-impact-future-of-businesses-7f11f5699c4d|title=How Data Science will Impact Future of Businesses?|last=Martin|first=Sophia|date=2019-09-20|website=Medium|language=en|access-date=2020-04-03}}</ref> Data scientists are responsible for breaking down big data into usable information and creating software and algorithms that help companies and organizations determine optimal operations.<ref name=":6" /> As big data continues to have a major impact on the world, data science does as well due to the close relationship between the two.<ref name=":6" />
| |
− |
| |
− | 大数据正在迅速成为不同规模的企业和公司的重要工具。大数据的可用性和对其的解释说明改变了旧行业的商业模式,并促进了新行业的产生。2015年,数据驱动型企业的总价值为3330亿,到2020年,这一数值已经增长到1.2万亿。数据科学家负责将大数据分解为可用信息,并创建软件和算法,来帮助公司和组织确定最佳操作。大数据持续对世界产生重大影响,由于两者之间的密切关系,数据科学也产生了同样重大的影响。
| |
| | | |
| | | |
| + | ==数据科学的影响 == |
| + | 大数据正在迅速成为不同规模的企业和公司的重要工具。<ref name=":5">{{Cite web|url=https://www.forbes.com/sites/peterpham/2015/08/28/the-impacts-of-big-data-that-you-may-not-have-heard-of/|title=The Impacts Of Big Data That You May Not Have Heard Of|last=Pham|first=Peter|website=Forbes|language=en|access-date=2020-04-03}}</ref>大数据的可用性和对其的解释说明改变了旧行业的商业模式,并促进了新行业的产生。<ref name=":5" /> 2015年,数据驱动型企业的总价值为3330亿,到2020年,这一数值已经增长到1.2万亿。<ref name=":6">{{Cite web|url=https://towardsdatascience.com/how-data-science-will-impact-future-of-businesses-7f11f5699c4d|title=How Data Science will Impact Future of Businesses?|last=Martin|first=Sophia|date=2019-09-20|website=Medium|language=en|access-date=2020-04-03}}</ref> 数据科学家负责将大数据分解为可用信息,并创建软件和算法,来帮助公司和组织确定最佳操作。大数据持续对世界产生重大影响,由于两者之间的密切关系,数据科学也产生了同样重大的影响。<ref name=":6" /> |
| | | |
| | | |
| + | 大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(TheFourth Paradigm),把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。 |
| | | |
− |
| |
− |
| |
− | 大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(TheFourth Paradigm)[5],把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。
| |
| | | |
| 不仅如此,数据分析几乎涉及到了现代数学的所有分支。甚至于像表示论这样的极其抽象的分支,在数据科学领域也有其发挥作用的余地。所以数据科学对数学的要求和推动是全面的,而不是仅仅局限在几个领域。数据应该成为数、图形和方程之外数学研究的基本对象之一。 | | 不仅如此,数据分析几乎涉及到了现代数学的所有分支。甚至于像表示论这样的极其抽象的分支,在数据科学领域也有其发挥作用的余地。所以数据科学对数学的要求和推动是全面的,而不是仅仅局限在几个领域。数据应该成为数、图形和方程之外数学研究的基本对象之一。 |
| | | |
− | '''对计算机学科的影响'''
| |
| | | |
| + | ===对计算机学科的影响=== |
| 数据科学对计算机科学的发展也会带来很大的影响。图灵奖得主John Hopcroft曾经指出,在过去的几十年里,计算机科学的研究对象主要是计算机本身,包括硬件和软件。以后计算机科学的发展将主要围绕应用展开。而从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强。 | | 数据科学对计算机科学的发展也会带来很大的影响。图灵奖得主John Hopcroft曾经指出,在过去的几十年里,计算机科学的研究对象主要是计算机本身,包括硬件和软件。以后计算机科学的发展将主要围绕应用展开。而从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强。 |
| | | |
− | '''对统计学的影响'''
| |
| | | |
| + | ===对统计学的影响=== |
| 再看统计学。统计学一直就是一门研究数据的学科。所以它也是数据科学最核心的部分之一。但在数据科学的框架之下,统计学的发展也会受到很大的冲击。 | | 再看统计学。统计学一直就是一门研究数据的学科。所以它也是数据科学最核心的部分之一。但在数据科学的框架之下,统计学的发展也会受到很大的冲击。 |
| + | |
| | | |
| 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 | | 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 |
| | | |
− | == Technologies and techniques 所涉及的科技和技术==
| |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词 cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197);
| |
− |
| |
− | There are a variety of different technologies and techniques that are used for data science which depending on the application.
| |
| | | |
| + | == 所涉及的科技和技术== |
| 根据应用的不同,数据科学采用了多种不同的科技和技术。 | | 根据应用的不同,数据科学采用了多种不同的科技和技术。 |
| | | |
| | | |
− | === Techniques === | + | === 技术 === |
− | '''技术'''
| |
− | | |
− | * [[Cluster analysis|Clustering]] is a technique used to group data together.
| |
| *[[聚类分析|聚类]]是一种将数据分组整合的技术。 | | *[[聚类分析|聚类]]是一种将数据分组整合的技术。 |
| | | |
| | | |
| 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 | | 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 |
| + | |
| | | |
| 聚类的基本思想: | | 聚类的基本思想: |
第334行: |
第236行: |
| | | |
| | | |
− | * [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly.
| |
| *[[降维]]用于降低数据计算的复杂度,从而提高计算速度。 | | *[[降维]]用于降低数据计算的复杂度,从而提高计算速度。 |
| | | |
| | | |
| 数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。 | | 数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。 |
| + | |
| | | |
| 数据降维有两种方式:特征选择,维度转换。 | | 数据降维有两种方式:特征选择,维度转换。 |
| | | |
− | # 特征选择 | + | |
| + | #特征选择 |
| 特征选择指根据一定的规则和经验,直接在原有的维度中挑选一部分参与到计算和建模过程,用选择的特征代替所有特征,不改变原有特征,也不产生新的特征值。 | | 特征选择指根据一定的规则和经验,直接在原有的维度中挑选一部分参与到计算和建模过程,用选择的特征代替所有特征,不改变原有特征,也不产生新的特征值。 |
| 特征选择的降维方式好处是可以保留原有维度特征的基础上进行降维,既能满足后续数据处理和建模需求,又能保留维度原本的业务含义,以便于业务理解和应用。对于业务分析性的应用而言,模型的可理解性和可用性很多时候要有限于模型本身的准确率、效率等技术指标。例如,决策树得到的特征规则,可以作为选择用户样本的基础条件,而这些特征规则便是基于输入的维度产生。 | | 特征选择的降维方式好处是可以保留原有维度特征的基础上进行降维,既能满足后续数据处理和建模需求,又能保留维度原本的业务含义,以便于业务理解和应用。对于业务分析性的应用而言,模型的可理解性和可用性很多时候要有限于模型本身的准确率、效率等技术指标。例如,决策树得到的特征规则,可以作为选择用户样本的基础条件,而这些特征规则便是基于输入的维度产生。 |
第350行: |
第253行: |
| | | |
| | | |
− | * [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.
| |
| *[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。 | | *[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。 |
| | | |
第356行: |
第258行: |
| 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 | | 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 |
| | | |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充
| |
| | | |
− | === Technologies === | + | === 科技 === |
− | 科技
| + | * [[Python(编程语言)|Python]]是数据科学中广泛使用的一种语法简单的编程语言。<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref>数据科学中使用了大量的python库,包括numpy、panda和scipy。 |
| | | |
− | * [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.
| |
− | * [[Python(编程语言)|Python]]是数据科学中广泛使用的一种语法简单的编程语言。数据科学中使用了大量的python库,包括numpy、panda和scipy。
| |
| | | |
− | | + | *[[R(程序设计语言)|R]]语言是一种为统计学家和数据挖掘而设计的编程语言,<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> 并优化了计算。 |
− | | |
− | * [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation. | |
− | *[[R(程序设计语言)|R]]语言是一种为统计学家和数据挖掘而设计的编程语言,并优化了计算。
| |
| | | |
| | | |
第378行: |
第274行: |
| | | |
| | | |
− |
| |
− | * [[TensorFlow]] is a framework for creating machine learning models developed by Google.
| |
| *[[TensorFlow]]是由Google开发的用于创建机器学习模型的框架。 | | *[[TensorFlow]]是由Google开发的用于创建机器学习模型的框架。 |
| | | |
| | | |
| Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程(Dataflow Programming)''' 的符号数学系统,被广泛应用于各类'''机器学习(Machine Learning)'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。 | | Tensorflow拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程(Dataflow Programming)''' 的符号数学系统,被广泛应用于各类'''机器学习(Machine Learning)'''算法的编程实现,其前身是谷歌的神经网络算法库DistBelief 。 |
| + | |
| Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 | | Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 |
| TensorFlow由谷歌人工智能团队'''谷歌大脑(Google Brain)''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口(Application Programming Interface)''' 。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码 。 | | TensorFlow由谷歌人工智能团队'''谷歌大脑(Google Brain)''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口(Application Programming Interface)''' 。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码 。 |
| | | |
| | | |
− |
| |
− | * [[Pytorch]] is another framework for machine learning developed by Facebook.
| |
| *[[Pytorch]]是Facebook开发的另一个机器学习框架。 | | *[[Pytorch]]是Facebook开发的另一个机器学习框架。 |
| | | |
第399行: |
第292行: |
| | | |
| | | |
− |
| |
− | * [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation.
| |
| *[[Jupyter Notebook]]是一个用于Python的交互式web界面,可以更快地进行实验。 | | *[[Jupyter Notebook]]是一个用于Python的交互式web界面,可以更快地进行实验。 |
| | | |
第407行: |
第298行: |
| | | |
| | | |
− | | + | *[[Tableau软件|Tableau]]制作了许多用于数据可视化的软件。<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. |
− | * [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. | |
− | *[[Tableau软件|Tableau]]制作了许多用于数据可视化的软件。
| |
| | | |
| | | |
第415行: |
第304行: |
| | | |
| | | |
− |
| |
− | * [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems.
| |
| *[[Apache Hadoop]]是一个用于在大型分布式系统上处理数据的软件框架。 | | *[[Apache Hadoop]]是一个用于在大型分布式系统上处理数据的软件框架。 |
| | | |
| | | |
| 它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。 | | 它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。 |
| + | |
| | | |
| ==与机器学习、人工智能之间的异同== | | ==与机器学习、人工智能之间的异同== |
第427行: |
第315行: |
| *机器学习产生预测 | | *机器学习产生预测 |
| *人工智能产生行为 | | *人工智能产生行为 |
| + | |
| | | |
| ===数据科学负责见解=== | | ===数据科学负责见解=== |
| 数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。'''杰夫·利克(Jeff Leek)''' 对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。 | | 数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。'''杰夫·利克(Jeff Leek)''' 对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。 |
− | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])杰夫·利克(Jeff Leek)的cnki翻译意义感觉不太对
| + | |
| | | |
| 同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。 | | 同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。 |
| + | |
| | | |
| 因此,数据科学的定义强调: | | 因此,数据科学的定义强调: |
第441行: |
第331行: |
| #沟通 | | #沟通 |
| 数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。 | | 数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。 |
| + | |
| | | |
| ===机器学习负责预测=== | | ===机器学习负责预测=== |
| | | |
| 机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。 | | 机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。 |
| + | |
| | | |
| 数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。 | | 数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。 |
| + | |
| | | |
| 像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。 | | 像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。 |
| | | |
| | | |
| + | 大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。 |
| | | |
− | 大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。
| |
| | | |
| ===人工智能负责行为=== | | ===人工智能负责行为=== |
| + | 人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。 |
| | | |
| | | |
− | 人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。
| + | 在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括: |
| | | |
− | 在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括:
| |
| | | |
− | 游戏算法(Deep Blue,AlphaGo) | + | #游戏算法(Deep Blue,AlphaGo) |
− | 机器人技术与控制理论(运动规划,行走两足机器人) | + | #机器人技术与控制理论(运动规划,行走两足机器人) |
− | 优化(谷歌地图选择路线) | + | #优化(谷歌地图选择路线) |
− | 自然语言处理(bots) | + | #自然语言处理(bots) |
− | 强化学习 | + | #强化学习 |
| 同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。 | | 同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。 |
| + | |
| | | |
| 但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。 | | 但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。 |
| + | |
| | | |
| 人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。 | | 人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。 |
| + | |
| | | |
| ===案例研究:三项技术如何一起使用?=== | | ===案例研究:三项技术如何一起使用?=== |
| 假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。 | | 假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。 |
| + | |
| | | |
| 机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。 | | 机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。 |
| + | |
| | | |
| 人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。 | | 人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。 |
| + | |
| | | |
| 数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。 | | 数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。 |
第483行: |
第382行: |
| | | |
| 来源:https://blog.csdn.net/dev_csdn/article/details/79127658 翻译原文http://varianceexplained.org/r/ds-ml-ai/ 原文作者:David Robinson | | 来源:https://blog.csdn.net/dev_csdn/article/details/79127658 翻译原文http://varianceexplained.org/r/ds-ml-ai/ 原文作者:David Robinson |
| + | |
| | | |
| ==与统计学的关系== | | ==与统计学的关系== |