第539行: |
第539行: |
| | | |
| There are a variety of different technologies and techniques that are used for data science which depending on the application. | | There are a variety of different technologies and techniques that are used for data science which depending on the application. |
− |
| |
− | There are a variety of different technologies and techniques that are used for data science which depending on the application.
| |
− |
| |
| 有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。 | | 有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。 |
− |
| |
− |
| |
− |
| |
− |
| |
− |
| |
− |
| |
| | | |
| === Techniques技术 === | | === Techniques技术 === |
− |
| |
| | | |
| * [[Cluster analysis|Clustering]] is a technique used to group data together. | | * [[Cluster analysis|Clustering]] is a technique used to group data together. |
| *[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。 | | *[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。 |
− |
| |
| | | |
| 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 | | 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 |
第571行: |
第560行: |
| | | |
| 数据降维有两种方式:特征选择,维度转换。 | | 数据降维有两种方式:特征选择,维度转换。 |
− |
| |
| | | |
| # 特征选择 | | # 特征选择 |
第579行: |
第567行: |
| #维度转换 | | #维度转换 |
| 维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。 | | 维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。 |
− |
| |
| | | |
| * [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data. | | * [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data. |
第586行: |
第573行: |
| --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充 | | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充 |
| === Technologies === | | === Technologies === |
− |
| |
| 技术 | | 技术 |
− |
| |
− |
| |
| | | |
| * [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy. | | * [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy. |
第596行: |
第580行: |
| * [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation. | | * [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation. |
| *[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言,其可以用于数据挖掘和计算优化。 | | *[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言,其可以用于数据挖掘和计算优化。 |
− |
| |
| | | |
| R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: | | R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: |
第604行: |
第587行: |
| #R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。 | | #R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。 |
| #如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。 | | #如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。 |
− |
| |
| | | |
| * [[TensorFlow]] is a framework for creating machine learning models developed by Google. | | * [[TensorFlow]] is a framework for creating machine learning models developed by Google. |
第612行: |
第594行: |
| Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 | | Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。 |
| TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface''' 。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码 。 | | TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface''' 。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码 。 |
− |
| |
| | | |
| * [[Pytorch]] is another framework for machine learning developed by Facebook. | | * [[Pytorch]] is another framework for machine learning developed by Facebook. |
第621行: |
第602行: |
| #具有强大的GPU加速的张量计算(如NumPy)。 | | #具有强大的GPU加速的张量计算(如NumPy)。 |
| #包含自动求导系统的的深度神经网络。 | | #包含自动求导系统的的深度神经网络。 |
− |
| |
− |
| |
| | | |
| * [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation. | | * [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation. |
第628行: |
第607行: |
| | | |
| Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。 | | Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。 |
− |
| |
− |
| |
− |
| |
| | | |
| * [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. | | * [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>. |
第636行: |
第612行: |
| | | |
| Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。 | | Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。 |
− |
| |
− |
| |
| | | |
| * [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems. | | * [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems. |