更改

跳到导航 跳到搜索
删除153字节 、 2020年5月11日 (一) 14:45
第539行: 第539行:     
There are a variety of different technologies and techniques that are used for data science which depending on the application.
 
There are a variety of different technologies and techniques that are used for data science which depending on the application.
  −
There are a variety of different technologies and techniques that are used for data science which depending on the application.
  −
   
有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。
 
有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。
  −
  −
  −
  −
  −
      
=== Techniques技术 ===
 
=== Techniques技术 ===
      
* [[Cluster analysis|Clustering]] is a technique used to group data together.
 
* [[Cluster analysis|Clustering]] is a technique used to group data together.
 
*[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。
 
*[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。
      
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
 
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
第571行: 第560行:     
数据降维有两种方式:特征选择,维度转换。
 
数据降维有两种方式:特征选择,维度转换。
   
    
 
    
 
# 特征选择
 
# 特征选择
第579行: 第567行:  
#维度转换
 
#维度转换
 
维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。
 
维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。
      
* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.
 
* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.
第586行: 第573行:  
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充
 
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充
 
=== Technologies ===
 
=== Technologies ===
   
技术
 
技术
  −
      
* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.
 
* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.
第596行: 第580行:  
* [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation.
 
* [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation.
 
*[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言,其可以用于数据挖掘和计算优化。
 
*[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言,其可以用于数据挖掘和计算优化。
      
R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:
 
R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:
第604行: 第587行:  
#R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。
 
#R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。
 
#如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。
 
#如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。
      
* [[TensorFlow]] is a framework for creating machine learning models developed by Google.
 
* [[TensorFlow]] is a framework for creating machine learning models developed by Google.
第612行: 第594行:  
Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。
 
Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。
 
TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface'''  。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码  。
 
TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface'''  。自2015年11月9日起,TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码  。
      
* [[Pytorch]] is another framework for machine learning developed by Facebook.
 
* [[Pytorch]] is another framework for machine learning developed by Facebook.
第621行: 第602行:  
#具有强大的GPU加速的张量计算(如NumPy)。
 
#具有强大的GPU加速的张量计算(如NumPy)。
 
#包含自动求导系统的的深度神经网络。
 
#包含自动求导系统的的深度神经网络。
  −
      
* [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation.
 
* [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation.
第628行: 第607行:     
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等  。
 
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等  。
  −
  −
      
* [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.
 
* [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.
第636行: 第612行:     
Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。
 
Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。
  −
      
* [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems.
 
* [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems.
198

个编辑

导航菜单