更改

删除24字节 、 2020年5月14日 (四) 10:57
第309行: 第309行:  
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
 
这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。
   −
== Technologies and techniques 所涉及的技术和应用软件==
+
== Technologies and techniques 所涉及的科技和技术==
 
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词  cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197);
 
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词  cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197);
    
There are a variety of different technologies and techniques that are used for data science which depending on the application.
 
There are a variety of different technologies and techniques that are used for data science which depending on the application.
有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。
+
 
 +
根据应用的不同,数据科学采用了多种不同的科技和技术。
 +
 
    
=== Techniques技术 ===
 
=== Techniques技术 ===
    
* [[Cluster analysis|Clustering]] is a technique used to group data together.
 
* [[Cluster analysis|Clustering]] is a technique used to group data together.
*[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。
+
*[[聚类分析|聚类]]是一种将数据分组整合的技术。
 +
 
    
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
 
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
第328行: 第331行:  
#用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。   
 
#用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。   
 
#根据分类来研究各类样本的共性,找出规律。
 
#根据分类来研究各类样本的共性,找出规律。
 +
    
* [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly.
 
* [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly.
*[[降维]]用于降低数据计算的复杂性,使其能够更快地执行。
+
*[[降维]]用于降低数据计算的复杂度,从而提高计算速度。
 +
 
 +
 
 
数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。
 
数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。
   第341行: 第347行:  
#维度转换
 
#维度转换
 
维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。
 
维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。
 +
    
* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.
 
* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.
*[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。
+
*[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。
 +
 
 +
 
 +
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。
    
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充
 
   --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充
 +
 +
 
=== Technologies ===
 
=== Technologies ===
技术
+
科技
    
* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.
 
* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.
198

个编辑