第309行: |
第309行: |
| 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 | | 这种冲击至少表现在两个方面。一是关于数据的模型将会跳出传统的统计模型的框架。更一般的数学概念,如拓扑、几何和随机场的概念将会在数据分析中扮演重要的角色。二是算法和分布式计算将成为研究的中心课题之一。 |
| | | |
− | == Technologies and techniques 所涉及的技术和应用软件== | + | == Technologies and techniques 所涉及的科技和技术== |
| --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词 cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197); | | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])所涉及的两个词 我查的时候都是技术的意思 在查看内容后也不知道怎么区别这两个词 cnki的查询结果:Technique:技术(59685)方法(19269)工艺(4963);Technologies:技术(39330) 工艺(3185) 的技术(2197); |
| | | |
| There are a variety of different technologies and techniques that are used for data science which depending on the application. | | There are a variety of different technologies and techniques that are used for data science which depending on the application. |
− | 有各种不同的技术用于数据科学,这取决于在什么应用软件实现该技术。
| + | |
| + | 根据应用的不同,数据科学采用了多种不同的科技和技术。 |
| + | |
| | | |
| === Techniques技术 === | | === Techniques技术 === |
| | | |
| * [[Cluster analysis|Clustering]] is a technique used to group data together. | | * [[Cluster analysis|Clustering]] is a technique used to group data together. |
− | *[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。 | + | *[[聚类分析|聚类]]是一种将数据分组整合的技术。 |
| + | |
| | | |
| 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 | | 聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 |
第328行: |
第331行: |
| #用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。 | | #用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。 |
| #根据分类来研究各类样本的共性,找出规律。 | | #根据分类来研究各类样本的共性,找出规律。 |
| + | |
| | | |
| * [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly. | | * [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly. |
− | *[[降维]]用于降低数据计算的复杂性,使其能够更快地执行。 | + | *[[降维]]用于降低数据计算的复杂度,从而提高计算速度。 |
| + | |
| + | |
| 数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。 | | 数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。 |
| | | |
第341行: |
第347行: |
| #维度转换 | | #维度转换 |
| 维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。 | | 维度转换是按照一定数学变换方法,把给定的一组相关变量(维度)通过数学模型将高纬度空间的数据点映射到低纬度空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原来特征,而是之前特征的转化后的表达式,新的特征丢失了原有数据的业务含义。 通过数据维度变换的降维方法是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种,其中常用的代表算法包括独立成分分析(ICA),主成分分析(PCA),因子分析(Factor Analysis,FA),线性判别分析(LDA),局部线性嵌入(LLE),核主成分分析(Kernel PCA)等。 |
| + | |
| | | |
| * [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data. | | * [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data. |
− | *[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 | + | *[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。 |
| + | |
| + | |
| + | 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。 |
| | | |
| --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充 | | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])先将其意思译出来后再进行一些补充 |
| + | |
| + | |
| === Technologies === | | === Technologies === |
− | 技术
| + | 科技 |
| | | |
| * [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy. | | * [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy. |