更改

数据科学 (查看源代码)

2020年5月10日 (日) 13:58的版本

添加9,344字节、 2020年5月10日 (日) 13:58

→‎Technologies and techniques 所涉及的技术和应用软件

第528行：第528行：

== Technologies and techniques 所涉及的技术和应用软件==

−

+

--[[用户:趣木木|趣木木]]（[[用户讨论:趣木木|讨论]]）所涉及的两个词我查的时候都是技术的意思在查看内容后也不知道怎么区别这两个词 cnki的查询结果：Technique：技术(59685)方法(19269)工艺(4963)；Technologies：技术(39330) 工艺(3185) 的技术(2197)；

There are a variety of different technologies and techniques that are used for data science which depending on the application.

第534行：第534行：

There are a variety of different technologies and techniques that are used for data science which depending on the application.

−

~~有各种不同的技术和技术用于数据科学，这取决于应用。~~

+

有各种不同的技术用于数据科学，这取决于在什么应用软件实现该技术。

第542行：第542行： −

=== ~~Techniques~~ ===

+

=== Techniques技术 ===

+

* [[Cluster analysis|Clustering]] is a technique used to group data together.

+

*[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。

+

聚类，将相似的事物聚集在一起，将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

−

* [[Cluster analysis|Clustering]] is a technique used to group data together.

+

聚类的基本思想：

+

#有大量的样本。

+

#假定研究的样本之间存在程度不同的相似性，可以分为几类；相同类别的样本相似度高，不同类别的样本相似度差。

+

#用一些数据指标来描述样本的若干属性，构成向量。

+

#用某种方法度量样本之间或者类别之间的相似性（或称距离），依据距离来进行分类。

+

#根据分类来研究各类样本的共性，找出规律。

+

* [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly.

+

*[[降维]]用于降低数据计算的复杂性，使其能够更快地执行。

+

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此，大多数情况下，当我们面临高维数据时，都需要对数据做降维处理。

+

数据降维有两种方式：特征选择，维度转换。

−

* [[Dimensionality reduction]] is used to reduce the complexity of data computation so that it can be performed more quickly.

+

# 特征选择

+

特征选择指根据一定的规则和经验，直接在原有的维度中挑选一部分参与到计算和建模过程，用选择的特征代替所有特征，不改变原有特征，也不产生新的特征值。

+

特征选择的降维方式好处是可以保留原有维度特征的基础上进行降维，既能满足后续数据处理和建模需求，又能保留维度原本的业务含义，以便于业务理解和应用。对于业务分析性的应用而言，模型的可理解性和可用性很多时候要有限于模型本身的准确率、效率等技术指标。例如，决策树得到的特征规则，可以作为选择用户样本的基础条件，而这些特征规则便是基于输入的维度产生。

+

#维度转换

+

维度转换是按照一定数学变换方法，把给定的一组相关变量（维度）通过数学模型将高纬度空间的数据点映射到低纬度空间中，然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程，转换后的维度并非原来特征，而是之前特征的转化后的表达式，新的特征丢失了原有数据的业务含义。通过数据维度变换的降维方法是非常重要的降维方法，这种降维方法分为线性降维和非线性降维两种，其中常用的代表算法包括独立成分分析（ICA），主成分分析（PCA），因子分析（Factor Analysis，FA），线性判别分析（LDA），局部线性嵌入（LLE），核主成分分析（Kernel PCA）等。

* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.

+

*[[机器学习]]是一种通过从数据中推断模式来执行任务的技术。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径。机器学习也是用数据或以往的经验,以此优化计算机程序的性能标准。

−

+

--[[用户:趣木木|趣木木]]（[[用户讨论:趣木木|讨论]]）先将其意思译出来后再进行一些补充

−

=== Technologies ===

技术

−

* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.

+

* [[Python(编程语言)|Python]]是一种语法简单的编程语言，通常用于数据科学。在数据科学中使用了大量的python库，包括numpy、panda和scipy。

+

* [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation.

+

*[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言，其可以用于数据挖掘和计算优化。

−

* [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#~~What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation.~~

+

R作为一种统计分析软件，是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上，而且嵌入了一个非常方便实用的帮助系统，相比于其他统计分析软件，R还有以下特点：

−

+

#R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。

+

#R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。

+

#所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有：base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等。

+

#R具有很强的互动性。除了图形输出是在另外的窗口处，它的输入输出窗口都是在同一个窗口进行的，输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。

+

#如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。

* [[TensorFlow]] is a framework for creating machine learning models developed by Google.

+

*[[TensorFlow]]是一个用于创建由谷歌开发的机器学习模型的框架，是一个端到端开源机器学习平台。

+

Tensorflow拥有一个全面而灵活的生态系统，其中包含各种工具、库和社区资源，可助力研究人员推动先进机器学习技术的发展，并使开发者能够轻松地构建和部署由机器学习提供支持的应用。TensorFlow也是一个基于'''数据流编程 Dataflow Programming''' 的符号数学系统，被广泛应用于各类'''机器学习 Machine Learning'''算法的编程实现，其前身是谷歌的神经网络算法库DistBelief 。

+

Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究。

+

TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护，拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface''' 。自2015年11月9日起，TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码。

* [[Pytorch]] is another framework for machine learning developed by Facebook.

+

*[[Pytorch]]是Facebook开发的另一个机器学习框架。

+

PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。

+

2017年1月，由Facebook人工智能研究院（FAIR）基于Torch推出了PyTorch。它是一个基于Python的可续计算包，提供两个高级功能：

+

#具有强大的GPU加速的张量计算（如NumPy）。

+

#包含自动求导系统的的深度神经网络。

* [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation.

+

*[[Jupyter Notebook]]是一个用于Python的交互式web界面，允许进行更快的实验。

+

Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。其本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

+

* [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.

+

*[[Tableau软件|Tableau]]制作各种用于数据可视化的软件。

+

Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。

* [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems.

−

+

*[[Apache Hadoop]]是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型，计算任务会被分割成小块（多次）运行在不同的节点上。除此之外，它还提供了一款分布式文件系统（HDFS），数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。

==与机器学习、人工智能之间的异同==

趣木木

579

个编辑