更改

数据科学 (查看源代码)

2020年5月11日 (一) 14:45的版本

删除153字节、 2020年5月11日 (一) 14:45

→‎Technologies and techniques 所涉及的技术和应用软件

第539行：第539行：

There are a variety of different technologies and techniques that are used for data science which depending on the application.

−

~~There are a variety of different technologies and techniques that are used for data science which depending on the application.~~

−

有各种不同的技术用于数据科学，这取决于在什么应用软件实现该技术。

−

=== Techniques技术 ===

−

* [[Cluster analysis|Clustering]] is a technique used to group data together.

*[[聚类分析|聚类]]是一种用于将数据分组在一起的技术。

−

聚类，将相似的事物聚集在一起，将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

第571行：第560行：

数据降维有两种方式：特征选择，维度转换。

−

# 特征选择

第579行：第567行：

#维度转换

维度转换是按照一定数学变换方法，把给定的一组相关变量（维度）通过数学模型将高纬度空间的数据点映射到低纬度空间中，然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程，转换后的维度并非原来特征，而是之前特征的转化后的表达式，新的特征丢失了原有数据的业务含义。通过数据维度变换的降维方法是非常重要的降维方法，这种降维方法分为线性降维和非线性降维两种，其中常用的代表算法包括独立成分分析（ICA），主成分分析（PCA），因子分析（Factor Analysis，FA），线性判别分析（LDA），局部线性嵌入（LLE），核主成分分析（Kernel PCA）等。

−

* [[Machine learning]] is a technique used to perform tasks by inferencing patterns from data.

第586行：第573行：

--[[用户:趣木木|趣木木]]（[[用户讨论:趣木木|讨论]]）先将其意思译出来后再进行一些补充

=== Technologies ===

−

技术

−

* [[Python (programming language)|Python]] is a programming language with simple syntax that is commonly used for data science.<ref>{{Cite web|url=https://sites.engineering.ucsb.edu/~shell/che210d/python.pdf|title=An introduction to Python for scientific computing|last=Shell|first=M Scott|date=September 24, 2019|website=|url-status=live|archive-url=|archive-date=|access-date=April 2, 2020}}</ref> There are a number of python libraries that are used in data science including numpy, pandas, and scipy.

第596行：第580行：

* [[R (programming language)|R]] is a programming language that was designed for statisticians and data mining<ref>{{Cite web|url=https://cran.r-project.org/doc/FAQ/R-FAQ.html#What-is-R_003f|title=R FAQ|website=cran.r-project.org|access-date=2020-04-03}}</ref> and is optimized for computation.

*[[R(程序设计语言)|R]]是一种为统计学家而设计程序语言，其可以用于数据挖掘和计算优化。

−

R作为一种统计分析软件，是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上，而且嵌入了一个非常方便实用的帮助系统，相比于其他统计分析软件，R还有以下特点：

第604行：第587行：

#R具有很强的互动性。除了图形输出是在另外的窗口处，它的输入输出窗口都是在同一个窗口进行的，输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。

#如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。

−

* [[TensorFlow]] is a framework for creating machine learning models developed by Google.

第612行：第594行：

Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究。

TensorFlow由谷歌人工智能团队'''谷歌大脑 Google Brain''' 开发和维护，拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类'''应用程序接口 Application Programming Interface''' 。自2015年11月9日起，TensorFlow依据'''阿帕奇授权协议 Apache 2.0 open source license''' 开放源代码。

−

* [[Pytorch]] is another framework for machine learning developed by Facebook.

第621行：第602行：

#具有强大的GPU加速的张量计算（如NumPy）。

#包含自动求导系统的的深度神经网络。

−

* [[Jupyter Notebook]] is an interactive web interface for Python that allows faster experimentation.

第628行：第607行：

Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。其本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

−

* [[Tableau Software|Tableau]] makes a variety of software that is used for data visualization<ref>{{Cite journal|url=https://www.wired.com/2014/07/a-drag-and-drop-toolkit-that-lets-anyone-create-interactive-maps/|journal=Wired|access-date=2020-04-03|title=A Dead-Simple Tool That Lets Anyone Create Interactive Maps|date=15 July 2014|last1=Rhodes|first1=Margaret}}</ref>.

第636行：第612行：

Tableau Software是桌面系统上的一种简单的商业智能工具软件。致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。

−

* [[Apache Hadoop]] is a software framework that is used to process data over large distributed systems.

苏格兰

198

个编辑

更改

数据科学 (查看源代码)

2020年5月11日 (一) 14:45的版本

导航菜单

搜索