更改

删除237字节 、 2022年2月7日 (一) 13:16
无编辑摘要
第92行: 第92行:  
* 大数据使用数学分析、优化、归纳统计和非线性系统识别从低信息密度的大数据集推断规律(回归、非线性关系和因果效应),以揭示关系和相关性,或对结果和行为进行预测。
 
* 大数据使用数学分析、优化、归纳统计和非线性系统识别从低信息密度的大数据集推断规律(回归、非线性关系和因果效应),以揭示关系和相关性,或对结果和行为进行预测。
 
==Characteristics==
 
==Characteristics==
 +
 +
== 特征 ==
 
[[File: Big Data.png|thumb|Shows the growth of big data's primary characteristics of volume, velocity, and variety.显示大数据在数量、速度和变化方面的主要特征大数据可以用以下特征来描述:|链接=Special:FilePath/Big_Data.png]]
 
[[File: Big Data.png|thumb|Shows the growth of big data's primary characteristics of volume, velocity, and variety.显示大数据在数量、速度和变化方面的主要特征大数据可以用以下特征来描述:|链接=Special:FilePath/Big_Data.png]]
 
Big data can be described by the following characteristics:
 
Big data can be described by the following characteristics:
第133行: 第135行:  
细粒度和唯一词法: 分别指收集的每个元素的特定数据与每个元素的比例,以及元素及其特征是否正确编制了索引或标识。
 
细粒度和唯一词法: 分别指收集的每个元素的特定数据与每个元素的比例,以及元素及其特征是否正确编制了索引或标识。
   −
; Relational: If the data collected contains common fields that would enable a conjoining, or meta-analysis, of different data sets.:If the data collected contains common fields that would enable a conjoining, or meta-analysis, of different data sets.:如果收集的数据包含公共字段,则可以对不同的数据集进行连接或元分析。
+
; Relational: If the data collected contains common fields that would enable a conjoining, or meta-analysis, of different data sets.:If the data collected contains common fields that would enable a conjoining, or meta-analysis, of different data sets.:如果收集的数据包含公共字段,则可以对不同的数据集进行连接或元分析。:
 
+
:'''Extensional'''
; Extensional:If new fields in each element of the data collected can be added or changed easily.:If new fields in each element of the data collected can be added or changed easily.
+
:If new fields in each element of the data collected can be added or changed easily.:If new fields in each element of the data collected can be added or changed easily.
    
外延: 如果可以轻松地添加或更改收集的数据的每个元素中的新字段。
 
外延: 如果可以轻松地添加或更改收集的数据的每个元素中的新字段。
第147行: 第149行:  
''大数据可以用以下特征来描述:''
 
''大数据可以用以下特征来描述:''
   −
'''数据量'''
+
'''大数据量'''
   −
生成和存储的数据量。数据的大小决定了价值和潜在洞察力,以及它是否可以被视为大数据。大数据的大小通常大于TB和PB。
+
生成和存储的数据量大小决定了价值和潜在分析价值,以及它是否可以被视为大数据。大数据的大小通常大于TB和PB。
    
'''多样性'''
 
'''多样性'''
   −
数据的类型和性质。像RDBMS这样的早期技术能够高效地处理结构化数据。然而,从结构化到半结构化或非结构化的类型和性质的变化对现有的工具和技术提出了挑战。大数据技术的发展初衷是捕获、存储和处理以高速(速度)和巨大(体积)生成的半结构化和非结构化(种类)数据。后来,这些工具和技术也被用于处理结构化数据,但更适合用于存储。最终,结构化数据的处理仍然是可选的,可以使用大数据,也可以使用传统的RDBMS。这有助于分析数据,以有效利用通过社交媒体、日志文件、传感器等收集的数据中暴露出来的隐藏见解。大数据来自文本、图像、音频和视频;此外,它还通过数据融合完成缺失的部分。
+
数据的类型和性质。像RDBMS这样的早期技术能够高效地处理结构化数据。然而,从结构化到半结构化或非结构化的类型和性质的变化对现有的工具和技术提出了挑战。大数据技术的发展初衷是捕获、存储和处理以高速和大量的半结构化和非结构化数据。后来,这些工具和技术也被用于处理结构化数据,并且更适合用于存储。最终,结构化数据的处理仍然是可选的,可以使用大数据,也可以使用传统的RDBMS。这有助于分析数据,以有效利用通过社交媒体、日志文件、传感器等收集的数据中暴露出来的隐藏内容。大数据来自文本、图像、音频和视频;此外,它还通过数据融合完成缺失的部分。
    
'''高速度'''
 
'''高速度'''
   −
数据生成和处理的速度,以满足增长和发展道路上的需求和挑战。大数据通常是实时可用的。与小数据相比,大数据的产生更加持续。与大数据相关的两种速度是生成频率和处理、记录和发布频率。
+
数据生成和处理的速度。为满足增长的需求和挑战。大数据通常是实时可用的。与小数据相比,大数据的产生周期是持续的。与大数据相关的两种速度是生成频率和处理、记录和发布频率。
    
'''真实性'''
 
'''真实性'''
第170行: 第172行:     
大数据的格式、结构或来源不断变化的特点。大数据可以包括结构化、非结构化或结构化与非结构化数据的组合。大数据分析可以整合来自多个来源的原始数据。原始数据的处理还可能涉及将非结构化数据转换为结构化数据。
 
大数据的格式、结构或来源不断变化的特点。大数据可以包括结构化、非结构化或结构化与非结构化数据的组合。大数据分析可以整合来自多个来源的原始数据。原始数据的处理还可能涉及将非结构化数据转换为结构化数据。
 +
    
''大数据的其他可能特征包括:''
 
''大数据的其他可能特征包括:''
第194行: 第197行:     
==Architecture==
 
==Architecture==
 +
 +
== 数据结构 ==
 
Big data repositories have existed in many forms, often built by corporations with a special need.  Commercial vendors historically offered parallel database management systems for big data beginning in the 1990s.  For many years, WinterCorp published the largest database report.<ref>{{cite web |url=http://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes|title=Survey: Biggest Databases Approach 30 Terabytes|website=Eweek.com|date=8 November 2003|access-date=8 October 2017}}</ref>{{promotional source|date=December 2018}}
 
Big data repositories have existed in many forms, often built by corporations with a special need.  Commercial vendors historically offered parallel database management systems for big data beginning in the 1990s.  For many years, WinterCorp published the largest database report.<ref>{{cite web |url=http://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes|title=Survey: Biggest Databases Approach 30 Terabytes|website=Eweek.com|date=8 November 2003|access-date=8 October 2017}}</ref>{{promotional source|date=December 2018}}
   第200行: 第205行:  
海量数据存储库以多种形式存在,通常由有特殊需求的企业构建。从20世纪90年代开始,商业供应商一直提供大数据的并行数据库管理系统。多年来,温特公司发布了最大的数据库报告。
 
海量数据存储库以多种形式存在,通常由有特殊需求的企业构建。从20世纪90年代开始,商业供应商一直提供大数据的并行数据库管理系统。多年来,温特公司发布了最大的数据库报告。
   −
'''''【终译版】'''''大数据存储库以多种形式存在,通常由有特殊需求的公司建立。从20世纪90年代开始,商业供应商就开始为大数据提供并行数据库管理系统。多年来,WinterCorp发布了最大的数据库报告。
+
'''''【终译版】'''''大数据存储库以多种形式存在,通常由有特殊需求的公司建立。从20世纪90年代开始,商业供应商就开始为大数据提供并行数据库管理系统。多年来,WinterCorp公司发布了最大的数据库报告。
    
[[Teradata]] Corporation in 1984 marketed the parallel processing [[DBC 1012]] system. Teradata systems were the first to store and analyze 1 terabyte of data in 1992. Hard disk drives were 2.5 GB in 1991 so the definition of big data continuously evolves. Teradata installed the first petabyte class RDBMS based system in 2007. {{as of|2017}}, there are a few dozen petabyte class Teradata relational databases installed, the largest of which exceeds 50 PB. Systems up until 2008 were 100% structured relational data.  Since then, Teradata has added unstructured data types including [[XML]], [[JSON]], and Avro.
 
[[Teradata]] Corporation in 1984 marketed the parallel processing [[DBC 1012]] system. Teradata systems were the first to store and analyze 1 terabyte of data in 1992. Hard disk drives were 2.5 GB in 1991 so the definition of big data continuously evolves. Teradata installed the first petabyte class RDBMS based system in 2007. {{as of|2017}}, there are a few dozen petabyte class Teradata relational databases installed, the largest of which exceeds 50 PB. Systems up until 2008 were 100% structured relational data.  Since then, Teradata has added unstructured data types including [[XML]], [[JSON]], and Avro.
第208行: 第213行:  
天睿在1984年推出了并行处理 DBC 1012系统。1992年,Teradata 系统首次存储和分析了1tb 的数据。1991年硬盘驱动器是2.5 GB,所以大数据的定义在不断发展。Teradata 在2007年安装了第一个 petabyte 类 RDBMS 为基础的系统。,安装了几十个 petabyte 类 Teradata 关系数据库,其中最大的超过50pb。直到2008年,系统都是100% 的结构化关系数据。从那时起,Teradata 增加了包括 XML、 JSON 和 Avro 在内的非结构化数据类型。
 
天睿在1984年推出了并行处理 DBC 1012系统。1992年,Teradata 系统首次存储和分析了1tb 的数据。1991年硬盘驱动器是2.5 GB,所以大数据的定义在不断发展。Teradata 在2007年安装了第一个 petabyte 类 RDBMS 为基础的系统。,安装了几十个 petabyte 类 Teradata 关系数据库,其中最大的超过50pb。直到2008年,系统都是100% 的结构化关系数据。从那时起,Teradata 增加了包括 XML、 JSON 和 Avro 在内的非结构化数据类型。
   −
'''''【终译版】'''''Teradata Corporation于1984年推出了并行处理DBC 1012系统。1992年,Teradata系统是第一个存储和分析1TB数据的系统。1991年硬盘驱动器为2.5GB,因此大数据的定义不断演变。Teradata于2007年安装了第一个基于PB级RDBMS的系统,安装了几十个PB级的Teradata关系数据库,其中最大的超过50PB。直到2008年,系统都是100%结构化的关系数据。从那时起,Teradata添加了非结构化数据类型,包括XML、JSON和Avro。
+
'''''【终译版】'''''天睿(Teradata Corporation)于1984年推出了并行处理DBC 1012系统。1992年,Teradata系统是第一个存储和分析1TB数据的系统。1991年硬盘驱动器为2.5GB,因此大数据的定义不断演变。Teradata于2007年安装了第一个基于PB级RDBMS的系统,安装了几十个PB级的Teradata关系数据库,其中最大的超过50PB。直到2008年,系统都是100%结构化的关系数据。从那时起,Teradata添加了非结构化数据类型,包括XML、JSON和Avro。
    
In 2000, Seisint Inc. (now [[LexisNexis Risk Solutions]]) developed a [[C++]]-based distributed platform for data processing and querying known as the [[HPCC Systems]] platform. This system automatically partitions, distributes, stores and delivers structured, semi-structured, and unstructured data across multiple commodity servers.  Users can write data processing pipelines and queries in a declarative dataflow programming language called ECL. Data analysts working in ECL are not required to define data schemas upfront and can rather focus on the particular problem at hand, reshaping data in the best possible manner as they develop the solution. In 2004, LexisNexis acquired Seisint Inc.<ref>{{cite news| url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004}}</ref> and their high-speed parallel processing platform and successfully used this platform to integrate the data systems of Choicepoint Inc. when they acquired that company in 2008.<ref>[https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html The Washington Post]</ref> In 2011, the HPCC systems platform was open-sourced under the Apache v2.0 License.
 
In 2000, Seisint Inc. (now [[LexisNexis Risk Solutions]]) developed a [[C++]]-based distributed platform for data processing and querying known as the [[HPCC Systems]] platform. This system automatically partitions, distributes, stores and delivers structured, semi-structured, and unstructured data across multiple commodity servers.  Users can write data processing pipelines and queries in a declarative dataflow programming language called ECL. Data analysts working in ECL are not required to define data schemas upfront and can rather focus on the particular problem at hand, reshaping data in the best possible manner as they develop the solution. In 2004, LexisNexis acquired Seisint Inc.<ref>{{cite news| url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004}}</ref> and their high-speed parallel processing platform and successfully used this platform to integrate the data systems of Choicepoint Inc. when they acquired that company in 2008.<ref>[https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html The Washington Post]</ref> In 2011, the HPCC systems platform was open-sourced under the Apache v2.0 License.
第216行: 第221行:  
2000年,Seisint 公司(现在的 LexisNexis 风险解决方案)开发了一个基于 c + + 的分布式数据处理和查询平台,称为 HPCC 系统平台。这个系统自动分区、分发、存储和交付结构化、半结构化和跨多个商品服务器的非结构化数据。用户可以使用称为 ECL 的声明性数据流编程语言编写数据处理管道和查询。在 ECL 中工作的数据分析师不需要事先定义数据模式,而是可以专注于手头的特定问题,在开发解决方案时以尽可能好的方式重新构造数据。2004年,LexisNexis 收购了 Seisint 公司及其高速并行处理平台,并在2008年收购 Choicepoint 公司时,成功地利用该平台集成了该公司的数据系统。华盛顿邮报2011年,HPCC 系统平台根据 Apache v2.0许可证开源。
 
2000年,Seisint 公司(现在的 LexisNexis 风险解决方案)开发了一个基于 c + + 的分布式数据处理和查询平台,称为 HPCC 系统平台。这个系统自动分区、分发、存储和交付结构化、半结构化和跨多个商品服务器的非结构化数据。用户可以使用称为 ECL 的声明性数据流编程语言编写数据处理管道和查询。在 ECL 中工作的数据分析师不需要事先定义数据模式,而是可以专注于手头的特定问题,在开发解决方案时以尽可能好的方式重新构造数据。2004年,LexisNexis 收购了 Seisint 公司及其高速并行处理平台,并在2008年收购 Choicepoint 公司时,成功地利用该平台集成了该公司的数据系统。华盛顿邮报2011年,HPCC 系统平台根据 Apache v2.0许可证开源。
   −
'''''【终译版】'''''2000年,Seisint Inc.(现为LexisNexis Risk Solutions)开发了一个基于C++的分布式数据处理和查询平台,称为HPCC系统平台。该系统可以跨多个商品服务器自动划分、分发、存储和交付结构化、半结构化和非结构化数据。用户可以用一种称为ECL的声明性数据流编程语言编写数据处理管道和查询。在ECL工作的数据分析师不需要预先定义数据模式,而是可以专注于手头的特定问题,在开发解决方案时以最佳方式重塑数据。2004年,LexisNexis收购了Seisint Inc.及其高速并行处理平台,并在2008年收购Choicepoint Inc.时成功利用该平台集成了该公司的数据系统。《华盛顿邮报》2011年报道,HPCC系统平台在Apache v2下是开源的。0许可证。
+
'''''【终译版】'''''2000年,Seisint公司(现为LexisNexis Risk Solutions)开发了一个基于C++的分布式数据处理和查询平台,称为HPCC系统平台。该系统可以跨多个商品服务器自动划分、分发、存储和交付结构化、半结构化和非结构化数据。用户可以用一种称为ECL的声明性数据流编程语言编写数据处理管道和查询。在ECL工作的数据分析师不需要预先定义数据模式,而是可以专注于手头的特定问题,并在开发解决方案时以最佳方式重塑数据。2004年,LexisNexis收购了Seisint公司及其高速并行处理平台,并在2008年收购Choicepoint公司时成功利用该平台集成了该公司的数据系统。《华盛顿邮报》2011年报道,HPCC 系统平台根据 Apache v2.0许可证开源。
    
[[CERN]] and other physics experiments have collected big data sets for many decades, usually analyzed via [[high-throughput computing]] rather than the map-reduce architectures usually meant by the current "big data" movement.
 
[[CERN]] and other physics experiments have collected big data sets for many decades, usually analyzed via [[high-throughput computing]] rather than the map-reduce architectures usually meant by the current "big data" movement.
第224行: 第229行:  
CERN 和其他物理实验已经收集大数据集数十年了,通常是通过高吞吐量计算进行分析,而不是通常意味着当前“大数据”运动的地图缩减架构。
 
CERN 和其他物理实验已经收集大数据集数十年了,通常是通过高吞吐量计算进行分析,而不是通常意味着当前“大数据”运动的地图缩减架构。
   −
'''''【终译版】'''''欧洲核子研究中心(CERN)和其他物理实验几十年来一直在收集大数据集,这些数据集通常是通过高通量计算进行分析的,而不是当前“大数据”运动通常指的map-reduce体系结构。
+
'''''【终译版】'''''欧洲核子研究中心(CERN)和其他物理实验几十年来一直在收集大数据集,这些数据集通常是通过高通量计算进行分析的,而不是当前“大数据”运动通常指的map-reduce架构。
    
In 2004, [[Google]] published a paper on a process called [[MapReduce]] that uses a similar architecture. The MapReduce concept provides a parallel processing model, and an associated implementation was released to process huge amounts of data.  With MapReduce, queries are split and distributed across parallel nodes and processed in parallel (the "map" step). The results are then gathered and delivered (the "reduce" step). The framework was very successful,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491? "Hadoop: From Experiment To Leading Big Data Platform"], "Information Week", 2013. Retrieved on 14 November 2013.</ref> so others wanted to replicate the algorithm. Therefore, an [[implementation]] of the MapReduce framework was adopted by an Apache open-source project named "[[Apache Hadoop|Hadoop]]".<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"], "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark]] was developed in 2012 in response to limitations in the MapReduce paradigm, as it adds the ability to set up many operations (not just map followed by reducing).
 
In 2004, [[Google]] published a paper on a process called [[MapReduce]] that uses a similar architecture. The MapReduce concept provides a parallel processing model, and an associated implementation was released to process huge amounts of data.  With MapReduce, queries are split and distributed across parallel nodes and processed in parallel (the "map" step). The results are then gathered and delivered (the "reduce" step). The framework was very successful,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491? "Hadoop: From Experiment To Leading Big Data Platform"], "Information Week", 2013. Retrieved on 14 November 2013.</ref> so others wanted to replicate the algorithm. Therefore, an [[implementation]] of the MapReduce framework was adopted by an Apache open-source project named "[[Apache Hadoop|Hadoop]]".<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"], "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark]] was developed in 2012 in response to limitations in the MapReduce paradigm, as it adds the ability to set up many operations (not just map followed by reducing).
第232行: 第237行:  
2004年,谷歌发表了一篇名为 MapReduce 的论文,该论文使用了类似的架构。MapReduce 概念提供了一个并行处理模型,并发布了一个相关的实现来处理大量的数据。使用 MapReduce,查询被拆分并分布在并行节点上,并且被并行处理(“映射”步骤)。然后收集和交付结果(“ reduce”步骤)。这个框架非常成功,Bertolucci,Jeff“ Hadoop: 从实验到领导大数据平台”,“信息周”,2013。检索于2013年11月14日,所以其他人希望复制该算法。因此,MapReduce 框架的实现被一个名为“ Hadoop”的 Apache 开源项目所采用。“ MapReduce: 大型集群上的简化数据处理”,“ Search Storage”,2004年。2013年3月25日。Apache Spark 是在2012年针对 MapReduce 范例的限制而开发的,因为它增加了设置许多操作的能力(不仅仅是映射后的减少)。
 
2004年,谷歌发表了一篇名为 MapReduce 的论文,该论文使用了类似的架构。MapReduce 概念提供了一个并行处理模型,并发布了一个相关的实现来处理大量的数据。使用 MapReduce,查询被拆分并分布在并行节点上,并且被并行处理(“映射”步骤)。然后收集和交付结果(“ reduce”步骤)。这个框架非常成功,Bertolucci,Jeff“ Hadoop: 从实验到领导大数据平台”,“信息周”,2013。检索于2013年11月14日,所以其他人希望复制该算法。因此,MapReduce 框架的实现被一个名为“ Hadoop”的 Apache 开源项目所采用。“ MapReduce: 大型集群上的简化数据处理”,“ Search Storage”,2004年。2013年3月25日。Apache Spark 是在2012年针对 MapReduce 范例的限制而开发的,因为它增加了设置许多操作的能力(不仅仅是映射后的减少)。
   −
'''''【终译版】'''''2004年,谷歌发表了一篇关于MapReduce流程的论文,该流程使用了类似的架构。MapReduce概念提供了一个并行处理模型,并发布了一个相关的实现来处理大量数据。使用MapReduce,查询被拆分并分布在并行节点上,并进行并行处理(“映射”步骤)。然后收集并交付结果(“减少”步骤)。该框架非常成功,Bertolucci,Jeff,“Hadoop:从实验到领先的大数据平台”,“信息周”,2013年。2013年11月14日检索。所以其他人想复制这个算法。因此,一个名为“Hadoop”的Apache开源项目采用了MapReduce框架的实现。韦伯斯特,约翰。“MapReduce:大型集群上的简化数据处理”,“搜索存储”,2004年。2013年3月25日检索。ApacheSpark是在2012年针对MapReduce范例中的局限性开发的,因为它增加了设置许多操作的能力(而不仅仅是map之后的Reduce)。
+
'''''【终译版】'''''2004年,谷歌发表了一篇关于MapReduce流程的论文,该流程使用了类似的架构。MapReduce概念提供了一个并行处理模型,并发布了一个相关的实现来处理大量数据。使用MapReduce,查询被拆分并分布在并行节点上,并进行并行处理(“映射”步骤)。然后收集并交付结果(“归约”步骤)。该框架非常成功,所以其他人想复制这个算法。因此,一个名为“Hadoop”的Apache开源项目采用了MapReduce框架的实现。ApacheSpark是在2012年针对MapReduce范例中的局限性开发的,因为它增加了设置许多操作的能力(而不仅仅是Map之后的Reduce)。
    
[[MIKE2.0 Methodology|MIKE2.0]] is an open approach to information management that acknowledges the need for revisions due to big data implications identified in an article titled "Big Data Solution Offering".<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=Big Data Solution Offering|publisher=MIKE2.0|access-date=8 December 2013}}</ref> The methodology addresses handling big data in terms of useful [[permutation]]s of data sources, [[complexity]] in interrelationships, and difficulty in deleting (or modifying) individual records.<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=Big Data Definition|publisher=MIKE2.0|access-date=9 March 2013}}</ref>
 
[[MIKE2.0 Methodology|MIKE2.0]] is an open approach to information management that acknowledges the need for revisions due to big data implications identified in an article titled "Big Data Solution Offering".<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=Big Data Solution Offering|publisher=MIKE2.0|access-date=8 December 2013}}</ref> The methodology addresses handling big data in terms of useful [[permutation]]s of data sources, [[complexity]] in interrelationships, and difficulty in deleting (or modifying) individual records.<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=Big Data Definition|publisher=MIKE2.0|access-date=9 March 2013}}</ref>
第240行: 第245行:  
MIKE2.0是一个开放的信息管理方法,它承认由于《大数据解决方案提供》一文中确定的大数据影响,需要进行修订。这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的困难来处理大数据。
 
MIKE2.0是一个开放的信息管理方法,它承认由于《大数据解决方案提供》一文中确定的大数据影响,需要进行修订。这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的困难来处理大数据。
   −
'''''【终译版】'''''MIKE2.0是一个开放的信息管理方法,它承认由于在一篇题为“大数据解决方案提供”的文章中指出的大数据影响,需要进行修订。该方法从数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的难度等方面处理大数据。
+
'''''【终译版】'''''MIKE2.0是一个开放的信息管理方法,由于在一篇题为《大数据解决方案提供》的文章中指出的大数据影响,该方法仍需要进行修订。这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的难度等方面处理大数据。
    
Studies in 2012 showed that a multiple-layer architecture was one option to address the issues that big data presents. A [[List of file systems#Distributed parallel file systems|distributed parallel]] architecture distributes data across multiple servers; these parallel execution environments can dramatically improve data processing speeds. This type of architecture inserts data into a parallel DBMS, which implements the use of MapReduce and Hadoop frameworks. This type of framework looks to make the processing power transparent to the end-user by using a front-end application server.<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=Distributed Parallel Architecture for Big Data|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>
 
Studies in 2012 showed that a multiple-layer architecture was one option to address the issues that big data presents. A [[List of file systems#Distributed parallel file systems|distributed parallel]] architecture distributes data across multiple servers; these parallel execution environments can dramatically improve data processing speeds. This type of architecture inserts data into a parallel DBMS, which implements the use of MapReduce and Hadoop frameworks. This type of framework looks to make the processing power transparent to the end-user by using a front-end application server.<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=Distributed Parallel Architecture for Big Data|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>
第248行: 第253行:  
2012年的研究表明,多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上; 这些并行执行环境可以显著提高数据处理速度。这种架构将数据插入到并行 DBMS 中,实现了 MapReduce 和 Hadoop 框架的使用。这种类型的框架通过使用前端应用程序服务器来使处理能力对最终用户透明。
 
2012年的研究表明,多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上; 这些并行执行环境可以显著提高数据处理速度。这种架构将数据插入到并行 DBMS 中,实现了 MapReduce 和 Hadoop 框架的使用。这种类型的框架通过使用前端应用程序服务器来使处理能力对最终用户透明。
   −
'''''【终译版】'''''2012年的研究表明,多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上;这些并行执行环境可以显著提高数据处理速度。这种类型的体系结构将数据插入到并行DBMS中,后者实现了MapReduce和Hadoop框架的使用。这种类型的框架希望通过使用前端应用服务器,使处理能力对最终用户透明。
+
'''''【终译版】'''''2012年的研究表明,多层架构是解决大数据带来的问题的一种途径。分布式并行体系结构将数据分布在多个服务器上;这些并行执行环境可以显著提高数据处理速度。这种类型的体系结构将数据插入到并行DBMS中,后者实现了MapReduce和Hadoop框架的使用。这种类型的框架希望通过使用前端应用服务器,使处理能力对最终用户透明。
    
The [[data lake]] allows an organization to shift its focus from centralized control to a shared model to respond to the changing dynamics of information management. This enables quick segregation of data into the data lake, thereby reducing the overhead time.<ref>{{cite web|url= http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=Solving Key Business Challenges With a Big Data Lake|date=August 2014| website=Hcltech.com|access-date=8 October 2017}}</ref><ref>{{ cite web| url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= Method for testing the fault tolerance of MapReduce frameworks | publisher=Computer Networks | year=2015}}</ref>
 
The [[data lake]] allows an organization to shift its focus from centralized control to a shared model to respond to the changing dynamics of information management. This enables quick segregation of data into the data lake, thereby reducing the overhead time.<ref>{{cite web|url= http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=Solving Key Business Challenges With a Big Data Lake|date=August 2014| website=Hcltech.com|access-date=8 October 2017}}</ref><ref>{{ cite web| url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= Method for testing the fault tolerance of MapReduce frameworks | publisher=Computer Networks | year=2015}}</ref>
第256行: 第261行:  
数据库允许组织将其重点从集中控制转移到共享模型,以响应不断变化的信息管理动态。这样可以将数据快速隔离到数据湖中,从而减少开销时间。
 
数据库允许组织将其重点从集中控制转移到共享模型,以响应不断变化的信息管理动态。这样可以将数据快速隔离到数据湖中,从而减少开销时间。
   −
'''''【终译版】'''''数据湖允许组织将其重点从集中控制转移到共享模型,以响应信息管理不断变化的动态。这样可以将数据快速分离到数据池中,从而减少开销时间。
+
'''''【终译版】'''''数据池允许组织将其重点从集中控制转移到共享模型,以响应信息管理不断变化的动态。这样可以将数据快速分离到数据池中,从而减少开销时间。
    
==Technologies==
 
==Technologies==
 +
 +
== 大数据技术 ==
 
A 2011 [[McKinsey & Company|McKinsey Global Institute]] report characterizes the main components and ecosystem of big data as follows:<ref name="McKinsey">{{cite journal | last1 = Manyika | first1 = James | first2 = Michael | last2 = Chui | first3 = Jaques | last3 = Bughin | first4 = Brad | last4 = Brown | first5 = Richard | last5 = Dobbs | first6 = Charles | last6 = Roxburgh | first7 = Angela Hung | last7 = Byers | title = Big Data: The next frontier for innovation, competition, and productivity | publisher = McKinsey Global Institute | date = May 2011 | url = https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_full_report.pdf | access-date = 22 May 2021 }}</ref>
 
A 2011 [[McKinsey & Company|McKinsey Global Institute]] report characterizes the main components and ecosystem of big data as follows:<ref name="McKinsey">{{cite journal | last1 = Manyika | first1 = James | first2 = Michael | last2 = Chui | first3 = Jaques | last3 = Bughin | first4 = Brad | last4 = Brown | first5 = Richard | last5 = Dobbs | first6 = Charles | last6 = Roxburgh | first7 = Angela Hung | last7 = Byers | title = Big Data: The next frontier for innovation, competition, and productivity | publisher = McKinsey Global Institute | date = May 2011 | url = https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_full_report.pdf | access-date = 22 May 2021 }}</ref>
 
* Techniques for analyzing data, such as [[A/B testing]], [[machine learning]], and [[natural language processing]]
 
* Techniques for analyzing data, such as [[A/B testing]], [[machine learning]], and [[natural language processing]]
第274行: 第281行:  
* 可视化,如图表、图形和其他数据显示
 
* 可视化,如图表、图形和其他数据显示
   −
'''''【终译版】'''''麦肯锡全球研究所(McKinsey Global Institute)2011年的一份报告将大数据的主要组成部分和生态系统描述如下:
+
'''''【终译版】'''''
 +
 
 +
麦肯锡全球研究所(McKinsey Global Institute)2011年的一份报告将大数据的主要组成部分和生态系统描述如下:
 
* 分析数据的技术,如A/B测试、机器学习和自然语言处理
 
* 分析数据的技术,如A/B测试、机器学习和自然语言处理
 
* 大数据技术,如商业智能、云计算和数据库
 
* 大数据技术,如商业智能、云计算和数据库
 
* 可视化,如图表、图表和其他数据显示
 
* 可视化,如图表、图表和其他数据显示
  −
   
Multidimensional big data can also be represented as [[OLAP]] data cubes or, mathematically, [[tensor]]s. [[Array DBMS|Array database systems]] have set out to provide storage and high-level query support on this data type.
 
Multidimensional big data can also be represented as [[OLAP]] data cubes or, mathematically, [[tensor]]s. [[Array DBMS|Array database systems]] have set out to provide storage and high-level query support on this data type.
 
Additional technologies being applied to big data include efficient tensor-based computation,<ref>{{cite web |title=Future Directions in Tensor-Based Computation and Modeling |date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf}}</ref> such as [[multilinear subspace learning]],<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = A Survey of Multilinear Subspace Learning for Tensor Data | journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L }}</ref> massively parallel-processing ([[Massive parallel processing|MPP]]) databases, [[search-based application]]s, [[data mining]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[distributed file system]]s, distributed cache (e.g., [[burst buffer]] and [[Memcached]]), [[distributed database]]s, [[cloud computing|cloud]] and [[supercomputer|HPC-based]] infrastructure (applications, storage and computing resources),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> and the Internet.{{Citation needed|date=September 2011}} Although, many approaches and technologies have been developed, it still remains difficult to carry out machine learning with big data.<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>
 
Additional technologies being applied to big data include efficient tensor-based computation,<ref>{{cite web |title=Future Directions in Tensor-Based Computation and Modeling |date=May 2009|url=http://www.cs.cornell.edu/cv/tenwork/finalreport.pdf}}</ref> such as [[multilinear subspace learning]],<ref name="MSLsurvey">{{cite journal | first1 = Haiping | last1 = Lu | first2 = K.N. | last2 = Plataniotis | first3 = A.N. | last3 = Venetsanopoulos | url = http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf | title = A Survey of Multilinear Subspace Learning for Tensor Data | journal = Pattern Recognition | volume = 44 | number = 7 | pages = 1540–1551 | year = 2011 | doi = 10.1016/j.patcog.2011.01.004 | bibcode = 2011PatRe..44.1540L }}</ref> massively parallel-processing ([[Massive parallel processing|MPP]]) databases, [[search-based application]]s, [[data mining]],<ref>{{cite book|last1=Pllana|first1=Sabri|title=2011 14th International Conference on Network-Based Information Systems|pages=341–348|last2=Janciak|first2=Ivan|last3=Brezany|first3=Peter|last4=Wöhrer|first4=Alexander|chapter=A Survey of the State of the Art in Data Mining and Integration Query Languages |website=2011 International Conference on Network-Based Information Systems (NBIS 2011)|publisher=IEEE Computer Society|bibcode=2016arXiv160301113P|year=2016|arxiv=1603.01113|doi=10.1109/NBiS.2011.58|isbn=978-1-4577-0789-6|s2cid=9285984}}</ref> [[distributed file system]]s, distributed cache (e.g., [[burst buffer]] and [[Memcached]]), [[distributed database]]s, [[cloud computing|cloud]] and [[supercomputer|HPC-based]] infrastructure (applications, storage and computing resources),<ref>{{cite book|chapter=Characterization and Optimization of Memory-Resident MapReduce on HPC Systems|publisher=IEEE|date=October 2014|doi=10.1109/IPDPS.2014.87|title=2014 IEEE 28th International Parallel and Distributed Processing Symposium|pages=799–808|last1=Wang|first1=Yandong|last2=Goldstone|first2=Robin|last3=Yu|first3=Weikuan|last4=Wang|first4=Teng|s2cid=11157612|isbn=978-1-4799-3800-1}}</ref> and the Internet.{{Citation needed|date=September 2011}} Although, many approaches and technologies have been developed, it still remains difficult to carry out machine learning with big data.<ref>{{Cite journal|last1=L'Heureux|first1=A.|last2=Grolinger|first2=K.|last3=Elyamany|first3=H. F.|last4=Capretz|first4=M. A. M.|date=2017|title=Machine Learning With Big Data: Challenges and Approaches|journal=IEEE Access|volume=5|pages=7776–7797|doi=10.1109/ACCESS.2017.2696365|issn=2169-3536|doi-access=free}}</ref>
35

个编辑