更改

大数据 (查看源代码)

2022年2月4日 (五) 15:52的版本

删除405字节、 2022年2月4日 (五) 15:52

V0.5_20220204_初步翻译

第7行：第7行：

大数据是一个研究如何分析、系统地从中提取信息或以其他方式处理传统数据处理应用软件无法处理的过于庞大或复杂的数据集的领域。具有多个字段(列)的数据提供了更强的统计能力，而具有更高复杂性(更多属性或列)的数据可能导致更高的错误发现率。大数据分析面临的挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关: 数量、多样性和速度。大数据的分析在取样方面提出了挑战，因此以前只允许观测和取样。因此，大数据通常包含的数据大小超过了传统软件在可接受的时间和价值内处理的能力。

−

'''''【终译版】'''''大数据是一个研究如何分析、系统地从中提取信息或以其他方式处理传统数据处理应用软件无法处理的太大或太复杂的数据集的领域。具有多个字段（列）的数据提供了更大的统计能力，而具有更高复杂性（更多属性或列）的数据可能会导致更高的错误发现率。大数据分析挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关：容量、多样性和速度。大数据分析在抽样方面存在挑战，因此以前只允许进行观察和抽样。因此，大数据通常包括超过传统软件在可接受的时间和价值内处理能力的数据。

+

'''''【终译版】'''''大数据领域研究如何系统地从传统数据处理应用软件无法处理的太大或太复杂的数据集中提取、分析并处理信息。由于具有多个字段（列）的数据提供了更大的统计能力，从而具有更高复杂性（更多属性或列）的数据可能会导致更高的错误发现率。大数据分析挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键词有关：大数据量、多样性和高速度。大数据分析在抽样方面存在挑战，因此以前只允许进行观察和抽样。因此，大数据通常包括超过传统软件在可接受的时间和价值内能处理的数据量。

Current usage of the term ''big data'' tends to refer to the use of [[predictive analytics]], [[user behavior analytics]], or certain other advanced data analytics methods that extract [[Data valuation|value]] from big data, and seldom to a particular size of data set. "There is little doubt that the quantities of data now available are indeed large, but that's not the most relevant characteristic of this new data ecosystem."<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=Six Provocations for Big Data |journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi= 10.2139/ssrn.1926431|s2cid=148610111 |url=http://osf.io/nrjhn/ }}</ref>

第16行：第16行：

目前大数据这个术语的使用倾向于使用预测分析分析，用户行为分析，或者其他一些高级的数据分析方法，这些方法从大数据中提取价值，很少使用特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这不是这个新数据生态系统最相关的特征。”对数据集的分析可以发现与“现场业务趋势、预防疾病、打击犯罪等”的新关联。科学家、企业管理人员、医疗从业人员、广告业者和政府都经常遇到大型数据集的困难，这些数据集涉及互联网搜索、金融技术、医疗保健分析、地理信息系统、城市信息学和经济信息学。科学家在电子科学工作中遇到了一些限制，包括气象学、基因组学、连接组学、复杂的物理模拟、生物学和环境研究。

−

'''''【终译版】'''''“大数据”一词的当前用法倾向于指使用预测分析、用户行为分析或某些从大数据中提取价值的其他高级数据分析方法，很少涉及特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这不是这个新数据生态系统最相关的特征。”对数据集的分析可以发现“发现商业趋势、预防疾病、打击犯罪等”的新关联。在互联网搜索、金融科技、医疗分析、地理信息系统、城市信息学和商业信息学等领域，科学家、企业高管、医生、广告和政府都经常遇到使用大型数据集的困难。科学家在电子科学工作中遇到局限，包括气象学、基因组学、连接组学、复杂物理模拟、生物学和环境研究。

−

。

The size and number of available data sets have grown rapidly as data is collected by devices such as [[mobile device]]s, cheap and numerous information-sensing [[Internet of things]] devices, aerial ([[remote sensing]]), software logs, [[Digital camera|cameras]], microphones, [[radio-frequency identification]] (RFID) readers and [[wireless sensor networks]].<ref>{{cite web |author= Hellerstein, Joe |title= Parallel Programming in the Age of Big Data |date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/}}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257}}</ref> The world's technological per-capita capacity to store information has roughly doubled every 40 months since the 1980s;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = The world's technological capacity to store, communicate, and compute information | journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 }}</ref> {{As of|2012|lc=on}}, every day 2.5 [[exabyte]]s (2.5×260 bytes) of data are generated.<ref>{{cite web|url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013}}</ref> Based on an [[International Data Corporation|IDC]] report prediction, the global data volume was predicted to grow exponentially from 4.4 [[zettabyte]]s to 44 zettabytes between 2013 and 2020. By 2025, IDC predicts there will be 163 zettabytes of data.<ref>{{Cite web| url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf| title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John}}</ref> One question for large enterprises is determining who should own big-data initiatives that affect the entire organization.<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>

第29行：第25行：

随着移动设备、廉价且数量众多的信息感知物联网设备、天线(遥感)、软件日志、相机、麦克风、射频识别读取器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术容量大约每40个月翻一番; 每天产生2.5艾字节(2.5 × 260字节)的数据。根据 IDC 的报告预测，全球数据量将在2013年到2020年间成倍增长，从4.4 zettabytes 增长到44 zettabytes。国际数据公司预测，到2025年，将有163兆字节的数据。对于大型企业来说，一个问题是确定谁应该拥有影响整个组织的大数据计划。Oracle 和 FSN，“ Mastering Big Data: CFO Strategies to Transform Insight into Opportunity”，December 2012

−

+

'''''【终译版】'''''随着移动设备、廉价且数量众多的信息传感物联网设备、航空（遥感）、软件日志、摄像头、麦克风、射频识别（RFID）阅读器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术能力大约每40个月翻一番，每天生成2.5 EB（2.5×260字节）的数据。根据IDC的一份报告预测，2013年至2020年间，全球数据量将从4.4 zettabytes呈指数增长至44 zettabytes。IDC预测，到2025年，数据量将达到163兆字节。大型企业面临的一个问题是，确定谁应该拥有影响整个组织的大数据计划。

−

'''''【终译版】'''''随着移动设备、廉价且数量众多的信息传感物联网设备、航空（遥感）、软件日志、摄像头、麦克风、射频识别（RFID）阅读器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术能力大约每40个月翻一番，每天生成2.5 EB（2.5×260字节）的数据。根据IDC的一份报告预测，2013年至2020年间，全球数据量将从4.4 zettabytes呈指数增长至44 zettabytes。IDC预测，到2025年，数据量将达到163兆字节。大型企业面临的一个问题是，确定谁应该拥有影响整个组织的大数据计划。甲骨文和FSN，“掌握大数据：将洞察力转化为机遇的首席财务官战略”，2012年12月

−

。

[[Relational database management system]]s and desktop statistical software packages used to visualize data often have difficulty processing and analyzing big data. The processing and analysis of big data may require "massively parallel software running on tens, hundreds, or even thousands of servers".<ref>{{cite web |author= Jacobs, A. |title= The Pathologies of Big Data |date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874}}</ref> What qualifies as "big data" varies depending on the capabilities of those analyzing it and their tools. Furthermore, expanding capabilities make big data a moving target. "For some organizations, facing hundreds of [[gigabyte]]s of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration."<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=Introduction to Big Data|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11}}</ref>

第40行：第32行：

用于数据可视化的关系数据库管理系统和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十、数百甚至数千台服务器上的大规模并行处理机软件”。什么是“大数据”取决于那些分析它的人和他们的工具的能力。此外，不断扩大的能力使得大数据成为一个移动的目标。”对于一些组织来说，第一次面对数百千兆字节的数据可能需要重新考虑数据管理选项。对于其他人来说，数据大小可能需要几十或几百万兆字节才能成为一个重要的考虑因素。”

−

'''''【终译版】'''''用于可视化数据的关系数据库管理系统和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十台、数百台甚至数千台服务器上的大规模并行软件”。什么是“大数据”取决于分析者及其工具的能力。此外，不断扩大的能力使大数据成为移动目标。“对于一些组织来说，首次面对数百GB的数据可能会引发重新考虑数据管理选项的需要。对于其他组织来说，可能需要数十或数百TB的数据大小才能成为重要的考虑因素。”

−

。

==Definition==

第57行：第45行：

= = 定义 = = 大数据这个术语从1990年代就开始使用了，有些人认为是约翰 · 马歇推广了这个术语。大数据通常包括大小超出常用软件工具能力的数据集，这些软件工具可以在可承受的时间内捕获、管理和处理数据。大数据哲学包括非结构化、半结构化和结构化数据，但主要关注的是非结构化数据数据。大数据“大小”是一个不断变化的目标; 从几十 tb 到许多 ztabytes 的数据不等。大数据需要一系列技术和新的集成形式，以揭示来自多样化、复杂和大规模数据集的洞察力。

−

'''''【终译版】'''''大数据这个词从20世纪90年代开始使用，一些人认为约翰·马西推广了这个词。大数据通常包括数据集，其大小超出了常用软件工具在可接受的时间内捕获、整理、管理和处理数据的能力。大数据理念包括非结构化、半结构化和结构化数据，但主要关注非结构化数据。大数据“规模”是一个不断移动的目标；从几十兆字节到许多兆字节的数据。大数据需要一套具有新的集成形式的技术和技术，以揭示来自多样化、复杂和大规模数据集的见解。

−

。

"Variety", "veracity", and various other "Vs" are added by some organizations to describe it, a revision challenged by some industry authorities.<ref>{{cite magazine|last=Grimes|first=Seth|title=Big Data: Avoid 'Wanna V' Confusion| url=http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|magazine=[[InformationWeek]]|access-date = 5 January 2016}}</ref> The Vs of big data were often referred to as the "three Vs", "four Vs", and "five Vs". They represented the qualities of big data in volume, variety, velocity, [[veracity (data)|veracity]], and value.<ref name=":0">{{Cite web|date=2016-09-17|title=The 5 V's of big data|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|access-date=2021-01-20|website=Watson Health Perspectives|language=en-US}}</ref> Variability is often included as an additional quality of big data.

第69行：第53行：

一些组织添加了“多样性”、“准确性”和其他各种“ v”来描述它，这个修订受到了一些行业权威的质疑。大数据 Vs 通常被称为“三个 Vs”、“四个 Vs”和“五个 Vs”。它们在数量、多样性、速度、准确性和价值等方面代表了大数据的特性。可变性通常作为大数据的附加质量被包括在内。

−

'''''【终译版】'''''一些组织增加了“多样性”、“准确性”和其他各种“V”来描述它，这一修订受到了一些行业权威的质疑。大数据的Vs通常被称为“三Vs”、“四Vs”和“五Vs”。它们代表了大数据的数量、多样性、速度、准确性和价值。可变性通常被视为大数据的额外质量。

−

。

A 2018 definition states "Big data is where parallel computing tools are needed to handle data", and notes, "This represents a distinct and clearly defined change in the computer science used, via parallel programming theories, and losses of some of the guarantees and capabilities made by [[Relational database|Codd's relational model]]."<ref>{{Cite book|last=Fox|first=Charles|date=25 March 2018|title=Data Science for Transport| url=https://www.springer.com/us/book/9783319729527|publisher=Springer|isbn=9783319729527|series=Springer Textbooks in Earth Sciences, Geography and Environment}}</ref>

第81行：第61行：

2018年的一个定义指出“大数据是需要并行计算工具来处理数据的地方”，并指出，“这代表了通过并行编程理论使用的计算机科学发生了一个明显而清晰的变化，以及 Codd 的关系模型数据库所做出的一些保证和能力的丧失。”

−

'''''【终译版】'''''2018年的一项定义指出，“大数据是需要并行计算工具来处理数据的地方”，并指出，“这代表着所使用的计算机科学通过并行编程理论发生了明显而明确的变化，以及Codd的关系模型所提供的一些保证和能力的丧失。”

−

。

In a comparative study of big datasets, [[Rob Kitchin|Kitchin]] and McArdle found that none of the commonly considered characteristics of big data appear consistently across all of the analyzed cases.<ref>{{cite journal | last1 = Kitchin | first1 = Rob | last2 = McArdle | first2 = Gavin | year = 2016 | title = What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets | journal = Big Data & Society | volume = 3 | pages = 1–10 | doi = 10.1177/2053951716631130 | s2cid = 55539845 }}</ref> For this reason, other studies identified the redefinition of power dynamics in knowledge discovery as the defining trait.<ref>{{cite journal | last1 = Balazka | first1 = Dominik | last2 = Rodighiero | first2 = Dario | year = 2020 | title = Big Data and the Little Big Bang: An Epistemological (R)evolution | journal = Frontiers in Big Data | volume = 3 | page = 31 | doi = 10.3389/fdata.2020.00031 | pmid = 33693404 | pmc = 7931920 | hdl = 1721.1/128865 | hdl-access = free | doi-access = free }}</ref> Instead of focusing on intrinsic characteristics of big data, this alternative perspective pushes forward a relational understanding of the object claiming that what matters is the way in which data is collected, stored, made available and analyzed.

第93行：第69行：

在对大数据集的比较研究中，Kitchin 和 McArdle 发现，在所有分析的案例中，大数据通常被认为的特征没有一个是一致的。因此，其他研究将知识发现中权力动力学的重新定义确定为知识发现的定义特征。这种不同的视角不是关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据收集、存储、提供和分析的方式。

−

'''''【终译版】'''''在一项大数据集的对比研究中，Kitchin和McArdle发现，在所有分析的案例中，大数据的所有常见特征都不一致。因此，其他研究将知识发现中权力动力的重新定义确定为定义特征。这种另类视角没有关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据的收集、存储、可用和分析方式。

−

。

=== Big data vs. business intelligence ===

第112行：第84行：

* 商业智能使用应用数学工具，描述统计学使用高信息密度的数据来衡量事物，检测趋势等等。

* 大数据使用数学分析、优化、归纳统计和概念从非线性识别比林斯公司“非线性系统辨识: NARMAX 方法在时间、频率和时空域”。Wiley，2013从低信息密度的大量数据中推断法则(回归、非线性关系和因果效应) ，以揭示关系和依赖性，或者执行结果和行为的预测。

−

'''''【终译版】'''''

第120行：第89行：

* 商业智能使用应用数学工具和描述性统计以及高信息密度的数据来衡量事物、检测趋势等。

* 大数据使用数学分析、优化、归纳统计和非线性系统识别Billings S.A.“非线性系统识别：时间、频率和时空域的NARMAX方法”中的概念。Wiley，2013，从低信息密度的大数据集推断规律（回归、非线性关系和因果效应），以揭示关系和相关性，或对结果和行为进行预测。

−

。

−

==Characteristics==

[[File: Big Data.png|thumb|Shows the growth of big data's primary characteristics of volume, velocity, and variety.显示大数据在数量、速度和变化方面的主要特征大数据可以用以下特征来描述:|链接=Special:FilePath/Big_Data.png]]

第173行：第140行：

可扩展性: 如果大数据存储系统的规模能够迅速扩大。

−

'''''【终译版】'''''

第203行：第168行：

大数据的格式、结构或来源不断变化的特点。大数据可以包括结构化、非结构化或结构化与非结构化数据的组合。大数据分析可以整合来自多个来源的原始数据。原始数据的处理还可能涉及将非结构化数据转换为结构化数据。

+

第233行：第199行：

海量数据存储库以多种形式存在，通常由有特殊需求的企业构建。从20世纪90年代开始，商业供应商一直提供大数据的并行数据库管理系统。多年来，温特公司发布了最大的数据库报告。

−

'''''【终译版】'''''大数据存储库以多种形式存在，通常由有特殊需求的公司建立。从20世纪90年代开始，商业供应商就开始为大数据提供并行数据库管理系统。多年来，WinterCorp发布了最大的数据库报告。

−

。

[[Teradata]] Corporation in 1984 marketed the parallel processing [[DBC 1012]] system. Teradata systems were the first to store and analyze 1 terabyte of data in 1992. Hard disk drives were 2.5 GB in 1991 so the definition of big data continuously evolves. Teradata installed the first petabyte class RDBMS based system in 2007. {{as of|2017}}, there are a few dozen petabyte class Teradata relational databases installed, the largest of which exceeds 50 PB. Systems up until 2008 were 100% structured relational data. Since then, Teradata has added unstructured data types including [[XML]], [[JSON]], and Avro.

第245行：第207行：

天睿在1984年推出了并行处理 DBC 1012系统。1992年，Teradata 系统首次存储和分析了1tb 的数据。1991年硬盘驱动器是2.5 GB，所以大数据的定义在不断发展。Teradata 在2007年安装了第一个 petabyte 类 RDBMS 为基础的系统。，安装了几十个 petabyte 类 Teradata 关系数据库，其中最大的超过50pb。直到2008年，系统都是100% 的结构化关系数据。从那时起，Teradata 增加了包括 XML、 JSON 和 Avro 在内的非结构化数据类型。

−

'''''【终译版】'''''Teradata Corporation于1984年推出了并行处理DBC 1012系统。1992年，Teradata系统是第一个存储和分析1TB数据的系统。1991年硬盘驱动器为2.5GB，因此大数据的定义不断演变。Teradata于2007年安装了第一个基于PB级RDBMS的系统，安装了几十个PB级的Teradata关系数据库，其中最大的超过50PB。直到2008年，系统都是100%结构化的关系数据。从那时起，Teradata添加了非结构化数据类型，包括XML、JSON和Avro。

−

。

In 2000, Seisint Inc. (now [[LexisNexis Risk Solutions]]) developed a [[C++]]-based distributed platform for data processing and querying known as the [[HPCC Systems]] platform. This system automatically partitions, distributes, stores and delivers structured, semi-structured, and unstructured data across multiple commodity servers. Users can write data processing pipelines and queries in a declarative dataflow programming language called ECL. Data analysts working in ECL are not required to define data schemas upfront and can rather focus on the particular problem at hand, reshaping data in the best possible manner as they develop the solution. In 2004, LexisNexis acquired Seisint Inc.<ref>{{cite news| url=https://www.washingtonpost.com/wp-dyn/articles/A50577-2004Jul14.html|title=LexisNexis To Buy Seisint For $775 Million|newspaper=[[The Washington Post]]|access-date=15 July 2004}}</ref> and their high-speed parallel processing platform and successfully used this platform to integrate the data systems of Choicepoint Inc. when they acquired that company in 2008.<ref>[https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html The Washington Post]</ref> In 2011, the HPCC systems platform was open-sourced under the Apache v2.0 License.

第257行：第215行：

2000年，Seisint 公司(现在的 LexisNexis 风险解决方案)开发了一个基于 c + + 的分布式数据处理和查询平台，称为 HPCC 系统平台。这个系统自动分区、分发、存储和交付结构化、半结构化和跨多个商品服务器的非结构化数据。用户可以使用称为 ECL 的声明性数据流编程语言编写数据处理管道和查询。在 ECL 中工作的数据分析师不需要事先定义数据模式，而是可以专注于手头的特定问题，在开发解决方案时以尽可能好的方式重新构造数据。2004年，LexisNexis 收购了 Seisint 公司及其高速并行处理平台，并在2008年收购 Choicepoint 公司时，成功地利用该平台集成了该公司的数据系统。华盛顿邮报2011年，HPCC 系统平台根据 Apache v2.0许可证开源。

−

'''''【终译版】'''''2000年，Seisint Inc.（现为LexisNexis Risk Solutions）开发了一个基于C++的分布式数据处理和查询平台，称为HPCC系统平台。该系统可以跨多个商品服务器自动划分、分发、存储和交付结构化、半结构化和非结构化数据。用户可以用一种称为ECL的声明性数据流编程语言编写数据处理管道和查询。在ECL工作的数据分析师不需要预先定义数据模式，而是可以专注于手头的特定问题，在开发解决方案时以最佳方式重塑数据。2004年，LexisNexis收购了Seisint Inc.及其高速并行处理平台，并在2008年收购Choicepoint Inc.时成功利用该平台集成了该公司的数据系统。《华盛顿邮报》2011年报道，HPCC系统平台在Apache v2下是开源的。0许可证。

−

。

[[CERN]] and other physics experiments have collected big data sets for many decades, usually analyzed via [[high-throughput computing]] rather than the map-reduce architectures usually meant by the current "big data" movement.

第269行：第223行：

CERN 和其他物理实验已经收集大数据集数十年了，通常是通过高吞吐量计算进行分析，而不是通常意味着当前“大数据”运动的地图缩减架构。

−

'''''【终译版】'''''欧洲核子研究中心（CERN）和其他物理实验几十年来一直在收集大数据集，这些数据集通常是通过高通量计算进行分析的，而不是当前“大数据”运动通常指的map-reduce体系结构。

−

。

In 2004, [[Google]] published a paper on a process called [[MapReduce]] that uses a similar architecture. The MapReduce concept provides a parallel processing model, and an associated implementation was released to process huge amounts of data. With MapReduce, queries are split and distributed across parallel nodes and processed in parallel (the "map" step). The results are then gathered and delivered (the "reduce" step). The framework was very successful,<ref>Bertolucci, Jeff [http://www.informationweek.com/software/hadoop-from-experiment-to-leading-big-data-platform/d/d-id/1110491? "Hadoop: From Experiment To Leading Big Data Platform"], "Information Week", 2013. Retrieved on 14 November 2013.</ref> so others wanted to replicate the algorithm. Therefore, an [[implementation]] of the MapReduce framework was adopted by an Apache open-source project named "[[Apache Hadoop|Hadoop]]".<ref>Webster, John. [http://research.google.com/archive/mapreduce-osdi04.pdf "MapReduce: Simplified Data Processing on Large Clusters"], "Search Storage", 2004. Retrieved on 25 March 2013.</ref> [[Apache Spark]] was developed in 2012 in response to limitations in the MapReduce paradigm, as it adds the ability to set up many operations (not just map followed by reducing).

第281行：第231行：

2004年，谷歌发表了一篇名为 MapReduce 的论文，该论文使用了类似的架构。MapReduce 概念提供了一个并行处理模型，并发布了一个相关的实现来处理大量的数据。使用 MapReduce，查询被拆分并分布在并行节点上，并且被并行处理(“映射”步骤)。然后收集和交付结果(“ reduce”步骤)。这个框架非常成功，Bertolucci，Jeff“ Hadoop: 从实验到领导大数据平台”，“信息周”，2013。检索于2013年11月14日，所以其他人希望复制该算法。因此，MapReduce 框架的实现被一个名为“ Hadoop”的 Apache 开源项目所采用。“ MapReduce: 大型集群上的简化数据处理”，“ Search Storage”，2004年。2013年3月25日。Apache Spark 是在2012年针对 MapReduce 范例的限制而开发的，因为它增加了设置许多操作的能力(不仅仅是映射后的减少)。

−

'''''【终译版】'''''2004年，谷歌发表了一篇关于MapReduce流程的论文，该流程使用了类似的架构。MapReduce概念提供了一个并行处理模型，并发布了一个相关的实现来处理大量数据。使用MapReduce，查询被拆分并分布在并行节点上，并进行并行处理（“映射”步骤）。然后收集并交付结果（“减少”步骤）。该框架非常成功，Bertolucci，Jeff，“Hadoop：从实验到领先的大数据平台”，“信息周”，2013年。2013年11月14日检索。所以其他人想复制这个算法。因此，一个名为“Hadoop”的Apache开源项目采用了MapReduce框架的实现。韦伯斯特，约翰。“MapReduce：大型集群上的简化数据处理”，“搜索存储”，2004年。2013年3月25日检索。ApacheSpark是在2012年针对MapReduce范例中的局限性开发的，因为它增加了设置许多操作的能力（而不仅仅是map之后的Reduce）。

−

。

[[MIKE2.0 Methodology|MIKE2.0]] is an open approach to information management that acknowledges the need for revisions due to big data implications identified in an article titled "Big Data Solution Offering".<ref>{{cite web| url=http://mike2.openmethodology.org/wiki/Big_Data_Solution_Offering| title=Big Data Solution Offering|publisher=MIKE2.0|access-date=8 December 2013}}</ref> The methodology addresses handling big data in terms of useful [[permutation]]s of data sources, [[complexity]] in interrelationships, and difficulty in deleting (or modifying) individual records.<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Big_Data_Definition|title=Big Data Definition|publisher=MIKE2.0|access-date=9 March 2013}}</ref>

第293行：第239行：

MIKE2.0是一个开放的信息管理方法，它承认由于《大数据解决方案提供》一文中确定的大数据影响，需要进行修订。这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的困难来处理大数据。

−

'''''【终译版】'''''迈克。0是一种开放的信息管理方法，它承认由于在一篇题为“大数据解决方案提供”的文章中指出的大数据影响，需要进行修订。该方法从数据源的有用排列、相互关系的复杂性以及删除（或修改）单个记录的难度等方面处理大数据。

−

。

Studies in 2012 showed that a multiple-layer architecture was one option to address the issues that big data presents. A [[List of file systems#Distributed parallel file systems|distributed parallel]] architecture distributes data across multiple servers; these parallel execution environments can dramatically improve data processing speeds. This type of architecture inserts data into a parallel DBMS, which implements the use of MapReduce and Hadoop frameworks. This type of framework looks to make the processing power transparent to the end-user by using a front-end application server.<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=Distributed Parallel Architecture for Big Data|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>

第305行：第247行：

2012年的研究表明，多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上; 这些并行执行环境可以显著提高数据处理速度。这种架构将数据插入到并行 DBMS 中，实现了 MapReduce 和 Hadoop 框架的使用。这种类型的框架通过使用前端应用程序服务器来使处理能力对最终用户透明。

−

'''''【终译版】'''''2012年的研究表明，多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上；这些并行执行环境可以显著提高数据处理速度。这种类型的体系结构将数据插入到并行DBMS中，后者实现了MapReduce和Hadoop框架的使用。这种类型的框架希望通过使用前端应用服务器，使处理能力对最终用户透明。

−

。

The [[data lake]] allows an organization to shift its focus from centralized control to a shared model to respond to the changing dynamics of information management. This enables quick segregation of data into the data lake, thereby reducing the overhead time.<ref>{{cite web|url= http://www.hcltech.com/sites/default/files/solving_key_businesschallenges_with_big_data_lake_0.pdf|title=Solving Key Business Challenges With a Big Data Lake|date=August 2014| website=Hcltech.com|access-date=8 October 2017}}</ref><ref>{{ cite web| url= https://secplab.ppgia.pucpr.br/files/papers/2015-0.pdf | title= Method for testing the fault tolerance of MapReduce frameworks | publisher=Computer Networks | year=2015}}</ref>

第317行：第255行：

数据库允许组织将其重点从集中控制转移到共享模型，以响应不断变化的信息管理动态。这样可以将数据快速隔离到数据湖中，从而减少开销时间。

−

'''''【终译版】'''''数据湖允许组织将其重点从集中控制转移到共享模型，以响应信息管理不断变化的动态。这样可以将数据快速分离到数据池中，从而减少开销时间。

−

。

==Technologies==

第353行：第287行：

多维大数据也可以表示为 OLAP 数据立方体或者数学上的张量。阵列数据库系统已经着手为这种数据类型提供存储和高级查询支持。其他应用于大数据的技术包括高效的基于张量的计算，如多线性子空间学习、大规模并行处理(MPP)数据库、基于搜索的应用程序、数据挖掘、分布式文件系统、分布式缓存(如突发缓冲区和 Memcached)、分布式数据库、基于云和 hpc 的基础设施(应用程序、存储和计算资源) ，以及互联网。虽然已经开发了许多方法和技术，但是仍然很难实现大数据的机器学习。

−

'''''【终译版】'''''多维大数据也可以表示为OLAP数据立方体或数学上的张量。阵列数据库系统已经开始提供这种数据类型的存储和高级查询支持。应用于大数据的其他技术包括基于张量的高效计算，如多线性子空间学习、大规模并行处理（MPP）数据库、基于搜索的应用、数据挖掘、分布式文件系统、分布式缓存（如burst buffer和Memcached）、分布式数据库、，基于云和HPC的基础设施（应用程序、存储和计算资源）以及互联网。尽管已经开发了许多方法和技术，但使用大数据进行机器学习仍然很困难。

−

。

Some [[Massive parallel processing|MPP]] relational databases have the ability to store and manage petabytes of data. Implicit is the ability to load, monitor, back up, and optimize the use of the large data tables in the [[RDBMS]].<ref>{{cite web |author=Monash, Curt |title=eBay's two enormous data warehouses |date=30 April 2009 |url=http://www.dbms2.com/2009/04/30/ebays-two-enormous-data-warehouses/}} {{cite web |author=Monash, Curt |title=eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more |date=6 October 2010 |url =http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/}}</ref>{{promotional source|date=December 2018}}

−

Some MPP relational databases have the ability to store and manage petabytes of data. Implicit is the ability to load, monitor, back up, and optimize the use of the large data tables in the RDBMS.~~ ~~

+

Some MPP relational databases have the ability to store and manage petabytes of data. Implicit is the ability to load, monitor, back up, and optimize the use of the large data tables in the RDBMS.

一些 MPP 关系数据库具有存储和管理 pb 级数据的能力。隐式是加载、监视、备份和优化 RDBMS 中大型数据表的使用的能力。

−

'''''【终译版】'''''一些MPP关系数据库能够存储和管理数PB的数据。隐式是加载、监视、备份和优化RDBMS中大型数据表使用的能力。

−

。

[[DARPA]]'s [[Topological Data Analysis]] program seeks the fundamental structure of massive data sets and in 2008 the technology went public with the launch of a company called "Ayasdi".<ref>{{cite web|url=http://www.ayasdi.com/resources/|title=Resources on how Topological Data Analysis is used to analyze big data|publisher=Ayasdi}}</ref>{{thirdpartyinline|date=December 2018}}

第377行：第303行：

美国国防部高级研究计划局的拓扑数据分析计划寻找海量数据集的基本结构。2008年，随着一家名为“ Ayasdi”的公司的成立，这项技术公之于众。

−

'''''【终译版】'''''DARPA的拓扑数据分析项目寻求海量数据集的基本结构，2008年，这项技术随着一家名为“Ayasdi”的公司的成立而上市。

−

。

The practitioners of big data analytics processes are generally hostile to slower shared storage,<ref>{{cite web |title=Storage area networks need not apply |author=CNET News |date=1 April 2011 |url=http://news.cnet.com/8301-21546_3-20049693-10253464.html}}</ref> preferring direct-attached storage ([[Direct-attached storage|DAS]]) in its various forms from solid state drive ([[SSD]]) to high capacity [[Serial ATA|SATA]] disk buried inside parallel processing nodes. The perception of shared storage architectures—[[storage area network]] (SAN) and [[network-attached storage]] (NAS)— is that they are relatively slow, complex, and expensive. These qualities are not consistent with big data analytics systems that thrive on system performance, commodity infrastructure, and low cost.

第389行：第311行：

大数据分析处理的从业者通常不喜欢缓慢的共享存储，他们更喜欢各种形式的直接连接的存储设备，从固态硬盘(SSD)到埋藏在并行处理节点中的大容量 SATA 磁盘。对于共享存储架构ーー存储区域网络(SAN)和存储网络附加存储(NAS)ーー的看法是，它们相对缓慢、复杂和昂贵。这些特性与依赖于系统性能、商品基础设施和低成本的大数据分析系统不一致。

−

'''''【终译版】'''''大数据分析流程的从业者通常不喜欢速度较慢的共享存储，他们更喜欢各种形式的直连存储（DAS），从固态驱动器（SSD）到埋入并行处理节点中的高容量SATA磁盘。共享存储体系结构存储区域网络（SAN）和网络连接存储（NAS）的概念是它们相对缓慢、复杂且昂贵。这些品质与依赖系统性能、商品基础设施和低成本的大数据分析系统不一致。

−

。

Real or near-real-time information delivery is one of the defining characteristics of big data analytics. Latency is therefore avoided whenever and wherever possible. Data in direct-attached memory or disk is good—data on memory or disk at the other end of an [[Fiber connector|FC]] [[Storage area network|SAN]] connection is not. The cost of an [[Storage area network|SAN]] at the scale needed for analytics applications is much higher than other storage techniques.

第401行：第319行：

实时或接近实时的信息传递是大数据分析的定义特征之一。因此，无论何时何地，只要有可能，就可以避免延迟。直接连接的存储器或磁盘中的数据是好的ーー FC SAN 连接另一端的存储器或磁盘上的数据是坏的。在分析应用程序所需的规模上，SAN 的成本要比其他存储技术高得多。

−

'''''【终译版】'''''实时或近实时信息交付是大数据分析的定义特征之一。因此，无论何时何地都可以避免延迟。直连内存或磁盘中的数据是良好的FC SAN连接另一端的内存或磁盘中的数据不是。分析应用程序所需规模的SAN的成本比其他存储技术高得多。

−

。

==Applications==

第413行：第327行：

Big data has increased the demand of information management specialists so much so that Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP, and Dell have spent more than $15 billion on software firms specializing in data management and analytics. In 2010, this industry was worth more than $100 billion and was growing at almost 10 percent a year: about twice as fast as the software business as a whole.

−

大数据极大地增加了信息管理专家的需求，以至于 Software AG、甲骨文公司、 IBM、微软、 SAP、 EMC、惠普和戴尔已经在数据管理和分析软件公司上花费了超过150亿美元。在2010年，这个行业价值超过1000亿美元，并且以每年近10% 的速度增长: 大约是整个软件行业的两倍。

+

大数据极大地增加了信息管理专家的需求，以至于 Software AG、甲骨文公司、 IBM、微软、 SAP、 EMC、惠普和戴尔已经在数据管理和分析软件公司上花费了超过150亿美元。在2010年，这个行业价值超过1000亿美元，并且以每年近10% 的速度增长: 大约是整个软件行业的两倍。'''''【终译版】'''''。大数据极大地增加了对信息管理专家的需求，以至于Software AG、Oracle Corporation、IBM、Microsoft、SAP、EMC、HP和Dell在专门从事数据管理和分析的软件公司上花费了150多亿美元。2010年，这个行业的价值超过1000亿美元，并以每年近10%的速度增长：大约是整个软件业务的两倍。

−

'''''【终译版】'''''。大数据极大地增加了对信息管理专家的需求，以至于Software AG、Oracle Corporation、IBM、Microsoft、SAP、EMC、HP和Dell在专门从事数据管理和分析的软件公司上花费了150多亿美元。2010年，这个行业的价值超过1000亿美元，并以每年近10%的速度增长：大约是整个软件业务的两倍。

−

。

Developed economies increasingly use data-intensive technologies. There are 4.6 billion mobile-phone subscriptions worldwide, and between 1 billion and 2 billion people accessing the internet.{{r|Economist}} Between 1990 and 2005, more than 1 billion people worldwide entered the middle class, which means more people became more literate, which in turn led to information growth. The world's effective capacity to exchange information through telecommunication networks was 281 [[petabytes]] in 1986, 471 [[petabytes]] in 1993, 2.2 exabytes in 2000, 65 [[exabytes]] in 2007<ref name="martinhilbert.net"/> and predictions put the amount of internet traffic at 667 exabytes annually by 2014.{{r|Economist}} According to one estimate, one-third of the globally stored information is in the form of alphanumeric text and still image data,<ref name="HilbertContent">{{cite journal|title= What is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?| doi= 10.1080/01972243.2013.873748 | volume=30| issue=2 |journal=The Information Society|pages=127–143|year = 2014|last1 = Hilbert|first1 = Martin| s2cid= 45759014 | url= https://escholarship.org/uc/item/87w5f6wb }}</ref> which is the format most useful for most big data applications. This also shows the potential of yet unused data (i.e. in the form of video and audio content).

第424行：第333行：

Developed economies increasingly use data-intensive technologies. There are 4.6 billion mobile-phone subscriptions worldwide, and between 1 billion and 2 billion people accessing the internet. Between 1990 and 2005, more than 1 billion people worldwide entered the middle class, which means more people became more literate, which in turn led to information growth. The world's effective capacity to exchange information through telecommunication networks was 281 petabytes in 1986, 471 petabytes in 1993, 2.2 exabytes in 2000, 65 exabytes in 2007 and predictions put the amount of internet traffic at 667 exabytes annually by 2014. According to one estimate, one-third of the globally stored information is in the form of alphanumeric text and still image data, which is the format most useful for most big data applications. This also shows the potential of yet unused data (i.e. in the form of video and audio content).

−

发达经济体越来越多地使用数据密集型技术。全世界有46亿移动电话用户，10亿到20亿人使用互联网。从1990年到2005年，全世界有超过10亿人进入中产阶级，这意味着更多的人变得更有文化，进而导致信息增长。世界通过电信网络交换信息的有效容量在1986年为281千兆字节，1993年为471千兆字节，2000年为2.2千兆字节，2007年为65千兆字节，预计到2014年每年的互联网流量将达到667千兆字节。据估计，全球储存的信息有三分之一是字母数字文本和静止图像数据，这是大多数大数据应用程序最有用的格式。这也显示了尚未使用的数据的潜力(即。以视频和音频内容的形式)。

+

发达经济体越来越多地使用数据密集型技术。全世界有46亿移动电话用户，10亿到20亿人使用互联网。从1990年到2005年，全世界有超过10亿人进入中产阶级，这意味着更多的人变得更有文化，进而导致信息增长。世界通过电信网络交换信息的有效容量在1986年为281千兆字节，1993年为471千兆字节，2000年为2.2千兆字节，2007年为65千兆字节，预计到2014年每年的互联网流量将达到667千兆字节。据估计，全球储存的信息有三分之一是字母数字文本和静止图像数据，这是大多数大数据应用程序最有用的格式。这也显示了尚未使用的数据的潜力(即。以视频和音频内容的形式)。'''''【终译版】'''''。发达经济体越来越多地使用数据密集型技术。全世界有46亿手机用户，有10亿到20亿人上网。从1990年到2005年，全世界有超过10亿人进入中产阶级，这意味着更多的人变得更识字，这反过来又导致了信息的增长。1986年，世界通过电信网络交换信息的有效容量为281 PB，1993年为471 PB，2000年为2.2 EB，2007年为65 EB。据预测，到2014年，互联网流量将达到每年667 EB。据估计，全球存储信息的三分之一是字母数字文本和静态图像数据，这是大多数大数据应用最有用的格式。这也显示了尚未使用的数据（即以视频和音频内容的形式）的潜力。

−

'''''【终译版】'''''。发达经济体越来越多地使用数据密集型技术。全世界有46亿手机用户，有10亿到20亿人上网。从1990年到2005年，全世界有超过10亿人进入中产阶级，这意味着更多的人变得更识字，这反过来又导致了信息的增长。1986年，世界通过电信网络交换信息的有效容量为281 PB，1993年为471 PB，2000年为2.2 EB，2007年为65 EB。据预测，到2014年，互联网流量将达到每年667 EB。据估计，全球存储信息的三分之一是字母数字文本和静态图像数据，这是大多数大数据应用最有用的格式。这也显示了尚未使用的数据（即以视频和音频内容的形式）的潜力。

−

。

While many vendors offer off-the-shelf products for big data, experts promote the development of in-house custom-tailored systems if the company has sufficient technical capabilities.<ref>{{cite web |url=http://www.kdnuggets.com/2014/07/interview-amy-gershkoff-ebay-in-house-BI-tools.html |title=Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools |last1=Rajpurohit |first1=Anmol |date=11 July 2014 |website= KDnuggets|access-date=14 July 2014|quote=Generally, I find that off-the-shelf business intelligence tools do not meet the needs of clients who want to derive custom insights from their data. Therefore, for medium-to-large organizations with access to strong technical talent, I usually recommend building custom, in-house solutions.}}</ref>

第435行：第339行：

While many vendors offer off-the-shelf products for big data, experts promote the development of in-house custom-tailored systems if the company has sufficient technical capabilities.

−

虽然许多供应商提供现成的大数据产品，但如果公司拥有足够的技术能力，专家则推动开发内部定制系统。

+

虽然许多供应商提供现成的大数据产品，但如果公司拥有足够的技术能力，专家则推动开发内部定制系统。'''''【终译版】'''''。虽然许多供应商为大数据提供现成的产品，但如果公司有足够的技术能力，专家会推动内部定制系统的开发。

−

'''''【终译版】'''''。虽然许多供应商为大数据提供现成的产品，但如果公司有足够的技术能力，专家会推动内部定制系统的开发。

−

。

−

===Government===

The use and adoption of big data within governmental processes allows efficiencies in terms of cost, productivity, and innovation,<ref>{{cite magazine|url =http://www.computerworld.com/article/2472667/government-it/the-government-and-big-data--use--problems-and-potential.html |title=The Government and big data: Use, problems and potential |date=21 March 2012 |magazine=[[Computerworld]] |access-date=12 September 2016}}</ref> but does not come without its flaws. Data analysis often requires multiple parts of government (central and local) to work in collaboration and create new and innovative processes to deliver the desired outcome. A common government organization that makes use of big data is the National Security Administration ([[National Security Agency|NSA]]), which monitors the activities of the Internet constantly in search for potential patterns of suspicious or illegal activities their system may pick up.

第448行：第346行：

在政府流程中使用和采用大数据可以在成本、生产力和创新方面提高效率，但也存在缺陷。数据分析往往需要多个政府部门(中央和地方)协同工作，创建新的创新流程，以实现预期成果。利用大数据的一个常见政府组织是国家安全局，该局不断监测互联网的活动，以搜索其系统可能发现的可疑或非法活动的潜在模式。

−

'''''【终译版】'''''。在政府流程中使用和采用大数据可以提高成本、生产率和创新效率，但也并非没有缺陷。数据分析通常需要政府的多个部门（中央和地方）合作，创建新的创新流程，以实现预期结果。国家安全局（NSA）是一个利用大数据的常见政府组织，它不断监控互联网的活动，寻找其系统可能发现的可疑或非法活动的潜在模式。

−

。

[[Civil registration and vital statistics]] (CRVS) collects all certificates status from birth to death. CRVS is a source of big data for governments.

第459行：第354行：

民事登记和人口动态统计收集从出生到死亡的所有证明状态。民事登记和人口动态统计系统是政府大数据的一个来源。

−

'''''【终译版】'''''。民事登记和人口动态统计（CRVS）收集从出生到死亡的所有身份证明。CRV是政府大数据的来源。

−

。

===International development===

第471行：第363行：

= = = 国际发展 = = 关于有效利用信息和通信技术促进发展的研究(又称“ ICT4D”)表明，大数据技术可以作出重要贡献，但也对国际发展提出独特的挑战。海量数据分析的进步为改善关键发展领域的决策提供了成本效益高的机会，这些领域包括保健、就业、经济生产力、犯罪、安全、自然灾害和资源管理。此外，用户生成的数据提供了新的机会，给未听到的声音。然而，发展中地区面临的长期挑战，如技术基础设施不足、经济和人力资源稀缺，加剧了人们对大数据的现有担忧，如隐私、方法不完善以及互操作性问题。“大数据促进发展”的挑战目前正朝着通过机器学习(被称为“人工智能促进发展(AI4D)”)应用这些数据的方向发展。希尔伯特 · 曼(2020)。AI4D: 人工智能促进发展。国际通信杂志，14(0) ，21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/

−

'''''【终译版】'''''。关于有效利用信息和通信技术促进发展（也称为“ICT4D”）的研究表明，大数据技术可以做出重要贡献，但也对国际发展提出了独特的挑战。大数据分析的进步为改善关键发展领域的决策提供了成本效益高的机会，如医疗保健、就业、经济生产率、犯罪、安全、自然灾害和资源管理。此外，用户生成的数据提供了新的机会，让闻所未闻的声音。然而，发展中地区面临的长期挑战，如技术基础设施不足、经济和人力资源匮乏，加剧了对大数据的现有担忧，如隐私、不完善的方法和互操作性问题。“大数据促进发展”的挑战目前正朝着通过机器学习应用这些数据的方向发展，称为“人工智能促进发展”（AI4D）。Mann，S.，和Hilbert，M.（2020）。AI4D：人工智能促进发展。国际通讯杂志，14（0），21。<nowiki>https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/</nowiki>

−

。

====Benefits====

第496行：第385行：

* 及时性和时间: 图表可以在收集后的几天内生成

−

+

'''''【终译版】'''''

−

'''''【终译版】'''''。

大数据促进发展的一个主要实际应用是“用数据战胜贫困”。2015年，Blumenstock及其同事通过手机元数据预测贫困和财富，2016年Jean及其同事结合卫星图像和机器学习预测贫困。Hilbert及其同事利用数字跟踪数据研究拉丁美洲的劳动力市场和数字经济，认为数字跟踪数据有以下几个好处：

第508行：第396行：

及时性和时间序列：图表可以在收集后的几天内生成

−

。

====Challenges====

第530行：第416行：

* 资料过载。分析师和机构不习惯于有效地处理大量的变量，而这是通过交互式仪表板有效地完成的。从业人员仍然缺乏一个标准的工作流程，使研究人员、用户和决策者能够高效和有效地工作。

−

+

'''''【终译版】'''''

−

'''''【终译版】'''''。

同时，使用数字跟踪数据而不是传统调查数据并不能消除在国际定量分析领域工作时所面临的传统挑战。优先事项会发生变化，但基本的讨论仍然是一样的。主要挑战包括：

第542行：第427行：

数据过载。分析师和机构不习惯有效地处理大量变量，这是通过交互式仪表盘有效地完成的。从业者仍然缺乏一个标准的工作流程，使研究人员、用户和决策者能够高效、高效地执行任务。

−

。

===Healthcare===

第552行：第435行：

通过提供个体化医学和规范性分析，临床风险干预和预测分析，减少浪费和护理变异性，病人数据的自动化外部和内部报告，标准化的医学术语和病人登记，大数据分析在医疗保健中得到了应用。一些需要改进的领域比实际执行的更具雄心壮志。在医疗保健系统中生成的数据级别并不是微不足道的。随着移动健康、电子健康和可穿戴技术的广泛应用，数据量将继续增长。这包括电子健康记录数据、成像数据、患者生成数据、传感器数据以及其他难以处理的数据形式。现在更加需要这种环境更加重视数据和信息质量。“大数据往往意味着‘脏数据’，数据不准确的比例随着数据量的增长而增加。”在大数据规模的人类检查是不可能的，在卫生服务中迫切需要智能工具，以实现准确性和可信度控制，并处理遗漏的信息。虽然现在医疗保健领域的大量信息都是电子化的，但是由于大多数信息都是非结构化的，难以使用，因此它们都被归入了大数据的范畴。在医疗保健中使用大数据引发了重大的道德挑战，从个人权利、隐私和自主权的风险，到透明度和信任度。

−

+

'''''【终译版】'''''

−

'''''【终译版】'''''。

大数据分析通过提供个性化医疗和处方分析、临床风险干预和预测分析、减少废物和护理变异性、患者数据的自动外部和内部报告、标准化医疗术语和患者登记，被用于医疗保健。有些领域的改进更具抱负，而不是实际实施。医疗保健系统内生成的数据水平并非微不足道。随着mHealth、eHealth和可穿戴技术的进一步采用，数据量将继续增加。这包括电子健康记录数据、成像数据、患者生成的数据、传感器数据和其他难以处理的数据。现在，这种环境更加需要关注数据和信息质量。“大数据通常意味着‘脏数据’，数据不准确的比例随着数据量的增长而增加。”在大数据范围内进行人体检查是不可能的，卫生服务部门迫切需要智能工具来准确、可信地控制和处理丢失的信息。虽然医疗保健领域的大量信息现在是电子化的，但它符合大数据的要求，因为大多数信息都是非结构化的，难以使用。在医疗保健领域使用大数据带来了重大的道德挑战，从个人权利、隐私和自主权的风险，到透明度和信任。

−

。

Big data in health research is particularly promising in terms of exploratory biomedical research, as data-driven analysis can move forward more quickly than hypothesis-driven research.<ref>{{Cite journal|last=Copeland|first=CS|date=Jul–Aug 2017|title=Data Driving Discovery|url=http://claudiacopeland.com/uploads/3/5/5/6/35560346/_hjno_data_driving_discovery_2pv.pdf|journal=Healthcare Journal of New Orleans|pages=22–27}}</ref> Then, trends seen in data analysis can be tested in traditional, hypothesis-driven follow up biological research and eventually clinical research.

第565行：第445行：

健康研究中的大数据在探索性生物医学研究方面特别有前途，因为数据驱动的分析可以比假设驱动的研究更快地向前推进。然后，数据分析的趋势可以在传统的、假设驱动的后续生物学研究和最终的临床研究中得到验证。

−

+

'''''【终译版】'''''

−

'''''【终译版】'''''。

−

。

A related application sub-area, that heavily relies on big data, within the healthcare field is that of [[computer-aided diagnosis]] in medicine.

第585行：第462行：

在医疗保健领域，一个相关的应用子领域，严重依赖于大数据，那就是医药电脑辅助诊断。例如，对于癫痫监测，通常每天创建5到10gb 的数据。同样，一张未压缩的乳房断层合成图像平均有450mb 的数据。这些只是电脑辅助诊断使用大数据的众多例子中的一小部分。基于这个原因，大数据已经被认为是电脑辅助诊断系统需要克服的7个关键挑战之一，以达到下一个性能水平。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

医疗领域中一个严重依赖大数据的相关应用子领域是医学中的计算机辅助诊断。例如，对于癫痫监测，通常每天创建5到10GB的数据。类似地，一张未压缩的乳房断层合成图像的平均数据量为450 MB。这些只是计算机辅助诊断使用大数据的众多例子中的一小部分。因此，大数据被认为是计算机辅助诊断系统需要克服的七大关键挑战之一，以达到下一个性能水平。

−

。

===Education===

第609行：第484行：

麦肯锡全球研究所的一项研究发现，受过高等培训的数据专业人员和管理人员短缺150万人，包括田纳西大学和加州大学伯克利分校在内的一些大学已经开设了硕士课程来满足这一需求。私营新兵训练营也开发了一些项目来满足这种需求，包括免费的数据孵化器项目或者付费的大会项目。在特定的营销领域，Wedel 和 Kannan 强调的问题之一是，营销有几个子领域(例如，广告、促销、产品开发、品牌) ，它们都使用不同类型的数据。

−

+

'''''【终译版】'''''

−

'''''【终译版】'''''。

麦肯锡全球研究所发现，150万名训练有素的数据专家和管理人员短缺，包括田纳西大学和加州大学伯克利分校在内的一些大学已经建立了硕士课程来满足这一需求。私营新兵训练营也开发了一些项目来满足这一需求，包括数据孵化器等免费项目或大会等付费项目。在营销的特定领域，Wedel和Kannan强调的一个问题是，营销有几个子领域（例如广告、促销、产品开发、品牌推广），它们都使用不同类型的数据。

−

。

===Media===

第633行：第505行： −

'''''【终译版】'''''~~。为了理解媒体如何使用大数据，首先需要为媒体处理所使用的机制提供一些上下文。尼克·库尔德利（Nick~~ Couldry）和约瑟夫·图罗（Joseph Turow）曾建议，媒体和广告从业者在处理大数据时，应尽可能多地处理数百万个人的可操作信息点。该行业似乎正在摆脱使用特定媒体环境（如报纸、杂志或电视节目）的传统方式，转而利用技术在最佳时间、最佳地点接触目标人群，以吸引消费者。最终目的是提供或传达（从统计学上讲）符合消费者心态的信息或内容。例如，发布环境越来越多地定制消息（广告）和内容（文章），以吸引专门通过各种数据挖掘活动收集的消费者。

+

'''''【终译版】'''''为了理解媒体如何使用大数据，首先需要为媒体处理所使用的机制提供一些上下文。尼克·库尔德利（Nick Couldry）和约瑟夫·图罗（Joseph Turow）曾建议，媒体和广告从业者在处理大数据时，应尽可能多地处理数百万个人的可操作信息点。该行业似乎正在摆脱使用特定媒体环境（如报纸、杂志或电视节目）的传统方式，转而利用技术在最佳时间、最佳地点接触目标人群，以吸引消费者。最终目的是提供或传达（从统计学上讲）符合消费者心态的信息或内容。例如，发布环境越来越多地定制消息（广告）和内容（文章），以吸引专门通过各种数据挖掘活动收集的消费者。

以消费者为目标（针对营销人员的广告）

第647行：第520行：

英国公共服务电视广播公司第四频道是大数据和数据分析领域的领导者。

−

'''''【终译版】'''''~~。英国公共服务电视广播公司第四频道是大数据和数据分析领域的领导者。~~

+

'''''【终译版】'''''英国公共服务电视广播公司第四频道是大数据和数据分析领域的领导者。

===Insurance===

第656行：第529行：

= = = = 医疗保险提供者正在收集关于诸如食物和电视消费、婚姻状况、衣服尺寸和购买习惯等社会”健康决定因素”的数据，从而对医疗费用进行预测，以便发现客户的健康问题。这些预测目前是否被用于定价还存在争议。

−

'''''【终译版】'''''。健康保险提供商正在收集有关社会“健康决定因素”的数据，如食品和电视消费、婚姻状况、服装尺寸和购买习惯，并根据这些数据预测健康成本，以便发现客户的健康问题。目前，这些预测是否用于定价还存在争议。

+

'''''【终译版】'''''健康保险提供商正在收集有关社会“健康决定因素”的数据，如食品和电视消费、婚姻状况、服装尺寸和购买习惯，并根据这些数据预测健康成本，以便发现客户的健康问题。目前，这些预测是否用于定价还存在争议。

===Internet of things (IoT)===

第667行：第540行：

= = = 物联网(IoT) = = = 大数据与物联网协同工作。从物联网设备中提取的数据提供了设备间连接的映射。这样的映射已经被媒体行业、公司和政府用来更精确地定位他们的受众并提高媒体效率。物联网也越来越多地被用作收集感官数据的手段，这些感官数据已经被用于医疗、制造和运输领域。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

大数据和物联网协同工作。从物联网设备提取的数据提供了设备间连接的映射。媒体行业、公司和政府已经使用这种映射来更准确地定位受众并提高媒体效率。物联网也越来越多地被用作收集感官数据的手段，这种感官数据已被用于医疗、制造和运输环境。

第677行：第550行：

数字创新专家凯文 · 阿什顿(Kevin Ashton)被誉为“物联网”(Internet of things)的创始人，他在这句话中给物联网下了这样的定义: “如果我们有一台了解一切的计算机——在没有我们帮助的情况下使用它们收集的数据——我们就能够跟踪和计算一切，大大减少浪费、损失和成本。”。我们会知道什么时候需要更换、修理或回收，以及这些东西是新的还是过时的。”

−

'''''【终译版】'''''~~。数字创新专家凯文·阿什顿（Kevin~~ Ashton）创造了这个词，在这句话中定义了物联网：“如果我们有一台计算机，它知道所有关于事物的知识，使用它们在没有我们任何帮助的情况下收集的数据，我们将能够跟踪和计算所有东西，并大大减少浪费、损失和成本。我们将知道什么时候需要更换、修理或召回，以及它们是新鲜的还是过时的。”

+

'''''【终译版】'''''数字创新专家凯文·阿什顿（Kevin Ashton）创造了这个词，在这句话中定义了物联网：“如果我们有一台计算机，它知道所有关于事物的知识，使用它们在没有我们任何帮助的情况下收集的数据，我们将能够跟踪和计算所有东西，并大大减少浪费、损失和成本。我们将知道什么时候需要更换、修理或召回，以及它们是新鲜的还是过时的。”

===Information technology===

第686行：第559行：

= = = 信息技术 = = = 特别是自2015年以来，大数据作为帮助雇员提高工作效率和简化信息技术的收集和分发的一种工具，在企业运作中日益受到重视。使用大数据来解决企业内部的 IT 和数据收集问题被称为 IT 操作分析(ITOA)。通过将大数据原理应用到机器智能和深度计算的概念中，IT 部门可以预测潜在的问题并预防它们。ITOA 企业提供系统管理平台，将数据竖井集中在一起，从整个系统而不是从孤立的数据块中产生见解。

−

'''''【终译版】'''''。特别是自2015年以来，大数据作为一种帮助员工更高效地工作并简化信息技术（IT）收集和分发的工具，在企业运营中日益突出。利用大数据解决企业内部的IT和数据收集问题称为IT运营分析（ITOA）。通过将大数据原理应用到机器智能和深度计算的概念中，IT部门可以预测潜在问题并加以预防。ITOA企业提供系统管理平台，将数据仓库整合在一起，从整个系统而不是从孤立的数据包中产生见解。

+

'''''【终译版】'''''特别是自2015年以来，大数据作为一种帮助员工更高效地工作并简化信息技术（IT）收集和分发的工具，在企业运营中日益突出。利用大数据解决企业内部的IT和数据收集问题称为IT运营分析（ITOA）。通过将大数据原理应用到机器智能和深度计算的概念中，IT部门可以预测潜在问题并加以预防。ITOA企业提供系统管理平台，将数据仓库整合在一起，从整个系统而不是从孤立的数据包中产生见解。

==Case studies==

第765行：第638行：

* 文德米尔不动产利用接近一亿名司机的位置资料，帮助置业人士计算每天不同时段往返工作地点的典型驾驶时间。

* FICO 卡检测系统保护全球账户。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

===Science===

第835行：第708行：

'''''【终译版】'''''大数据可以通过运动传感器来改善训练和了解竞争对手。还可以使用大数据分析预测比赛的赢家。球员未来的表现也可以预测。因此，球员的价值和薪水是由整个赛季收集的数据决定的。

−

.

In Formula One races, race cars with hundreds of sensors generate terabytes of data. These sensors collect data points from tire pressure to fuel burn efficiency.<ref>{{cite web|url=https://www.huffingtonpost.com/dave-ryan/sports-where-big-data-fin_b_8553884.html|title= Sports: Where Big Data Finally Makes Sense |author=Dave Ryan| work=huffingtonpost.com |date= 13 November 2015 |access-date=12 December 2015}}</ref>

第863行：第734行：

* Facebook 处理来自用户群的500亿张照片。的月活跃用户达到了20亿。

* 谷歌每月处理大约1000亿次搜索。

−

'''''【终译版】'''''

第900行：第768行：

2014年3月，美国工程教育学会演示了大数据中的加密搜索和集群形成。由麻省理工学院计算机科学和人工智能实验室和 UNH 研究小组的 Amir Esmailpour 共同致力于解决大数据的挑战，他们研究了大数据的关键特征，即集群的形成及其相互联系。他们重点讨论了大数据的安全性以及该术语的方向，即通过提供技术中的原始定义和实时示例，在云界面上以加密形式存在不同类型的数据。此外，他们还提出了一种识别编码技术的方法，以便对加密文本进行快速搜索，从而加强大数据的安全性。

−

'''''【终译版】'''''~~。2014年3月，美国工程教育学会（American~~ Society of Engineering Education）展示了大数据中的加密搜索和集群形成。麻省理工学院计算机科学和人工智能实验室的Gautam Siwach和UNH研究小组的Amir Esmailpour致力于应对大数据的挑战，他们研究了大数据的关键特征，如集群的形成及其相互关联。他们通过提供技术中的原始定义和实时示例，重点关注大数据的安全性，以及该术语在云接口以加密形式存在不同类型数据的方向。此外，他们还提出了一种识别编码技术的方法，以加快对加密文本的搜索，从而增强大数据的安全性

+

'''''【终译版】'''''2014年3月，美国工程教育学会（American Society of Engineering Education）展示了大数据中的加密搜索和集群形成。麻省理工学院计算机科学和人工智能实验室的Gautam Siwach和UNH研究小组的Amir Esmailpour致力于应对大数据的挑战，他们研究了大数据的关键特征，如集群的形成及其相互关联。他们通过提供技术中的原始定义和实时示例，重点关注大数据的安全性，以及该术语在云接口以加密形式存在不同类型数据的方向。此外，他们还提出了一种识别编码技术的方法，以加快对加密文本的搜索，从而增强大数据的安全性

−

。

In March 2012, The White House announced a national "Big Data Initiative" that consisted of six federal departments and agencies committing more than $200 million to big data research projects.<ref>{{cite web|title=Obama Administration Unveils "Big Data" Initiative:Announces $200 Million in New R&D Investments| url=https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf |url-status =live| archive-url =https://web.archive.org/web/20170121233309/https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf |via=[[NARA|National Archives]]|work=[[Office of Science and Technology Policy]]|archive-date=21 January 2017}}</ref>

L（吕奥博）

35

个编辑

更改

大数据 (查看源代码)

2022年2月4日 (五) 15:52的版本

导航菜单

搜索