更改

大数据 (查看源代码)

2022年2月6日 (日) 21:24的版本

添加14字节、 2022年2月6日 (日) 21:24

V0.5_20220206_翻译

第7行：第7行：

大数据是一个研究如何分析、系统地从中提取信息或以其他方式处理传统数据处理应用软件无法处理的过于庞大或复杂的数据集的领域。具有多个字段(列)的数据提供了更强的统计能力，而具有更高复杂性(更多属性或列)的数据可能导致更高的错误发现率。大数据分析面临的挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关: 数量、多样性和速度。大数据的分析在取样方面提出了挑战，因此以前只允许观测和取样。因此，大数据通常包含的数据大小超过了传统软件在可接受的时间和价值内处理的能力。

−

'''''【终译版】'''''大数据领域研究如何系统地从传统数据处理应用软件无法处理的太大或太复杂的数据集中提取、分析并处理信息。由于具有多个字段（列）的数据提供了更大的统计能力，从而具有更高复杂性（更多属性或列）的数据可能会导致更高的错误发现率。大数据分析挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键词有关：大数据量、多样性和高速度。大数据分析在抽样方面存在挑战，因此以前只允许进行观察和抽样。因此，大数据通常包括超过传统软件在可接受的时间和价值内能处理的数据量。

+

'''''【终译版】'''''大数据领域研究如何系统地从传统数据处理应用软件无法处理的太大或太复杂的数据集中提取、分析并处理信息。由于具有多个字段（列）的数据提供了更大的统计能力，同样，具有更高复杂性（更多属性或列）的数据也可能会导致更高的错误率。大数据分析挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关：大数据量、多样性和高速度。大数据分析意味着抽样存在挑战，因此旧技术只能进行观察和抽样。而大数据分析通常包括超过传统软件在有限时间及性能内能处理的数据量。

Current usage of the term ''big data'' tends to refer to the use of [[predictive analytics]], [[user behavior analytics]], or certain other advanced data analytics methods that extract [[Data valuation|value]] from big data, and seldom to a particular size of data set. "There is little doubt that the quantities of data now available are indeed large, but that's not the most relevant characteristic of this new data ecosystem."<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=Six Provocations for Big Data |journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi= 10.2139/ssrn.1926431|s2cid=148610111 |url=http://osf.io/nrjhn/ }}</ref>

第17行：第17行：

目前大数据这个术语的使用倾向于使用预测分析分析，用户行为分析，或者其他一些高级的数据分析方法，这些方法从大数据中提取价值，很少使用特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这不是这个新数据生态系统最相关的特征。”对数据集的分析可以发现与“现场业务趋势、预防疾病、打击犯罪等”的新关联。科学家、企业管理人员、医疗从业人员、广告业者和政府都经常遇到大型数据集的困难，这些数据集涉及互联网搜索、金融技术、医疗保健分析、地理信息系统、城市信息学和经济信息学。科学家在电子科学工作中遇到了一些限制，包括气象学、基因组学、连接组学、复杂的物理模拟、生物学和环境研究。

−

'''''【终译版】'''''“大数据”一词的当前用法倾向于指使用预测分析、用户行为分析或某些从大数据中提取价值的其他高级数据分析方法，很少涉及特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这不是这个新数据生态系统最相关的特征。”对数据集的分析可以发现“发现商业趋势、预防疾病、打击犯罪等”的新关联。在互联网搜索、金融科技、医疗分析、地理信息系统、城市信息学和商业信息学等领域，科学家、企业高管、医生、广告和政府都经常遇到使用大型数据集的困难。科学家在电子科学工作中遇到局限，包括气象学、基因组学、连接组学、复杂物理模拟、生物学和环境研究。

+

'''''【终译版】'''''“大数据”一词的当前用法倾向于指预测分析、用户行为分析或其他从大数据中提取价值的高级数据分析方法，很少涉及特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这并不是这个新数据生态系统最显著的特征。”对数据集的分析可以揭示“商业趋势、疾病预防、打击犯罪等”的新关联。在互联网搜索、金融科技、医疗分析、地理信息系统、城市信息学和商业信息学等领域，科学家、企业高管、医生、广告和政府都经常面对处理大型数据集的困难。科学家也在电子科学工作中遇到了局限，包括气象学、基因组学、连接组学、复杂物理模拟、生物学和环境研究。

The size and number of available data sets have grown rapidly as data is collected by devices such as [[mobile device]]s, cheap and numerous information-sensing [[Internet of things]] devices, aerial ([[remote sensing]]), software logs, [[Digital camera|cameras]], microphones, [[radio-frequency identification]] (RFID) readers and [[wireless sensor networks]].<ref>{{cite web |author= Hellerstein, Joe |title= Parallel Programming in the Age of Big Data |date= 9 November 2008 |work= Gigaom Blog |url= http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/}}</ref><ref>{{cite book |first1= Toby |last1= Segaran |first2= Jeff |last2= Hammerbacher |title= Beautiful Data: The Stories Behind Elegant Data Solutions |url= https://books.google.com/books?id=zxNglqU1FKgC |year= 2009 |publisher= O'Reilly Media |isbn= 978-0-596-15711-1 |page= 257}}</ref> The world's technological per-capita capacity to store information has roughly doubled every 40 months since the 1980s;<ref name="martinhilbert.net">{{cite journal | vauthors = Hilbert M, López P | title = The world's technological capacity to store, communicate, and compute information | journal = Science | volume = 332 | issue = 6025 | pages = 60–5 | date = April 2011 | pmid = 21310967 | doi = 10.1126/science.1200970 | url = http://www.uvm.edu/pdodds/files/papers/others/2011/hilbert2011a.pdf | bibcode = 2011Sci...332...60H | s2cid = 206531385 }}</ref> {{As of|2012|lc=on}}, every day 2.5 [[exabyte]]s (2.5×2<sup>60</sup> bytes) of data are generated.<ref>{{cite web|url= http://www.ibm.com/big-data/us/en/ |title= IBM What is big data? – Bringing big data to the enterprise |publisher= ibm.com |access-date= 26 August 2013}}</ref> Based on an [[International Data Corporation|IDC]] report prediction, the global data volume was predicted to grow exponentially from 4.4 [[zettabyte]]s to 44 zettabytes between 2013 and 2020. By 2025, IDC predicts there will be 163 zettabytes of data.<ref>{{Cite web| url=https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf| title=Data Age 2025: The Evolution of Data to Life-Critical|last1=Reinsel|first1=David|last2=Gantz|first2=John|date=13 April 2017|website=seagate.com|publisher=[[International Data Corporation]]|location=Framingham, MA, US|access-date=2 November 2017|last3=Rydning|first3=John}}</ref> One question for large enterprises is determining who should own big-data initiatives that affect the entire organization.<ref>Oracle and FSN, [http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity"] {{Webarchive|url=https://web.archive.org/web/20130804062518/http://www.fsn.co.uk/channel_bi_bpm_cpm/mastering_big_data_cfo_strategies_to_transform_insight_into_opportunity |date=4 August 2013 }}, December 2012</ref>

第25行：第25行：

随着移动设备、廉价且数量众多的信息感知物联网设备、天线(遥感)、软件日志、相机、麦克风、射频识别读取器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术容量大约每40个月翻一番; 每天产生2.5艾字节(2.5 × 260字节)的数据。根据 IDC 的报告预测，全球数据量将在2013年到2020年间成倍增长，从4.4 zettabytes 增长到44 zettabytes。国际数据公司预测，到2025年，将有163兆字节的数据。对于大型企业来说，一个问题是确定谁应该拥有影响整个组织的大数据计划。Oracle 和 FSN，“ Mastering Big Data: CFO Strategies to Transform Insight into Opportunity”，December 2012

−

'''''【终译版】'''''随着移动设备、廉价且数量众多的信息传感物联网设备、航空（遥感）、软件日志、摄像头、麦克风、射频识别（RFID）阅读器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术能力大约每40个月翻一番，每天生成2.5 ~~EB（2~~.~~5×260字节）的数据。根据IDC的一份报告预测，2013年至2020年间，全球数据量将从4~~.4 zettabytes呈指数增长至44 zettabytes。IDC预测，到2025年，数据量将达到163兆字节。大型企业面临的一个问题是，确定谁应该拥有影响整个组织的大数据计划。

+

'''''【终译版】'''''随着移动设备以及众多廉价的信息传感物联网设备、天线（遥感）、软件日志、相机、麦克风、射频识别（RFID）阅读器和无线传感器网络等设备收集数据，可用数据集的规模和数量在迅速增长。自20世纪80年代以来，世界人均存储信息的技术能力大约每40个月翻一番，每天约生成2.5 EB （Exabytes ）（2.5×2<sup>60</sup>字节）的数据。根据IDC的一份报告预测，2013年至2020年间，全球数据量将从4.4 ZB （zettabytes）呈指数增长至44 ZB （zettabytes）。IDC还预测，到2025年，数据量将达到163兆字节。因此大型企业正面临的问题是，谁应该开始计划覆盖全企业的大数据转型计划。

[[Relational database management system]]s and desktop statistical software packages used to visualize data often have difficulty processing and analyzing big data. The processing and analysis of big data may require "massively parallel software running on tens, hundreds, or even thousands of servers".<ref>{{cite web |author= Jacobs, A. |title= The Pathologies of Big Data |date= 6 July 2009 |work= ACMQueue |url= http://queue.acm.org/detail.cfm?id=1563874}}</ref> What qualifies as "big data" varies depending on the capabilities of those analyzing it and their tools. Furthermore, expanding capabilities make big data a moving target. "For some organizations, facing hundreds of [[gigabyte]]s of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration."<ref>{{cite journal|last1=Magoulas|first1=Roger|last2=Lorica|first2=Ben|date=February 2009|title=Introduction to Big Data|url=https://academics.uccs.edu/~ooluwada/courses/datamining/ExtraReading/BigData|journal=Release 2.0|location=Sebastopol CA|publisher=O'Reilly Media|issue=11}}</ref>

第33行：第33行：

用于数据可视化的关系数据库管理系统和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十、数百甚至数千台服务器上的大规模并行处理机软件”。什么是“大数据”取决于那些分析它的人和他们的工具的能力。此外，不断扩大的能力使得大数据成为一个移动的目标。”对于一些组织来说，第一次面对数百千兆字节的数据可能需要重新考虑数据管理选项。对于其他人来说，数据大小可能需要几十或几百万兆字节才能成为一个重要的考虑因素。”

−

'''''【终译版】'''''用于可视化数据的关系数据库管理系统和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十台、数百台甚至数千台服务器上的大规模并行软件”。什么是“大数据”取决于分析者及其工具的能力。此外，不断扩大的能力使大数据成为移动目标。“对于一些组织来说，首次面对数百GB的数据可能会引发重新考虑数据管理选项的需要。对于其他组织来说，可能需要数十或数百TB的数据大小才能成为重要的考虑因素。”

+

'''''【终译版】'''''用于可视化数据的关系型数据库管理系统（Relational Database Management Systems）和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十台、数百台甚至数千台服务器上的大规模软件”，“大数据”的具体定义取决于分析者及其工具的能力。此外，不断扩充数据的能力使大数据的定义也比较灵活。“对于一些组织来说，首次面对数百GB的数据可能就需要调整数据管理策略，而对于另一些组织来说，可能需要数十或数百TB的数据大小才需要这种改变。”

==Definition==

第46行：第46行：

= = 定义 = = 大数据这个术语从1990年代就开始使用了，有些人认为是约翰 · 马歇推广了这个术语。大数据通常包括大小超出常用软件工具能力的数据集，这些软件工具可以在可承受的时间内捕获、管理和处理数据。大数据哲学包括非结构化、半结构化和结构化数据，但主要关注的是非结构化数据数据。大数据“大小”是一个不断变化的目标; 从几十 tb 到许多 ztabytes 的数据不等。大数据需要一系列技术和新的集成形式，以揭示来自多样化、复杂和大规模数据集的洞察力。

−

'''''【终译版】'''''大数据这个词从20世纪90年代开始使用，一些人认为约翰·马西推广了这个词。大数据通常包括数据集，其大小超出了常用软件工具在可接受的时间内捕获、整理、管理和处理数据的能力。大数据理念包括非结构化、半结构化和结构化数据，但主要关注非结构化数据。大数据“规模”是一个不断移动的目标；从几十兆字节到许多兆字节的数据。大数据需要一套具有新的集成形式的技术和技术，以揭示来自多样化、复杂和大规模数据集的见解。

+

'''''【终译版】'''''大数据这个词从20世纪90年代开始使用，一些人认为是约翰·马西推广了这个词。大数据通常包括大小超出常用软件工具能力（在可承受的时间内捕获、管理和处理数据）的数据集。大数据包括非结构化、半结构化和结构化数据，但主要关注非结构化数据。大数据的“规模”是一个比较灵活的衡量标准；从几十兆字节到许多兆字节的数据。大数据需要一套具有新集成技术来处理多样化、复杂和大规模的数据集。

"Variety", "veracity", and various other "Vs" are added by some organizations to describe it, a revision challenged by some industry authorities.<ref>{{cite magazine|last=Grimes|first=Seth|title=Big Data: Avoid 'Wanna V' Confusion| url=http://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077|magazine=[[InformationWeek]]|access-date = 5 January 2016}}</ref> The Vs of big data were often referred to as the "three Vs", "four Vs", and "five Vs". They represented the qualities of big data in volume, variety, velocity, [[veracity (data)|veracity]], and value.<ref name=":0">{{Cite web|date=2016-09-17|title=The 5 V's of big data|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|access-date=2021-01-20|website=Watson Health Perspectives|language=en-US}}</ref> Variability is often included as an additional quality of big data.

第54行：第54行：

一些组织添加了“多样性”、“准确性”和其他各种“ v”来描述它，这个修订受到了一些行业权威的质疑。大数据 Vs 通常被称为“三个 Vs”、“四个 Vs”和“五个 Vs”。它们在数量、多样性、速度、准确性和价值等方面代表了大数据的特性。可变性通常作为大数据的附加质量被包括在内。

−

'''''【终译版】'''''一些组织增加了“多样性”、“准确性”和其他各种“V”来描述它，这一修订受到了一些行业权威的质疑。大数据的Vs通常被称为“三Vs”、“四Vs”和“五Vs”。它们代表了大数据的数量、多样性、速度、准确性和价值。可变性通常被视为大数据的额外质量。

+

'''''【终译版】'''''一些组织增加了“多样性”、“准确性”和其他各种“V”开头的字母来描述它，但这一修订受到了一些行业权威的质疑。大数据的V通常被称为三V、四V和V。它们代表了大数据的大数量、多样性、速度、准确性和价值（volume, variety, velocity, veracity, and value）。可变性通常被视为大数据的额外属性。

A 2018 definition states "Big data is where parallel computing tools are needed to handle data", and notes, "This represents a distinct and clearly defined change in the computer science used, via parallel programming theories, and losses of some of the guarantees and capabilities made by [[Relational database|Codd's relational model]]."<ref>{{Cite book|last=Fox|first=Charles|date=25 March 2018|title=Data Science for Transport| url=https://www.springer.com/us/book/9783319729527|publisher=Springer|isbn=9783319729527|series=Springer Textbooks in Earth Sciences, Geography and Environment}}</ref>

第62行：第62行：

2018年的一个定义指出“大数据是需要并行计算工具来处理数据的地方”，并指出，“这代表了通过并行编程理论使用的计算机科学发生了一个明显而清晰的变化，以及 Codd 的关系模型数据库所做出的一些保证和能力的丧失。”

−

'''''【终译版】'''''2018年的一项定义指出，“大数据是需要并行计算工具来处理数据的地方”，并指出，“这代表着所使用的计算机科学通过并行编程理论发生了明显而明确的变化，以及Codd的关系模型所提供的一些保证和能力的丧失。”

+

'''''【终译版】'''''2018年的一项定义指出，“大数据技术是需要并行计算工具来处理数据的”，并指出，“这代表了通过并行编程理论使用的计算机科学发生了一个明显而清晰的变化，以及丧失了Codd的关系型数据库的一些保障和功能。”

In a comparative study of big datasets, [[Rob Kitchin|Kitchin]] and McArdle found that none of the commonly considered characteristics of big data appear consistently across all of the analyzed cases.<ref>{{cite journal | last1 = Kitchin | first1 = Rob | last2 = McArdle | first2 = Gavin | year = 2016 | title = What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets | journal = Big Data & Society | volume = 3 | pages = 1–10 | doi = 10.1177/2053951716631130 | s2cid = 55539845 }}</ref> For this reason, other studies identified the redefinition of power dynamics in knowledge discovery as the defining trait.<ref>{{cite journal | last1 = Balazka | first1 = Dominik | last2 = Rodighiero | first2 = Dario | year = 2020 | title = Big Data and the Little Big Bang: An Epistemological (R)evolution | journal = Frontiers in Big Data | volume = 3 | page = 31 | doi = 10.3389/fdata.2020.00031 | pmid = 33693404 | pmc = 7931920 | hdl = 1721.1/128865 | hdl-access = free | doi-access = free }}</ref> Instead of focusing on intrinsic characteristics of big data, this alternative perspective pushes forward a relational understanding of the object claiming that what matters is the way in which data is collected, stored, made available and analyzed.

第70行：第70行：

在对大数据集的比较研究中，Kitchin 和 McArdle 发现，在所有分析的案例中，大数据通常被认为的特征没有一个是一致的。因此，其他研究将知识发现中权力动力学的重新定义确定为知识发现的定义特征。这种不同的视角不是关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据收集、存储、提供和分析的方式。

−

'''''~~【终译版】~~'''''在一项大数据集的对比研究中，Kitchin和McArdle发现，在所有分析的案例中，大数据的所有常见特征都不一致。因此，其他研究将知识发现中权力动力的重新定义确定为定义特征。这种另类视角没有关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据的收集、存储、可用和分析方式。

+

'''''【终译版】。'''''在一项大数据集的对比研究中，Kitchin和McArdle发现，在所有分析案例中，大数据的常见特征并不都一致。因此，其他研究将知识发现中权力动力学的重新定义确定为知识发现的定义特征。这种另类视角没有关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据的收集、存储、可用和分析方式。

=== Big data vs. business intelligence ===

+

=== 大数据Vs商业智能 ===

The growing maturity of the concept more starkly delineates the difference between "big data" and "[[business intelligence]]":<ref>{{cite web| url =http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4 |format=PDF|title=avec focalisation sur Big Data & Analytique |website=Bigdataparis.com|access-date=8 October 2017}}</ref>

* Business intelligence uses applied mathematics tools and [[descriptive statistics]] with data with high information density to measure things, detect trends, etc.

第88行：第90行：

这个概念的日益成熟更鲜明地描绘了“大数据”和“商业智能”之间的区别:

* 商业智能使用应用数学工具和描述性统计以及高信息密度的数据来衡量事物、检测趋势等。

−

* 大数据使用数学分析、优化、归纳统计和非线性系统识别Billings S.A.“非线性系统识别：时间、频率和时空域的NARMAX方法”中的概念。Wiley，2013，从低信息密度的大数据集推断规律（回归、非线性关系和因果效应），以揭示关系和相关性，或对结果和行为进行预测。

+

* 大数据使用数学分析、优化、归纳统计和非线性系统识别从低信息密度的大数据集推断规律（回归、非线性关系和因果效应），以揭示关系和相关性，或对结果和行为进行预测。

==Characteristics==

[[File: Big Data.png|thumb|Shows the growth of big data's primary characteristics of volume, velocity, and variety.显示大数据在数量、速度和变化方面的主要特征大数据可以用以下特征来描述:|链接=Special:FilePath/Big_Data.png]]

第168行：第170行：

大数据的格式、结构或来源不断变化的特点。大数据可以包括结构化、非结构化或结构化与非结构化数据的组合。大数据分析可以整合来自多个来源的原始数据。原始数据的处理还可能涉及将非结构化数据转换为结构化数据。

−

''大数据的其他可能特征包括：''

L（吕奥博）

35

个编辑

更改

大数据 (查看源代码)

2022年2月6日 (日) 21:24的版本

导航菜单

搜索