更改

大数据 (查看源代码)

2022年1月27日 (四) 10:17的版本

添加41,788字节、 2022年1月27日 (四) 10:17

V0.2_20220127_格式+初步翻译

第7行：第7行：

大数据是一个研究如何分析、系统地从中提取信息或以其他方式处理传统数据处理应用软件无法处理的过于庞大或复杂的数据集的领域。具有多个字段(列)的数据提供了更强的统计能力，而具有更高复杂性(更多属性或列)的数据可能导致更高的错误发现率。大数据分析面临的挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关: 数量、多样性和速度。大数据的分析在取样方面提出了挑战，因此以前只允许观测和取样。因此，大数据通常包含的数据大小超过了传统软件在可接受的时间和价值内处理的能力。

−

+

'''''【终译版】'''''大数据是一个研究如何分析、系统地从中提取信息或以其他方式处理传统数据处理应用软件无法处理的太大或太复杂的数据集的领域。具有多个字段（列）的数据提供了更大的统计能力，而具有更高复杂性（更多属性或列）的数据可能会导致更高的错误发现率。大数据分析挑战包括捕获数据、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。大数据最初与三个关键概念有关：容量、多样性和速度。大数据分析在抽样方面存在挑战，因此以前只允许进行观察和抽样。因此，大数据通常包括超过传统软件在可接受的时间和价值内处理能力的数据。

−

'''''【终译版】'''''。

−

。

Current usage of the term ''big data'' tends to refer to the use of [[predictive analytics]], [[user behavior analytics]], or certain other advanced data analytics methods that extract [[Data valuation|value]] from big data, and seldom to a particular size of data set. "There is little doubt that the quantities of data now available are indeed large, but that's not the most relevant characteristic of this new data ecosystem."<ref>{{cite journal |last1=boyd |first1=dana |last2=Crawford |first2=Kate |title=Six Provocations for Big Data |journal=Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society |date=21 September 2011 |doi= 10.2139/ssrn.1926431|s2cid=148610111 |url=http://osf.io/nrjhn/ }}</ref>

第21行：第18行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''“大数据”一词的当前用法倾向于指使用预测分析、用户行为分析或某些从大数据中提取价值的其他高级数据分析方法，很少涉及特定规模的数据集。“毫无疑问，现在可用的数据量确实很大，但这不是这个新数据生态系统最相关的特征。”对数据集的分析可以发现“发现商业趋势、预防疾病、打击犯罪等”的新关联。在互联网搜索、金融科技、医疗分析、地理信息系统、城市信息学和商业信息学等领域，科学家、企业高管、医生、广告和政府都经常遇到使用大型数据集的困难。科学家在电子科学工作中遇到局限，包括气象学、基因组学、连接组学、复杂物理模拟、生物学和环境研究。

。

第32行：第30行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''随着移动设备、廉价且数量众多的信息传感物联网设备、航空（遥感）、软件日志、摄像头、麦克风、射频识别（RFID）阅读器和无线传感器网络等设备收集数据，可用数据集的规模和数量迅速增长。自20世纪80年代以来，世界人均存储信息的技术能力大约每40个月翻一番，每天生成2.5 EB（2.5×260字节）的数据。根据IDC的一份报告预测，2013年至2020年间，全球数据量将从4.4 zettabytes呈指数增长至44 zettabytes。IDC预测，到2025年，数据量将达到163兆字节。大型企业面临的一个问题是，确定谁应该拥有影响整个组织的大数据计划。甲骨文和FSN，“掌握大数据：将洞察力转化为机遇的首席财务官战略”，2012年12月

。

第43行：第42行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''用于可视化数据的关系数据库管理系统和桌面统计软件包通常难以处理和分析大数据。大数据的处理和分析可能需要“运行在数十台、数百台甚至数千台服务器上的大规模并行软件”。什么是“大数据”取决于分析者及其工具的能力。此外，不断扩大的能力使大数据成为移动目标。“对于一些组织来说，首次面对数百GB的数据可能会引发重新考虑数据管理选项的需要。对于其他组织来说，可能需要数十或数百TB的数据大小才能成为重要的考虑因素。”

。

第59行：第59行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据这个词从20世纪90年代开始使用，一些人认为约翰·马西推广了这个词。大数据通常包括数据集，其大小超出了常用软件工具在可接受的时间内捕获、整理、管理和处理数据的能力。大数据理念包括非结构化、半结构化和结构化数据，但主要关注非结构化数据。大数据“规模”是一个不断移动的目标；从几十兆字节到许多兆字节的数据。大数据需要一套具有新的集成形式的技术和技术，以揭示来自多样化、复杂和大规模数据集的见解。

。

第70行：第71行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''一些组织增加了“多样性”、“准确性”和其他各种“V”来描述它，这一修订受到了一些行业权威的质疑。大数据的Vs通常被称为“三Vs”、“四Vs”和“五Vs”。它们代表了大数据的数量、多样性、速度、准确性和价值。可变性通常被视为大数据的额外质量。

。

第81行：第83行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''2018年的一项定义指出，“大数据是需要并行计算工具来处理数据的地方”，并指出，“这代表着所使用的计算机科学通过并行编程理论发生了明显而明确的变化，以及Codd的关系模型所提供的一些保证和能力的丧失。”

。

第92行：第95行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''在一项大数据集的对比研究中，Kitchin和McArdle发现，在所有分析的案例中，大数据的所有常见特征都不一致。因此，其他研究将知识发现中权力动力的重新定义确定为定义特征。这种另类视角没有关注大数据的内在特征，而是推动了对对象的关系理解，声称重要的是数据的收集、存储、可用和分析方式。

。

第110行：第114行： −

~~'''''【终译版】'''''。~~

+

'''''【终译版】'''''

+

这个概念的日益成熟更鲜明地描绘了“大数据”和“商业智能”之间的区别:

+

* 商业智能使用应用数学工具和描述性统计以及高信息密度的数据来衡量事物、检测趋势等。

+

* 大数据使用数学分析、优化、归纳统计和非线性系统识别Billings S.A.“非线性系统识别：时间、频率和时空域的NARMAX方法”中的概念。Wiley，2013，从低信息密度的大数据集推断规律（回归、非线性关系和因果效应），以揭示关系和相关性，或对结果和行为进行预测。

。

第165行：第173行：

可扩展性: 如果大数据存储系统的规模能够迅速扩大。

+

'''''【终译版】'''''

+

''大数据可以用以下特征来描述：''

+

'''数据量'''

+

生成和存储的数据量。数据的大小决定了价值和潜在洞察力，以及它是否可以被视为大数据。大数据的大小通常大于TB和PB。

+

'''多样性'''

+

数据的类型和性质。像RDBMS这样的早期技术能够高效地处理结构化数据。然而，从结构化到半结构化或非结构化的类型和性质的变化对现有的工具和技术提出了挑战。大数据技术的发展初衷是捕获、存储和处理以高速（速度）和巨大（体积）生成的半结构化和非结构化（种类）数据。后来，这些工具和技术也被用于处理结构化数据，但更适合用于存储。最终，结构化数据的处理仍然是可选的，可以使用大数据，也可以使用传统的RDBMS。这有助于分析数据，以有效利用通过社交媒体、日志文件、传感器等收集的数据中暴露出来的隐藏见解。大数据来自文本、图像、音频和视频；此外，它还通过数据融合完成缺失的部分。

+

'''高速度'''

+

数据生成和处理的速度，以满足增长和发展道路上的需求和挑战。大数据通常是实时可用的。与小数据相比，大数据的产生更加持续。与大数据相关的两种速度是生成频率和处理、记录和发布频率。

+

'''真实性'''

+

数据的真实性或可靠性，指数据质量和数据价值。大数据不仅必须是大数据，而且必须是可靠的，以便在分析中实现价值。捕获数据的数据质量可能会有很大差异，从而影响准确的分析。

+

'''价值性'''

+

通过处理和分析大型数据集可以获得的信息价值。价值也可以通过评估大数据的其他质量来衡量。价值也可能代表从大数据分析中获取的信息的盈利能力。

+

'''易变性'''

+

大数据的格式、结构或来源不断变化的特点。大数据可以包括结构化、非结构化或结构化与非结构化数据的组合。大数据分析可以整合来自多个来源的原始数据。原始数据的处理还可能涉及将非结构化数据转换为结构化数据。

+

''大数据的其他可能特征包括：''

+

'''详尽性'''

+

是否捕获或记录整个系统（即n=all）。大数据可能包括也可能不包括所有来源的可用数据。

+

'''细粒度和独特的词汇'''

+

每个元素的特定数据在每个元素中所占的比例，以及元素及其特征是否被正确索引或识别。

+

'''关系的'''

+

如果收集的数据包含公共字段，则可以对不同的数据集进行连接或元分析。

+

'''延展性'''

+

如果可以轻松添加或更改所收集数据的每个元素中的新字段。

+

'''可扩展性'''

+

如果大数据存储系统的规模能够迅速扩大。

==Architecture==

第177行：第235行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据存储库以多种形式存在，通常由有特殊需求的公司建立。从20世纪90年代开始，商业供应商就开始为大数据提供并行数据库管理系统。多年来，WinterCorp发布了最大的数据库报告。

。

第188行：第247行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''Teradata Corporation于1984年推出了并行处理DBC 1012系统。1992年，Teradata系统是第一个存储和分析1TB数据的系统。1991年硬盘驱动器为2.5GB，因此大数据的定义不断演变。Teradata于2007年安装了第一个基于PB级RDBMS的系统，安装了几十个PB级的Teradata关系数据库，其中最大的超过50PB。直到2008年，系统都是100%结构化的关系数据。从那时起，Teradata添加了非结构化数据类型，包括XML、JSON和Avro。

。

第199行：第259行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''2000年，Seisint Inc.（现为LexisNexis Risk Solutions）开发了一个基于C++的分布式数据处理和查询平台，称为HPCC系统平台。该系统可以跨多个商品服务器自动划分、分发、存储和交付结构化、半结构化和非结构化数据。用户可以用一种称为ECL的声明性数据流编程语言编写数据处理管道和查询。在ECL工作的数据分析师不需要预先定义数据模式，而是可以专注于手头的特定问题，在开发解决方案时以最佳方式重塑数据。2004年，LexisNexis收购了Seisint Inc.及其高速并行处理平台，并在2008年收购Choicepoint Inc.时成功利用该平台集成了该公司的数据系统。《华盛顿邮报》2011年报道，HPCC系统平台在Apache v2下是开源的。0许可证。

。

第210行：第271行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''欧洲核子研究中心（CERN）和其他物理实验几十年来一直在收集大数据集，这些数据集通常是通过高通量计算进行分析的，而不是当前“大数据”运动通常指的map-reduce体系结构。

。

第221行：第283行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''2004年，谷歌发表了一篇关于MapReduce流程的论文，该流程使用了类似的架构。MapReduce概念提供了一个并行处理模型，并发布了一个相关的实现来处理大量数据。使用MapReduce，查询被拆分并分布在并行节点上，并进行并行处理（“映射”步骤）。然后收集并交付结果（“减少”步骤）。该框架非常成功，Bertolucci，Jeff，“Hadoop：从实验到领先的大数据平台”，“信息周”，2013年。2013年11月14日检索。所以其他人想复制这个算法。因此，一个名为“Hadoop”的Apache开源项目采用了MapReduce框架的实现。韦伯斯特，约翰。“MapReduce：大型集群上的简化数据处理”，“搜索存储”，2004年。2013年3月25日检索。ApacheSpark是在2012年针对MapReduce范例中的局限性开发的，因为它增加了设置许多操作的能力（而不仅仅是map之后的Reduce）。

。

第232行：第295行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''迈克。0是一种开放的信息管理方法，它承认由于在一篇题为“大数据解决方案提供”的文章中指出的大数据影响，需要进行修订。该方法从数据源的有用排列、相互关系的复杂性以及删除（或修改）单个记录的难度等方面处理大数据。

。

第243行：第307行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''2012年的研究表明，多层架构是解决大数据带来的问题的一种选择。分布式并行体系结构将数据分布在多个服务器上；这些并行执行环境可以显著提高数据处理速度。这种类型的体系结构将数据插入到并行DBMS中，后者实现了MapReduce和Hadoop框架的使用。这种类型的框架希望通过使用前端应用服务器，使处理能力对最终用户透明。

。

第254行：第319行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''数据湖允许组织将其重点从集中控制转移到共享模型，以响应信息管理不断变化的动态。这样可以将数据快速分离到数据池中，从而减少开销时间。

。

第274行：第340行：

* 可视化，如图表、图形和其他数据显示

−

+

'''''【终译版】'''''麦肯锡全球研究所（McKinsey Global Institute）2011年的一份报告将大数据的主要组成部分和生态系统描述如下:

−

'''''【终译版】'''''。

+

* 分析数据的技术，如A/B测试、机器学习和自然语言处理

−

+

* 大数据技术，如商业智能、云计算和数据库

+

* 可视化，如图表、图表和其他数据显示

。

第288行：第355行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''多维大数据也可以表示为OLAP数据立方体或数学上的张量。阵列数据库系统已经开始提供这种数据类型的存储和高级查询支持。应用于大数据的其他技术包括基于张量的高效计算，如多线性子空间学习、大规模并行处理（MPP）数据库、基于搜索的应用、数据挖掘、分布式文件系统、分布式缓存（如burst buffer和Memcached）、分布式数据库、，基于云和HPC的基础设施（应用程序、存储和计算资源）以及互联网。尽管已经开发了许多方法和技术，但使用大数据进行机器学习仍然很困难。

。

第299行：第367行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''一些MPP关系数据库能够存储和管理数PB的数据。隐式是加载、监视、备份和优化RDBMS中大型数据表使用的能力。

。

第310行：第379行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''DARPA的拓扑数据分析项目寻求海量数据集的基本结构，2008年，这项技术随着一家名为“Ayasdi”的公司的成立而上市。

。

第321行：第391行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据分析流程的从业者通常不喜欢速度较慢的共享存储，他们更喜欢各种形式的直连存储（DAS），从固态驱动器（SSD）到埋入并行处理节点中的高容量SATA磁盘。共享存储体系结构存储区域网络（SAN）和网络连接存储（NAS）的概念是它们相对缓慢、复杂且昂贵。这些品质与依赖系统性能、商品基础设施和低成本的大数据分析系统不一致。

。

第332行：第403行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''实时或近实时信息交付是大数据分析的定义特征之一。因此，无论何时何地都可以避免延迟。直连内存或磁盘中的数据是良好的FC SAN连接另一端的内存或磁盘中的数据不是。分析应用程序所需规模的SAN的成本比其他存储技术高得多。

。

第344行：第416行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。大数据极大地增加了对信息管理专家的需求，以至于Software AG、Oracle Corporation、IBM、Microsoft、SAP、EMC、HP和Dell在专门从事数据管理和分析的软件公司上花费了150多亿美元。2010年，这个行业的价值超过1000亿美元，并以每年近10%的速度增长：大约是整个软件业务的两倍。

。

第355行：第427行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。发达经济体越来越多地使用数据密集型技术。全世界有46亿手机用户，有10亿到20亿人上网。从1990年到2005年，全世界有超过10亿人进入中产阶级，这意味着更多的人变得更识字，这反过来又导致了信息的增长。1986年，世界通过电信网络交换信息的有效容量为281 PB，1993年为471 PB，2000年为2.2 EB，2007年为65 EB。据预测，到2014年，互联网流量将达到每年667 EB。据估计，全球存储信息的三分之一是字母数字文本和静态图像数据，这是大多数大数据应用最有用的格式。这也显示了尚未使用的数据（即以视频和音频内容的形式）的潜力。

。

第366行：第438行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。虽然许多供应商为大数据提供现成的产品，但如果公司有足够的技术能力，专家会推动内部定制系统的开发。

。

第378行：第450行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。在政府流程中使用和采用大数据可以提高成本、生产率和创新效率，但也并非没有缺陷。数据分析通常需要政府的多个部门（中央和地方）合作，创建新的创新流程，以实现预期结果。国家安全局（NSA）是一个利用大数据的常见政府组织，它不断监控互联网的活动，寻找其系统可能发现的可疑或非法活动的潜在模式。

。

第389行：第461行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。民事登记和人口动态统计（CRVS）收集从出生到死亡的所有身份证明。CRV是政府大数据的来源。

。

第401行：第473行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。关于有效利用信息和通信技术促进发展（也称为“ICT4D”）的研究表明，大数据技术可以做出重要贡献，但也对国际发展提出了独特的挑战。大数据分析的进步为改善关键发展领域的决策提供了成本效益高的机会，如医疗保健、就业、经济生产率、犯罪、安全、自然灾害和资源管理。此外，用户生成的数据提供了新的机会，让闻所未闻的声音。然而，发展中地区面临的长期挑战，如技术基础设施不足、经济和人力资源匮乏，加剧了对大数据的现有担忧，如隐私、不完善的方法和互操作性问题。“大数据促进发展”的挑战目前正朝着通过机器学习应用这些数据的方向发展，称为“人工智能促进发展”（AI4D）。Mann，S.，和Hilbert，M.（2020）。AI4D：人工智能促进发展。国际通讯杂志，14（0），21。<nowiki>https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/</nowiki>

。

第426行：第498行：

'''''【终译版】'''''。

+

大数据促进发展的一个主要实际应用是“用数据战胜贫困”。2015年，Blumenstock及其同事通过手机元数据预测贫困和财富，2016年Jean及其同事结合卫星图像和机器学习预测贫困。Hilbert及其同事利用数字跟踪数据研究拉丁美洲的劳动力市场和数字经济，认为数字跟踪数据有以下几个好处：

+

专题报道：包括以前难以或无法衡量的领域

+

地理覆盖范围：我们的国际来源提供了几乎所有国家的大量可比数据，包括许多通常不包括在国际清单中的小国

+

详细级别：提供具有许多相关变量和新方面（如网络连接）的细粒度数据

+

及时性和时间序列：图表可以在收集后的几天内生成

。

第450行：第532行：

'''''【终译版】'''''。

+

同时，使用数字跟踪数据而不是传统调查数据并不能消除在国际定量分析领域工作时所面临的传统挑战。优先事项会发生变化，但基本的讨论仍然是一样的。主要挑战包括：

+

代表性。虽然传统的发展统计主要关注随机调查样本的代表性，但数字跟踪数据绝不是随机样本。

+

普遍性。虽然观测数据总是很好地代表了这个来源，但它只代表了它所代表的东西，仅此而已。虽然从一个平台的具体观察概括到更广泛的环境是很有诱惑力的，但这通常是非常具有欺骗性的。

+

协调。数字跟踪数据仍然需要国际指标的协调。它增加了所谓“数据融合”的挑战，即不同来源的协调。

+

数据过载。分析师和机构不习惯有效地处理大量变量，这是通过交互式仪表盘有效地完成的。从业者仍然缺乏一个标准的工作流程，使研究人员、用户和决策者能够高效、高效地执行任务。

。

第462行：第554行：

'''''【终译版】'''''。

+

大数据分析通过提供个性化医疗和处方分析、临床风险干预和预测分析、减少废物和护理变异性、患者数据的自动外部和内部报告、标准化医疗术语和患者登记，被用于医疗保健。有些领域的改进更具抱负，而不是实际实施。医疗保健系统内生成的数据水平并非微不足道。随着mHealth、eHealth和可穿戴技术的进一步采用，数据量将继续增加。这包括电子健康记录数据、成像数据、患者生成的数据、传感器数据和其他难以处理的数据。现在，这种环境更加需要关注数据和信息质量。“大数据通常意味着‘脏数据’，数据不准确的比例随着数据量的增长而增加。”在大数据范围内进行人体检查是不可能的，卫生服务部门迫切需要智能工具来准确、可信地控制和处理丢失的信息。虽然医疗保健领域的大量信息现在是电子化的，但它符合大数据的要求，因为大多数信息都是非结构化的，难以使用。在医疗保健领域使用大数据带来了重大的道德挑战，从个人权利、隐私和自主权的风险，到透明度和信任。

。

第492行：第586行：

'''''【终译版】'''''。

+

医疗领域中一个严重依赖大数据的相关应用子领域是医学中的计算机辅助诊断。例如，对于癫痫监测，通常每天创建5到10GB的数据。类似地，一张未压缩的乳房断层合成图像的平均数据量为450 MB。这些只是计算机辅助诊断使用大数据的众多例子中的一小部分。因此，大数据被认为是计算机辅助诊断系统需要克服的七大关键挑战之一，以达到下一个性能水平。

。

第515行：第611行：

'''''【终译版】'''''。

+

麦肯锡全球研究所发现，150万名训练有素的数据专家和管理人员短缺，包括田纳西大学和加州大学伯克利分校在内的一些大学已经建立了硕士课程来满足这一需求。私营新兵训练营也开发了一些项目来满足这一需求，包括数据孵化器等免费项目或大会等付费项目。在营销的特定领域，Wedel和Kannan强调的一个问题是，营销有几个子领域（例如广告、促销、产品开发、品牌推广），它们都使用不同类型的数据。

。

第535行：第633行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''。为了理解媒体如何使用大数据，首先需要为媒体处理所使用的机制提供一些上下文。尼克·库尔德利（Nick Couldry）和约瑟夫·图罗（Joseph Turow）曾建议，媒体和广告从业者在处理大数据时，应尽可能多地处理数百万个人的可操作信息点。该行业似乎正在摆脱使用特定媒体环境（如报纸、杂志或电视节目）的传统方式，转而利用技术在最佳时间、最佳地点接触目标人群，以吸引消费者。最终目的是提供或传达（从统计学上讲）符合消费者心态的信息或内容。例如，发布环境越来越多地定制消息（广告）和内容（文章），以吸引专门通过各种数据挖掘活动收集的消费者。

+

以消费者为目标（针对营销人员的广告）

+

数据捕获

+

数据新闻：出版商和记者使用大数据工具提供独特和创新的见解和信息图表。

[[Channel 4]], the British [[Public service broadcasting in the United Kingdom|public-service]] television broadcaster, is a leader in the field of big data and [[data analysis]].<ref>{{cite web|url=https://www.ibc.org/tech-advances/big-data-and-analytics-c4-and-genius-digital/1076.article |title=Big data and analytics: C4 and Genius Digital|website=Ibc.org |access-date=8 October 2017}}</ref>

第543行：第647行：

英国公共服务电视广播公司第四频道是大数据和数据分析领域的领导者。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''。英国公共服务电视广播公司第四频道是大数据和数据分析领域的领导者。

===Insurance===

第552行：第656行：

= = = = 医疗保险提供者正在收集关于诸如食物和电视消费、婚姻状况、衣服尺寸和购买习惯等社会”健康决定因素”的数据，从而对医疗费用进行预测，以便发现客户的健康问题。这些预测目前是否被用于定价还存在争议。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''。健康保险提供商正在收集有关社会“健康决定因素”的数据，如食品和电视消费、婚姻状况、服装尺寸和购买习惯，并根据这些数据预测健康成本，以便发现客户的健康问题。目前，这些预测是否用于定价还存在争议。

===Internet of things (IoT)===

第564行：第668行：

'''''【终译版】'''''。

+

大数据和物联网协同工作。从物联网设备提取的数据提供了设备间连接的映射。媒体行业、公司和政府已经使用这种映射来更准确地定位受众并提高媒体效率。物联网也越来越多地被用作收集感官数据的手段，这种感官数据已被用于医疗、制造和运输环境。

[[Kevin Ashton]], the digital innovation expert who is credited with coining the term,<ref>{{cite web|url=http://www.rfidjournal.com/articles/view?4986|title=That Internet Of Things Thing.}}</ref> defines the Internet of things in this quote: "If we had computers that knew everything there was to know about things—using data they gathered without any help from us—we would be able to track and count everything, and greatly reduce waste, loss, and cost. We would know when things needed replacing, repairing, or recalling, and whether they were fresh or past their best."

第571行：第677行：

数字创新专家凯文 · 阿什顿(Kevin Ashton)被誉为“物联网”(Internet of things)的创始人，他在这句话中给物联网下了这样的定义: “如果我们有一台了解一切的计算机——在没有我们帮助的情况下使用它们收集的数据——我们就能够跟踪和计算一切，大大减少浪费、损失和成本。”。我们会知道什么时候需要更换、修理或回收，以及这些东西是新的还是过时的。”

−

'''''【终译版】'''''。

+

'''''【终译版】'''''。数字创新专家凯文·阿什顿（Kevin Ashton）创造了这个词，在这句话中定义了物联网：“如果我们有一台计算机，它知道所有关于事物的知识，使用它们在没有我们任何帮助的情况下收集的数据，我们将能够跟踪和计算所有东西，并大大减少浪费、损失和成本。我们将知道什么时候需要更换、修理或召回，以及它们是新鲜的还是过时的。”

===Information technology===

第580行：第686行：

= = = 信息技术 = = = 特别是自2015年以来，大数据作为帮助雇员提高工作效率和简化信息技术的收集和分发的一种工具，在企业运作中日益受到重视。使用大数据来解决企业内部的 IT 和数据收集问题被称为 IT 操作分析(ITOA)。通过将大数据原理应用到机器智能和深度计算的概念中，IT 部门可以预测潜在的问题并预防它们。ITOA 企业提供系统管理平台，将数据竖井集中在一起，从整个系统而不是从孤立的数据块中产生见解。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''。特别是自2015年以来，大数据作为一种帮助员工更高效地工作并简化信息技术（IT）收集和分发的工具，在企业运营中日益突出。利用大数据解决企业内部的IT和数据收集问题称为IT运营分析（ITOA）。通过将大数据原理应用到机器智能和深度计算的概念中，IT部门可以预测潜在问题并加以预防。ITOA企业提供系统管理平台，将数据仓库整合在一起，从整个系统而不是从孤立的数据包中产生见解。

==Case studies==

第695行：第801行：

* 23andme 的 DNA 数据库包含了全世界超过100万人的基因信息。如果患者表示同意，该公司将向其他研究人员和制药公司出售“匿名聚合的基因数据”，用于研究目的。杜克大学心理学和神经科学教授艾哈迈德 · 哈里里自2009年以来一直在他的研究中使用23andme。一项在23andme 的数据库中确定了15个与抑郁症有关的基因组位点的研究导致了访问该数据库的需求激增，在论文发表后的两周内，23andMe 收到了近20个访问抑郁症数据的请求。

* 计算流体力学和水动力湍流研究产生大量数据集。约翰霍普金斯湍流数据库(JHTDB)包含来自各种湍流流动的直接数值模拟的超过350tb 的时空场。使用传统方法(如下载平面模拟输出文件)很难共享这些数据。JHTDB 内的数据可以通过“虚拟传感器”访问，访问方式多种多样，从直接的网络浏览器查询、通过 Matlab、 Python、 Fortran 和在客户平台上执行的 c 程序访问，到切断下载原始数据的服务。这些数据已在150多份科学出版物中得到应用。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

+

大型强子对撞机的实验代表了大约1.5亿个传感器每秒传送4000万次数据。每秒有近6亿次碰撞。在过滤并避免记录超过99.99995%的流之后，每秒有1000次感兴趣的碰撞。

+

因此，仅使用不到0.001%的传感器流数据，所有四个LHC实验的数据流在复制前代表25 PB的年速率（）。复制后，这将变成近200 PB。

+

如果所有传感器数据都记录在LHC中，数据流将非常难以处理。在复制之前，数据流的年速率将超过1.5亿PB，即每天近500 EB。从长远来看，这个数字相当于每天500五百万（5×1020）字节，几乎是世界上所有其他数据源总和的200倍。

+

平方公里的阵列是一个由数千根天线组成的射电望远镜。预计将于2024年投入使用。这些天线的总容量预计为14 EB，每天存储1 PB。它被认为是有史以来最雄心勃勃的科学项目之一。

+

斯隆数字天空测量（SDSS）在2000年开始收集天文数据时，它在最初几周收集的数据比之前天文学史上收集的所有数据都多。SDS以每晚约200 GB的速度运行，已经积累了超过140 TB的信息。当SDSS的后继者大型天气观测望远镜在2020年上线时，其设计者预计它将每五天获取如此数量的数据。

+

解码人类基因组最初需要10年的时间；现在不到一天就可以实现。在过去十年中，DNA测序仪将测序成本除以10000，比摩尔定律预测的成本降低100倍。

+

美国国家航空航天局气候模拟中心（NCCS）在探索超级计算集群上存储了32 PB的气候观测和模拟数据。

+

谷歌的DNAStack对来自世界各地的基因数据的DNA样本进行编译和组织，以识别疾病和其他医疗缺陷。这些快速而精确的计算消除了任何“摩擦点”，或是众多研究DNA的科学和生物学专家中可能出现的人为错误。DNAStack是谷歌基因组学的一部分，它允许科学家使用谷歌搜索服务器上的大量资源样本来扩展通常需要数年时间的社会实验。

+

23andme的DNA数据库包含全世界100多万人的基因信息。该公司探索在患者同意的情况下，将“匿名聚合基因数据”出售给其他研究人员和制药公司用于研究目的。杜克大学（Duke University）心理学和神经科学教授艾哈迈德·哈里里（Ahmad Hariri）自2009年以来一直在使用23andMe进行研究。他表示，该公司新服务的最重要方面是，它使科学家可以进行基因研究，而且成本相对较低。一项研究在23andMe的数据库中确定了15个与抑郁症相关的基因组位点，导致访问存储库的需求激增，23andMe在论文发表后的两周内提出了近20个访问抑郁症数据的请求。

+

计算流体力学（CFD）和流体动力湍流研究产生了大量数据集。约翰·霍普金斯湍流数据库（JHTDB）包含超过350 TB的时空场，这些场来自各种湍流的直接数值模拟。使用下载平面模拟输出文件等传统方法很难共享此类数据。JHTDB中的数据可以使用“虚拟传感器”进行访问，其访问模式多种多样，从直接网络浏览器查询、通过在客户平台上执行的Matlab、Python、Fortran和C程序进行访问，到切断服务下载原始数据。这些数据已用于150多份科学出版物。

===Sports===

第708行：第834行：

使用运动传感器，大数据可以用来改进训练和了解竞争对手。使用大数据分析也可以预测比赛中的胜利者。未来玩家的表现也可以预测。因此，球员的价值和薪水是由整个赛季收集的数据决定的。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据可以通过运动传感器来改善训练和了解竞争对手。还可以使用大数据分析预测比赛的赢家。球员未来的表现也可以预测。因此，球员的价值和薪水是由整个赛季收集的数据决定的。

+

.

In Formula One races, race cars with hundreds of sensors generate terabytes of data. These sensors collect data points from tire pressure to fuel burn efficiency.<ref>{{cite web|url=https://www.huffingtonpost.com/dave-ryan/sports-where-big-data-fin_b_8553884.html|title= Sports: Where Big Data Finally Makes Sense |author=Dave Ryan| work=huffingtonpost.com |date= 13 November 2015 |access-date=12 December 2015}}</ref>

第718行：第846行：

在一级方程式赛车比赛中，装有数百个传感器的赛车会产生太字节的数据。这些传感器收集数据点从轮胎压力到燃料燃烧效率。根据这些数据，工程师和数据分析师决定是否应该做出调整以赢得比赛。此外，通过使用大数据，比赛团队试图预测他们将提前完成比赛的时间，基于整个赛季收集的数据进行模拟。

−

+

'''''【终译版】'''''在一级方程式赛车比赛中，装有数百个传感器的赛车会产生TB的数据。这些传感器收集从轮胎压力到燃油燃烧效率的数据点。根据这些数据，工程师和数据分析师决定是否应该进行调整以赢得比赛。此外，使用大数据，比赛团队试图根据赛季收集的数据进行模拟，预测他们将提前完成比赛的时间。

−

'''''【终译版】'''''。

===Technology===

第738行：第865行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''

+

易趣网。com使用两个7.5 PB和40PB的数据仓库，以及一个40PB的Hadoop集群来进行搜索、消费者推荐和商品销售。

+

亚马逊。com每天处理数以百万计的后端操作，以及来自50多万第三方卖家的查询。保持亚马逊运行的核心技术是基于Linux的，他们拥有世界上三大Linux数据库，容量分别为7.8 TB、18.5 TB和24.7 TB。

+

Facebook从其用户群中处理500亿张照片，Facebook每月有20亿活跃用户。

+

谷歌每月处理大约1000亿次搜索。

===COVID-19===

第747行：第883行：

在2019冠状病毒疾病流行期间，大数据被作为一种将疾病影响降到最低的方法而被提出来。在2019冠状病毒疾病流行期间，大数据被作为一种将疾病影响降到最低的方法。大数据的重要应用包括最大限度地减少病毒的传播、病例识别和医疗发展。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''在2019冠状病毒疾病流行期间，大数据被认为是减少疾病影响的一种方法。大数据的重要应用包括最小化病毒传播、病例识别和医疗发展。

Governments used big data to track infected people to minimise spread. Early adopters included China, Taiwan, South Korea, and Israel.<ref>{{cite news |last1=Manancourt |first1=Vincent |title=Coronavirus tests Europe's resolve on privacy |url=https://www.politico.eu/article/coronavirus-tests-europe-resolve-on-privacy-tracking-apps-germany-italy/ |access-date=30 October 2020 |work=Politico |date=10 March 2020}}</ref><ref>{{cite news |last1=Choudhury |first1=Amit Roy |title=Gov in the Time of Corona |url=https://govinsider.asia/innovation/gov-in-the-time-of-corona/ |access-date=30 October 2020 |work=Gov Insider |date=27 March 2020}}</ref><ref>{{cite news |last1=Cellan-Jones |first1=Rory |title=China launches coronavirus 'close contact detector' app |url=https://www.bbc.com/news/technology-51439401 |access-date=30 October 2020 |work=BBC |date=11 February 2020|archive-url=https://web.archive.org/web/20200228003957/https://www.bbc.com/news/technology-51439401 |archive-date=28 February 2020 }}</ref>

第755行：第891行：

各国政府利用大数据来追踪感染者，以最大限度地减少传播。早期的采用者包括中国、台湾、韩国和以色列。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''各国政府使用大数据追踪感染者，以最大限度地减少传播。早期采用者包括中国、台湾、韩国和以色列。

==Research activities==

第764行：第900行：

2014年3月，美国工程教育学会演示了大数据中的加密搜索和集群形成。由麻省理工学院计算机科学和人工智能实验室和 UNH 研究小组的 Amir Esmailpour 共同致力于解决大数据的挑战，他们研究了大数据的关键特征，即集群的形成及其相互联系。他们重点讨论了大数据的安全性以及该术语的方向，即通过提供技术中的原始定义和实时示例，在云界面上以加密形式存在不同类型的数据。此外，他们还提出了一种识别编码技术的方法，以便对加密文本进行快速搜索，从而加强大数据的安全性。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''。2014年3月，美国工程教育学会（American Society of Engineering Education）展示了大数据中的加密搜索和集群形成。麻省理工学院计算机科学和人工智能实验室的Gautam Siwach和UNH研究小组的Amir Esmailpour致力于应对大数据的挑战，他们研究了大数据的关键特征，如集群的形成及其相互关联。他们通过提供技术中的原始定义和实时示例，重点关注大数据的安全性，以及该术语在云接口以加密形式存在不同类型数据的方向。此外，他们还提出了一种识别编码技术的方法，以加快对加密文本的搜索，从而增强大数据的安全性

+

。

In March 2012, The White House announced a national "Big Data Initiative" that consisted of six federal departments and agencies committing more than $200 million to big data research projects.<ref>{{cite web|title=Obama Administration Unveils "Big Data" Initiative:Announces $200 Million in New R&D Investments| url=https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf |url-status =live| archive-url =https://web.archive.org/web/20170121233309/https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf |via=[[NARA|National Archives]]|work=[[Office of Science and Technology Policy]]|archive-date=21 January 2017}}</ref>

第772行：第910行：

2012年3月，白宫宣布了一项全国性的“大数据倡议”，由六个联邦部门和机构组成，向大数据研究项目投入了2亿多美元。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''2012年3月，白宫宣布了一项国家“大数据倡议”，由六个联邦部门和机构组成，承诺向大数据研究项目投入2亿多美元。

The initiative included a National Science Foundation "Expeditions in Computing" grant of $10 million over five years to the AMPLab<ref>{{cite web|url=http://amplab.cs.berkeley.edu |title=AMPLab at the University of California, Berkeley |publisher=Amplab.cs.berkeley.edu |access-date=5 March 2013}}</ref> at the University of California, Berkeley.<ref>{{cite web |title=NSF Leads Federal Efforts in Big Data|date=29 March 2012|publisher=National Science Foundation (NSF) |url= https://www.nsf.gov/news/news_summ.jsp?cntn_id=123607&org=NSF&from=news}}</ref> The AMPLab also received funds from [[DARPA]], and over a dozen industrial sponsors and uses big data to attack a wide range of problems from predicting traffic congestion<ref>{{cite conference| url=https://amplab.cs.berkeley.edu/publication/scaling-the-mobile-millennium-system-in-the-cloud-2/|author1=Timothy Hunter|date=October 2011|author2=Teodor Moldovan|author3=Matei Zaharia| author4 =Justin Ma|author5=Michael Franklin|author6-link=Pieter Abbeel|author6=Pieter Abbeel|author7=Alexandre Bayen |title=Scaling the Mobile Millennium System in the Cloud}}</ref> to fighting cancer.<ref>{{cite news|title=Computer Scientists May Have What It Takes to Help Cure Cancer|author=David Patterson|work=The New York Times| date=5 December 2011 |url=https://www.nytimes.com/2011/12/06/science/david-patterson-enlist-computer-scientists-in-cancer-fight.html}}</ref>

第780行：第918行：

这一举措包括美国国家科学基金会”计算机探险”项目，该项目将在五年内向加州大学伯克利分校的 AMPLab 提供1000万美元的资助。美国国防部高级研究计划局也从美国国防部高级研究计划局和十几个工业赞助商那里获得了资金，并利用大数据来解决从预测交通堵塞到抗击癌症的一系列问题。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''该举措包括一个国家科学基金会“计算远征”超过1000万美元赠款超过五年的AcAMAB在加利福尼亚大学，伯克利。AMPLab还从DARPA和十几家行业赞助商那里获得资金，并利用大数据解决从预测交通拥堵到抗击癌症等一系列问题。

The White House Big Data Initiative also included a commitment by the Department of Energy to provide $25 million in funding over five years to establish the Scalable Data Management, Analysis and Visualization (SDAV) Institute,<ref>{{cite web|title=Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers |publisher=energy.gov |url=http://energy.gov/articles/secretary-chu-announces-new-institute-help-scientists-improve-massive-data-set-research-doe}}</ref> led by the Energy Department's [[Lawrence Berkeley National Laboratory]]. The SDAV Institute aims to bring together the expertise of six national laboratories and seven universities to develop new tools to help scientists manage and visualize data on the department's supercomputers.

第788行：第926行：

白宫大数据倡议还包括能源部承诺在未来五年内提供2500万美元的资金，用于建立可扩展的数据管理、分析和可视化研究所，由能源部下属的劳伦斯伯克利国家实验室数据中心领导。SDAV 研究所旨在汇集六个国家实验室和七所大学的专门知识，开发新的工具，以帮助科学家管理和可视化该部门超级计算机上的数据。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''白宫大数据倡议还包括能源部承诺在五年内提供2500万美元的资金，以建立由能源部劳伦斯·伯克利国家实验室领导的可扩展数据管理、分析和可视化（SDAV）研究所。SDAV研究所旨在汇集六个国家实验室和七所大学的专业知识，开发新的工具，帮助科学家管理和可视化国防部超级计算机上的数据。

The U.S. state of [[Massachusetts]] announced the Massachusetts Big Data Initiative in May 2012, which provides funding from the state government and private companies to a variety of research institutions.<ref>{{Cite news|last=Young|first=Shannon|date=2012-05-30|title=Mass. governor, MIT announce big data initiative|work=Boston.com|url=http://archive.boston.com/news/local/massachusetts/articles/2012/05/30/mass_gov_and_mit_to_announce_data_initiative/|access-date=2021-07-29}}</ref> The [[Massachusetts Institute of Technology]] hosts the Intel Science and Technology Center for Big Data in the [[MIT Computer Science and Artificial Intelligence Laboratory]], combining government, corporate, and institutional funding and research efforts.<ref>{{cite web|url=http://bigdata.csail.mit.edu/ |title=Big Data @ CSAIL |publisher= Bigdata.csail.mit.edu |date=22 February 2013 |access-date=5 March 2013}}</ref>

第796行：第934行：

美国马萨诸塞州在2012年5月宣布了马萨诸塞州大数据倡议，该倡议为各种研究机构提供来自州政府和私营公司的资金。麻省理工学院在麻省理工学院计算机科学和人工智能实验室中设有英特尔大数据科学技术中心，将政府、企业和机构的资金和研究成果结合在一起。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''2012年5月，美国马萨诸塞州宣布了马萨诸塞州大数据计划，该计划由州政府和私营公司向各种研究机构提供资金。麻省理工学院（Massachusetts Institute of Technology）在麻省理工学院计算机科学与人工智能实验室（MIT Computer Science and Artificial Intelligence Laboratory）设立了英特尔大数据科学技术中心（Intel Science and Technology Center for Big Data），该中心将政府、企业和机构的资金和研究工作结合起来。

The European Commission is funding the two-year-long Big Data Public Private Forum through their Seventh Framework Program to engage companies, academics and other stakeholders in discussing big data issues. The project aims to define a strategy in terms of research and innovation to guide supporting actions from the European Commission in the successful implementation of the big data economy. Outcomes of this project will be used as input for [[Horizon 2020]], their next [[Framework Programmes for Research and Technological Development|framework program]].<ref>{{cite web |url=https://cordis.europa.eu/project/id/318062 |title=Big Data Public Private Forum |publisher=cordis.europa.eu |date=1 September 2012 |access-date=16 March 2020 }}</ref>

第804行：第942行：

欧盟委员会正在通过其第七框架计划资助为期两年的大数据公私论坛，让公司、学术界和其他利益攸关方参与讨论大数据问题。该项目旨在确定研究和创新方面的战略，以指导欧洲委员会在成功实施大数据经济方面的支持行动。这个项目的成果将被用作地平线2020的投入，他们的下一个框架计划。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''欧盟委员会正在通过其第七个框架计划为为期两年的大数据公私论坛提供资金，让公司、学者和其他利益相关者参与讨论大数据问题。该项目旨在确定一项研究和创新战略，以指导欧盟委员会在成功实施大数据经济方面的支持行动。该项目的成果将作为其下一个框架项目“地平线2020”的投入。

The British government announced in March 2014 the founding of the [[Alan Turing Institute]], named after the computer pioneer and code-breaker, which will focus on new ways to collect and analyze large data sets.<ref>{{cite news|url=https://www.bbc.co.uk/news/technology-26651179|title=Alan Turing Institute to be set up to research big data|work=[[BBC News]]|access-date=19 March 2014|date=19 March 2014}}</ref>

第812行：第950行：

2014年3月，英国政府宣布成立艾伦图灵研究院数据中心，该中心以计算机先驱和密码破译者的名字命名，将致力于研究收集和分析大型数据集的新方法。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''2014年3月，英国政府宣布成立艾伦·图灵研究所（Alan Turing Institute），该研究所以计算机先驱和破译者的名字命名，将专注于收集和分析大型数据集的新方法。

At the [[University of Waterloo Stratford Campus]] Canadian Open Data Experience (CODE) Inspiration Day, participants demonstrated how using data visualization can increase the understanding and appeal of big data sets and communicate their story to the world.<ref>{{cite web|url= http://www.betakit.com/event/inspiration-day-at-university-of-waterloo-stratford-campus/| title=Inspiration day at University of Waterloo, Stratford Campus |publisher=betakit.com/ |access-date=28 February 2014}}</ref>

第820行：第958行：

在滑铁卢大学斯特拉特福德校区加拿大开放数据体验(CODE)启发日上，与会者展示了如何使用数据可视化数据可以增加对大数据集的理解和吸引力，并向世界传达他们的故事。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''在滑铁卢大学斯特拉特福校园加拿大开放数据体验（代码）启示日，与会者演示了如何使用数据可视化可以增加对大数据集的理解和吸引力，并向世界传达他们的故事。

[[Computational social science|Computational social sciences]] – Anyone can use application programming interfaces (APIs) provided by big data holders, such as Google and Twitter, to do research in the social and behavioral sciences.<ref name=pigdata>{{cite journal|last=Reips|first=Ulf-Dietrich|author2=Matzat, Uwe |title=Mining "Big Data" using Big Data Services |journal=International Journal of Internet Science |year=2014|volume=1|issue=1|pages=1–8 | url=http://www.ijis.net/ijis9_1/ijis9_1_editorial_pre.html}}</ref> Often these APIs are provided for free.<ref name="pigdata" /> [[Tobias Preis]] et al. used [[Google Trends]] data to demonstrate that Internet users from countries with a higher per capita gross domestic products (GDPs) are more likely to search for information about the future than information about the past. The findings suggest there may be a link between online behaviors and real-world economic indicators.<ref>{{cite journal | vauthors = Preis T, Moat HS, Stanley HE, Bishop SR | title = Quantifying the advantage of looking forward | journal = Scientific Reports | volume = 2 | pages = 350 | year = 2012 | pmid = 22482034 | pmc = 3320057 | doi = 10.1038/srep00350 | bibcode = 2012NatSR...2E.350P }}</ref><ref>{{cite news | url=https://www.newscientist.com/article/dn21678-online-searches-for-future-linked-to-economic-success.html | title=Online searches for future linked to economic success |first=Paul |last=Marks |work=New Scientist | date=5 April 2012 | access-date=9 April 2012}}</ref><ref>{{cite news | url=https://arstechnica.com/gadgets/news/2012/04/google-trends-reveals-clues-about-the-mentality-of-richer-nations.ars | title=Google Trends reveals clues about the mentality of richer nations |first=Casey |last=Johnston |work=Ars Technica | date=6 April 2012 | access-date=9 April 2012}}</ref> The authors of the study examined Google queries logs made by ratio of the volume of searches for the coming year (2011) to the volume of searches for the previous year (2009), which they call the "[[future orientation index]]".<ref>{{cite web | url = http://www.tobiaspreis.de/bigdata/future_orientation_index.pdf | title = Supplementary Information: The Future Orientation Index is available for download | author = Tobias Preis | date = 24 May 2012 | access-date = 24 May 2012}}</ref> They compared the future orientation index to the per capita GDP of each country, and found a strong tendency for countries where Google users inquire more about the future to have a higher GDP.

第828行：第966行：

计算社会科学——任何人都可以使用大数据持有者(如谷歌和 Twitter)提供的应用程序编程接口(api)进行社会和行为科学研究。这些 api 通常是免费提供的。托拜厄斯 · 普雷斯等。使用谷歌趋势数据证明，来自人均国内生产总值(gdp)较高国家的互联网用户更有可能搜索有关未来的信息，而不是有关过去的信息。研究结果表明，在线行为和现实世界的经济指标之间可能存在某种联系。这项研究的作者审查了谷歌的查询日志，这些日志是根据下一年(2011年)的搜索量与上一年(2009年)的搜索量之比制作的，他们称之为“未来方向索引”。他们将未来方向指数与每个国家的人均 GDP 进行了比较，发现谷歌用户询问更多关于未来的信息的国家有一个更高的 GDP 趋势。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''计算社会科学——任何人都可以使用谷歌和Twitter等大数据持有者提供的应用程序编程接口（API）进行社会和行为科学研究。这些API通常是免费提供的。Tobias Preis等人利用谷歌趋势数据证明，来自人均国内生产总值（GDP）较高国家的互联网用户搜索未来信息的可能性大于搜索过去信息的可能性。研究结果表明，在线行为与现实世界的经济指标之间可能存在联系。这项研究的作者根据下一年（2011年）的搜索量与上一年（2009年）的搜索量之比来检查谷歌的查询日志，他们称之为“未来定位指数”。他们将未来导向指数与每个国家的人均GDP进行了比较，发现谷歌用户查询更多关于未来的国家有更高GDP的强烈趋势。

[[Tobias Preis]] and his colleagues Helen Susannah Moat and [[H. Eugene Stanley]] introduced a method to identify online precursors for stock market moves, using trading strategies based on search volume data provided by Google Trends.<ref>{{cite journal | url =http://www.nature.com/news/counting-google-searches-predicts-market-movements-1.12879 | title=Counting Google searches predicts market movements | author=Philip Ball | journal=Nature | date=26 April 2013 | doi=10.1038/nature.2013.12879 | s2cid=167357427 | access-date=9 August 2013| author-link=Philip Ball }}</ref> Their analysis of [[Google]] search volume for 98 terms of varying financial relevance, published in ''[[Scientific Reports]]'',<ref>{{cite journal | vauthors = Preis T, Moat HS, Stanley HE | title = Quantifying trading behavior in financial markets using Google Trends | journal = Scientific Reports | volume = 3 | pages = 1684 | year = 2013 | pmid = 23619126 | pmc = 3635219 | doi = 10.1038/srep01684 | bibcode = 2013NatSR...3E1684P }}</ref> suggests that increases in search volume for financially relevant search terms tend to precede large losses in financial markets.<ref>{{cite news | url=http://bits.blogs.nytimes.com/2013/04/26/google-search-terms-can-predict-stock-market-study-finds/ | title= Google Search Terms Can Predict Stock Market, Study Finds | author=Nick Bilton | work=[[The New York Times]] | date=26 April 2013 | access-date=9 August 2013}}</ref><ref>{{cite magazine | url=http://business.time.com/2013/04/26/trouble-with-your-investment-portfolio-google-it/ | title=Trouble With Your Investment Portfolio? Google It! | author=Christopher Matthews | magazine=[[Time (magazine)|Time]] | date=26 April 2013 | access-date=9 August 2013}}</ref><ref>{{cite journal | url= http://www.nature.com/news/counting-google-searches-predicts-market-movements-1.12879 | title=Counting Google searches predicts market movements | author=Philip Ball |journal=[[Nature (journal)|Nature]] | date=26 April 2013 | doi=10.1038/nature.2013.12879 | s2cid=167357427 | access-date=9 August 2013}}</ref><ref>{{cite news | url=http://www.businessweek.com/articles/2013-04-25/big-data-researchers-turn-to-google-to-beat-the-markets | title='Big Data' Researchers Turn to Google to Beat the Markets | author=Bernhard Warner | work=[[Bloomberg Businessweek]] | date=25 April 2013 | access-date=9 August 2013}}</ref><ref>{{cite news | url=https://www.independent.co.uk/news/business/comment/hamish-mcrae/hamish-mcrae-need-a-valuable-handle-on-investor-sentiment-google-it-8590991.html | title=Hamish McRae: Need a valuable handle on investor sentiment? Google it | author=Hamish McRae | work=[[The Independent]] | date=28 April 2013 | access-date=9 August 2013 | location=London}}</ref><ref>{{cite web | url=http://www.ft.com/intl/cms/s/0/e5d959b8-acf2-11e2-b27f-00144feabdc0.html | title= Google search proves to be new word in stock market prediction | author=Richard Waters | work=[[Financial Times]] | date=25 April 2013 | access-date=9 August 2013}}</ref><ref>{{cite news | url =https://www.bbc.co.uk/news/science-environment-22293693 | title=Google searches predict market moves | author=Jason Palmer | work=[[BBC]] | date=25 April 2013 | access-date=9 August 2013}}</ref>

第836行：第974行：

Tobias Preis 和他的同事 Helen Susannah Moat 和 h. Eugene Stanley 介绍了一种方法，利用基于 Google Trends 提供的搜索量数据的交易策略来识别股市走势的在线前兆。他们在《科学报告》(Scientific Reports)上发表了对谷歌(Google)98个财务相关性不同的词条的搜索量分析，结果表明，财务相关搜索词的搜索量增加往往先于金融市场的巨额亏损。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''Tobias Preis和他的同事Helen Susannah Moat和H.Eugene Stanley介绍了一种方法，使用基于谷歌趋势（Google Trends）提供的搜索量数据的交易策略，识别股市走势的在线前兆。他们在科学报告中对谷歌98个不同财务相关性的搜索量进行的分析表明，财务相关搜索量的增加往往先于金融市场的巨大损失。

Big data sets come with algorithmic challenges that previously did not exist. Hence, there is seen by some to be a need to fundamentally change the processing ways.<ref>E. Sejdić (March 2014). "Adapt current tools for use with big data". ''Nature''. '''507''' (7492): 306.</ref>

第844行：第982行：

大数据集带来了以前不存在的算法挑战。因此，有些人认为有必要从根本上改变处理方式。Sejdi (2014年3月)。“调整现有工具，以便与大数据一起使用”。自然。507 (7492): 306.

−

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据集带来了以前不存在的算法挑战。因此，一些人认为有必要从根本上改变处理方式。

The Workshops on Algorithms for Modern Massive Data Sets (MMDS) bring together computer scientists, statisticians, mathematicians, and data analysis practitioners to discuss algorithmic challenges of big data.<ref>Stanford. [https://web.stanford.edu/group/mmds/ "MMDS. Workshop on Algorithms for Modern Massive Data Sets"].</ref> Regarding big data, such concepts of magnitude are relative. As it is stated "If the past is of any guidance, then today's big data most likely will not be considered as such in the near future."<ref name=CAD7challenges/>

第852行：第990行：

现代海量数据集算法研讨会(MMDS)聚集了计算机科学家、统计学家、数学家和数据分析从业者，讨论大数据的算法挑战。斯坦福大学。“ MMDS。现代海量数据集算法研讨会”。对于大数据，这样的量级概念是相对的。正如文中所说: “如果说过去的数据有什么指导意义的话，那么今天的大数据在不久的将来很可能不会被认为是这样的。”

−

'''''【终译版】'''''。

+

'''''【终译版】'''''现代海量数据集（MMD）算法研讨会汇集了计算机科学家、统计学家、数学家和数据分析从业者，讨论大数据的算法挑战。斯坦福。“MMDS.现代海量数据集算法研讨会”。关于大数据，这样的量级概念是相对的。正如它所说，“如果过去有任何指导意义，那么今天的大数据在不久的将来很可能不会被认为是这样。”

===Sampling big data===

第861行：第999行：

关于大数据集，人们提出的一个研究问题是，是否有必要查看完整的数据，以便对数据的属性得出某些结论，或者样本是否足够好。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但是，抽样可以从较大的数据集中选择正确的数据点，以估计整个种群的特征。在制造不同类型的感官数据，如声学，振动，压力，电流，电压和控制器数据可在短时间间隔。为了预测停机时间，可能不需要查看所有的数据，但是一个样本就足够了。大数据可以按照不同的数据点分类，如人口统计学、心理学、行为学和交易数据。有了大量的数据点，营销人员就能够创造和使用更多的定制的消费者细分市场，从而实现更具战略性的目标。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''关于大数据集的一个研究问题是，是否有必要查看完整的数据，以得出关于数据属性的某些结论，或者样本是否足够好。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点，以估计整个人口的特征。在制造过程中，不同类型的感官数据（如声学、振动、压力、电流、电压和控制器数据）在短时间间隔内可用。要预测停机时间，可能不需要查看所有数据，但一个样本就足够了。大数据可以按不同的数据点分类，如人口统计、心理、行为和交易数据。有了大量的数据点，营销人员可以创建和使用更多定制的消费者群体，以实现更具战略性的目标。

There has been some work done in sampling algorithms for big data. A theoretical formulation for sampling Twitter data has been developed.<ref>{{cite conference |author1=Deepan Palguna |author2= Vikas Joshi |author3=Venkatesan Chakravarthy |author4=Ravi Kothari |author5=L. V. Subramaniam |name-list-style=amp | title=Analysis of Sampling Algorithms for Twitter | journal=[[International Joint Conference on Artificial Intelligence]] | year=2015 }}</ref>

第869行：第1,007行：

在大数据的抽样算法方面已经做了一些工作。已经开发了一个抽样 Twitter 数据的理论公式。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''在大数据采样算法方面已经做了一些工作。推特数据抽样的理论公式已经开发出来。

==Critique==

第877行：第1,015行：

对大数据范式的批评有两种: 一种质疑方法本身的含义，另一种质疑目前的方法。批评的一个方法是批判性数据研究领域。

+

'''''【终译版】'''''对大数据范式的批评有两种：一种是质疑方法本身的含义，另一种是质疑目前的做法。对这种批评的一种方法是关键数据研究领域。

===Critiques of the big data paradigm===

第885行：第1,025行：

= = = 对大数据范式的批评 = = = “一个关键问题是，我们对导致出现大数据的典型网络特征的潜在经验微过程知之甚少。”斯奈德斯、马扎特和瑞普斯在他们的评论中指出，通常对数学性质做出的非常强有力的假设，可能根本不能反映微过程层面的真实情况。马克 · 格雷厄姆对克里斯 · 安德森断言大数据将意味着理论的终结提出了广泛的批评: 特别关注大数据必须始终与其社会、经济和政治背景相联系的概念。尽管企业投入了8位数和9位数的资金，从供应商和客户源源不断的信息中获取洞察力，但只有不到40% 的员工拥有足够成熟的流程和技能来做到这一点。《哈佛商业评论》(Harvard Business Review)的一篇文章指出，为了克服这种洞察力不足，无论大数据分析得多么全面，多么精确，都必须辅之以“大判断力”。

−

+

'''''【终译版】'''''“一个关键问题是，我们对导致大数据典型网络特征出现的潜在经验微观过程知之甚少。”Snijders、Matzat和Reips在他们的评论中指出，通常对数学性质做出非常强烈的假设，这些假设可能根本无法反映微观过程水平上的真实情况。马克·格雷厄姆（Mark Graham）对克里斯·安德森（Chris Anderson）关于大数据将意味着理论的终结的断言提出了广泛的批评：他特别关注大数据必须始终在其社会、经济和政治背景下进行语境化的概念。尽管公司投入8位数和9位数的资金，从供应商和客户的信息流中获取洞察力，但只有不到40%的员工拥有足够成熟的流程和技能。根据《哈佛商业评论》（Harvard Business Review）上的一篇文章，为了克服这种洞察力缺陷，大数据无论多么全面或分析得多么好，都必须辅之以“大判断”。

−

'''''【终译版】'''''。

Much in the same line, it has been pointed out that the decisions based on the analysis of big data are inevitably "informed by the world as it was in the past, or, at best, as it currently is".<ref name="HilbertBigData2013">Hilbert, M. (2016). Big Data for Development: A Review of Promises and Challenges. Development Policy Review, 34(1), 135–174. https://doi.org/10.1111/dpr.12142 free access: https://www.martinhilbert.net/big-data-for-development/</ref> Fed by a large number of data on past experiences, algorithms can predict future development if the future is similar to the past.<ref name="HilbertTEDx">[https://www.youtube.com/watch?v=UXef6yfJZAI Big Data requires Big Visions for Big Change.], Hilbert, M. (2014). London: TEDx UCL, x=independently organized TED talks</ref> If the system's dynamics of the future change (if it is not a [[stationary process]]), the past can say little about the future. In order to make predictions in changing environments, it would be necessary to have a thorough understanding of the systems dynamic, which requires theory.<ref name="HilbertTEDx"/> As a response to this critique Alemany Oliver and Vayre suggest to use "abductive reasoning as a first step in the research process in order to bring context to consumers' digital traces and make new theories emerge".<ref>{{cite journal|last=Alemany Oliver|first=Mathieu |author2=Vayre, Jean-Sebastien |s2cid=111360835 |title= Big Data and the Future of Knowledge Production in Marketing Research: Ethics, Digital Traces, and Abductive Reasoning|journal=Journal of Marketing Analytics |year=2015|volume=3|issue=1|doi= 10.1057/jma.2015.1|pages=5–13}}</ref>

第896行：第1,035行：

与此类似，有人指出，基于大数据分析的决策不可避免地“受到过去世界的影响，或者充其量受到现在世界的影响”。希尔伯特(2016)。大数据促进发展: 承诺与挑战述评。发展政策检讨，34(1) ，135-174。Https://doi.org/10.1111/dpr.12142免费访问: 由过去经验的大量数据提供的 https://www.martinhilbert.net/big-data-for-development/ ，算法可以预测未来的发展，如果未来类似于过去。大数据需要大变化的远见，希尔伯特，m. (2014)。伦敦: TEDx 伦敦大学学院，x = 独立组织的 TED 演讲如果系统对未来的动态变化(如果不是一个平稳过程) ，过去对未来的影响微乎其微。为了在不断变化的环境中做出预测，需要对系统的动态性有一个透彻的理解，这需要理论。作为对这种批评的回应，Alemany Oliver 和 Vayre 建议使用“溯因推理作为研究过程中的第一步，以便为消费者的数字痕迹提供背景，并产生新的理论”。此外，有人建议将大数据方法与计算机模拟相结合，如基于主体的模型和复杂系统。基于代理的模型越来越能够通过基于一组相互依赖的算法的计算机模拟来预测未来未知情况下的社会复杂性的结果。爱泼斯坦，j. m. ，& Axtell，r. l. (1996)。成长中的人工社会: 自下而上的社会科学。一本布拉德福德的书。最后，使用多变量方法探测数据的潜在结构，如因子分析和数据聚类分析，已被证明是有用的分析方法，远远超出了双变量方法(例如:。列联表)通常用于较小的数据集。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''与此大致相同的是，有人指出，基于大数据分析的决策不可避免地“像过去一样，或者充其量也像现在一样，受到世界的影响”。通过大量关于过去经验的数据，如果未来与过去相似，算法可以预测未来的发展。如果系统对未来的动态变化（如果它不是一个平稳的过程），那么过去对未来的影响就很小。为了在不断变化的环境中做出预测，有必要对系统动力学有一个透彻的了解，这需要理论。作为对这一批评的回应，Alemany Oliver和Vayre建议使用“诱因推理作为研究过程的第一步，以便为消费者的数字痕迹提供背景，并使新的理论出现”。此外，有人建议将大数据方法与计算机模拟相结合，例如基于代理的模型和复杂系统。通过基于一系列相互依赖的算法的计算机模拟，基于代理的模型在预测甚至未知未来场景的社会复杂性的结果方面越来越好。最后，探索数据潜在结构的多变量方法的使用，如因子分析和聚类分析，已被证明是有用的分析方法，远远超出了通常用于较小数据集的双变量方法（如列联表）。

In health and biology, conventional scientific approaches are based on experimentation. For these approaches, the limiting factor is the relevant data that can confirm or refute the initial hypothesis.<ref>{{cite web|url=http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=5| title=Delort P., Big data in Biosciences, Big Data Paris, 2012|website =Bigdataparis.com |access-date=8 October 2017}}</ref>

第906行：第1,045行：

在健康和生物学领域，传统的科学方法是建立在实验的基础上的。对于这些方法，限制因素是相关的数据，可以证实或反驳最初的假设。生物科学现在接受了一个新的假设: 没有事先假设的大量数据(组学)所提供的信息是互补的，有时是基于实验的传统方法所必需的。在大量的方法中，它是一个相关假设的表述，以解释数据，这是限制因素。搜索的逻辑是颠倒的，归纳法的局限性(“科学的荣耀与哲学的丑闻”，C.d. 布罗德，1926)是需要考虑的。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''在健康和生物学领域，传统的科学方法是基于实验的。对于这些方法，限制因素是可以证实或反驳初始假设的相关数据。如今，生物科学界接受了一个新的假设：大量数据（组学）提供的信息（无需事先假设）是对基于实验的传统方法的补充，有时是必要的。在大规模方法中，相关假设的表述是解释数据的限制因素。搜索逻辑被颠倒，归纳的局限性（“科学和哲学的荣耀丑闻”，C.D.布罗德，1926年）将被考虑。

[[Consumer privacy|Privacy]] advocates are concerned about the threat to privacy represented by increasing storage and integration of [[personally identifiable information]]; expert panels have released various policy recommendations to conform practice to expectations of privacy.<ref>{{cite magazine |first=Paul |last=Ohm |title=Don't Build a Database of Ruin |magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html|date=23 August 2012 }}</ref> The misuse of big data in several cases by media, companies, and even the government has allowed for abolition of trust in almost every fundamental institution holding up society.<ref>Bond-Graham, Darwin (2018). [https://www.theperspective.com/debates/the-perspective-on-big-data/ "The Perspective on Big Data"]. [[The Perspective]].</ref>

第914行：第1,053行：

隐私权倡导者担心隐私权受到威胁，这种威胁表现在个人身份信息的存储和整合不断增加; 专家小组已经发布了各种政策建议，使实践符合隐私权的期望。媒体、公司甚至政府在几个案例中滥用大数据，导致几乎所有支撑社会的基础机构都失去了信任。邦德-格雷厄姆，达尔文(2018)。“大数据透视”。透视法。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''隐私倡导者担心个人身份信息的存储和集成增加对隐私的威胁；专家小组发布了各种政策建议，以使实践符合对隐私的期望。媒体、公司甚至政府在几起案件中滥用大数据，导致几乎所有支撑社会的基本机构都失去了信任。邦德·格雷厄姆，达尔文（2018）。“大数据透视”。视角。

Nayef Al-Rodhan argues that a new kind of social contract will be needed to protect individual liberties in the context of big data and giant corporations that own vast amounts of information, and that the use of big data should be monitored and better regulated at the national and international levels.<ref>{{Cite news|url=http://hir.harvard.edu/the-social-contract-2-0-big-data-and-the-need-to-guarantee-privacy-and-civil-liberties/|title=The Social Contract 2.0: Big Data and the Need to Guarantee Privacy and Civil Liberties – Harvard International Review|last=Al-Rodhan|first=Nayef|date=16 September 2014|work=Harvard International Review|access-date=3 April 2017|archive-url=https://web.archive.org/web/20170413090835/http://hir.harvard.edu/the-social-contract-2-0-big-data-and-the-need-to-guarantee-privacy-and-civil-liberties/|archive-date=13 April 2017|url-status=dead}}</ref> Barocas and Nissenbaum argue that one way of protecting individual users is by being informed about the types of information being collected, with whom it is shared, under what constraints and for what purposes.<ref>{{Cite book|title=Big Data's End Run around Anonymity and Consent| last1 =Barocas |first1=Solon |last2=Nissenbaum |first2=Helen|last3=Lane|first3=Julia|last4=Stodden|first4=Victoria|last5=Bender|first5=Stefan|last6=Nissenbaum|first6=Helen| s2cid =152939392|date=June 2014| publisher =Cambridge University Press|isbn=9781107067356|pages=44–75|doi =10.1017/cbo9781107590205.004}}</ref>

第922行：第1,061行：

纳耶夫 · 阿尔罗德汉认为，在拥有大量信息的大数据和巨型公司的背景下，需要一种新型的社会契约来保护个人自由，大数据的使用应该在国家和国际层面受到监督和更好的管理。巴罗卡斯和尼森鲍姆认为，保护个人用户的一种方法是了解收集的信息类型、与谁共享、受到何种限制以及用于何种目的。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''Nayef Al-Rodhan认为，在大数据和拥有大量信息的大公司的背景下，需要一种新的社会契约来保护个人自由，大数据的使用应该在国家和国际层面受到监控和更好的监管。Barocas和Nissenbaum认为，保护个人用户的一种方法是，让用户了解所收集的信息类型、与谁共享信息、在什么约束下以及出于什么目的。

===Critiques of the "V" model===

第944行：第1,083行： −

'''''【终译版】'''''。

+

'''''【终译版】'''''

+

大数据的“V”模型令人担忧，因为它以计算可伸缩性为中心，缺乏信息的可感知性和可理解性。这导致了认知大数据框架的形成，该框架根据以下特点描述了大数据应用：

+

数据完整性：从数据中理解不明显的信息

+

数据相关性、因果关系和可预测性：因果关系不是实现可预测性的必要条件

+

可解释性和可解释性：人类渴望理解并接受他们所理解的，而算法无法解决这一问题

+

自动决策水平：支持自动决策和算法自学习的算法

===Critiques of novelty===

第953行：第1,103行：

= = = 对新奇性的批评 = = = 大型数据集已经通过计算机进行了一个多世纪的分析，包括美国人口普查分析，由 IBM 的打孔卡片机进行，计算统计数据，包括整个大陆人口的均值和方差。近几十年来，欧洲核子研究中心(CERN)等科学实验所产生的数据规模与当前的商业“大数据”类似。然而，科学实验倾向于使用专门定制的高性能计算(超级计算)集群和网格来分析数据，而不是像当前商业浪潮中那样使用廉价的商品计算机云，这意味着文化和技术层面的差异。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''一个多世纪以来，计算机一直在分析大型数据集，包括IBM的穿孔卡片机进行的美国人口普查分析，该机器计算统计数据，包括整个大陆人口的均值和方差。近几十年来，欧洲核子研究中心（CERN）等科学实验产生的数据规模与当前的商业“大数据”相似。然而，科学实验倾向于使用专门定制的高性能计算（超级计算）集群和网格来分析数据，而不是像当前的商业浪潮那样使用廉价商品计算机云，这意味着文化和技术堆栈上的差异。

===Critiques of big data execution===

第964行：第1,114行：

= = = 对大数据执行的批评 = = = Ulf-Dietrich Reips 和 Uwe Matzat 在2014年写道，大数据已经成为科学研究的“时尚”。研究人员 danah boyd 对大数据在科学中的应用表示担忧，他忽视了一些原则，比如过于关注海量数据的处理而选择了具有代表性的样本。这种方法可能会导致在某种程度上存在偏见的结果。跨越不同种类的数据资源(有些可能被认为是大数据，有些则不是)的整合带来了巨大的逻辑和分析挑战，但许多研究人员认为，这种整合可能代表了科学界最有前途的新领域。在这篇颇具煽动性的文章《大数据的关键问题》(Critical Questions for Big Data)中，作者将大数据称为神话的一部分: “大数据集提供了更高形式的智力和知识[ ... ... ] ，带有真实、客观和准确的光环。”。大数据的使用者往往”迷失在庞大的数字中”，而且”使用大数据仍然是主观的，它量化的东西不一定能够更接近客观事实”。BI 领域的最新发展，例如前瞻性报告，特别是通过自动过滤非有用数据和相关性提高大数据的可用性。发布失败: 从大数据到重大决策，Forte Wares。大结构充满了虚假的相关性，要么是由于非因果巧合(真正的大数定律) ，大随机结构和算法(拉姆齐理论)的唯一性，要么是由于非包含因素的存在，因此，早期实验者使大型数据库“为自己说话”和革命性的科学方法的希望受到了质疑。克里斯蒂安 · s · 卡劳德，朱塞佩 · 隆戈，(2016) ，《大数据中伪相关性的泛滥》，《科学基础》

−

'''''【终译版】'''''。

+

'''''【终译版】'''''Ulf Dietrich Reips和Uwe Matzat在2014年写道，大数据已经成为科学研究的“时尚”。研究人员danah boyd对大数据在科学中的使用提出了担忧，他忽略了一些原则，比如选择代表性样本时过于关注处理大量数据。这种方法可能会导致结果在某种程度上存在偏差。跨异构数据资源的集成——一些可能被视为大数据，而另一些可能不会带来巨大的后勤和分析挑战，但许多研究人员认为，这种集成可能代表着科学领域最有前途的新前沿。在挑衅性文章《大数据的关键问题》中，作者将大数据称为神话的一部分：“大数据集提供了更高形式的智能和知识[…]，大数据的用户往往“迷失在数量的巨大中”，而且“使用大数据仍然是主观的，它量化的东西不一定对客观真理有更紧密的要求“.BI领域的最新发展，例如主动报告，特别是通过自动过滤无用数据和相关性来改善大数据的可用性。大结构充满虚假相关性，要么是因为非因果巧合（真大数定律），要么仅仅是大随机性的本质（拉姆齐理论）或非包含因素的存在，因此早期实验者建立大型数字数据库“为自己说话”并革新科学方法的希望受到质疑。

Big data analysis is often shallow compared to analysis of smaller data sets.<ref name="kdnuggets-berchthold">{{cite web|url=http://www.kdnuggets.com/2014/08/interview-michael-berthold-knime-research-big-data-privacy-part2.html|title=Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2|date=12 August 2014|author=Gregory Piatetsky| author-link= Gregory I. Piatetsky-Shapiro|publisher=KDnuggets|access-date=13 August 2014}}</ref> In many big data projects, there is no large data analysis happening, but the challenge is the [[extract, transform, load]] part of data pre-processing.<ref name="kdnuggets-berchthold" />

第972行：第1,122行：

大数据分析与小数据集分析相比往往是肤浅的。在许多大数据项目中，没有大型的数据分析发生，但是挑战在于提取、转换和加载数据预处理数据的部分。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''与对较小数据集的分析相比，大数据分析往往是肤浅的。在许多大数据项目中，没有进行大数据分析，但挑战在于数据预处理的提取、转换和加载部分。

Big data is a [[buzzword]] and a "vague term",<ref>{{cite news|last1=Pelt|first1=Mason|title="Big Data" is an over used buzzword and this Twitter bot proves it|url= http://siliconangle.com/blog/2015/10/26/big-data-is-an-over-used-buzzword-and-this-twitter-bot-proves-it/ |newspaper=Siliconangle|access-date=4 November 2015|date=26 October 2015}}</ref><ref name="ft-harford">{{cite web |url=http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html |title=Big data: are we making a big mistake? |last1=Harford |first1=Tim |date=28 March 2014 |website=[[Financial Times]] |access-date=7 April 2014}}</ref> but at the same time an "obsession"<ref name="ft-harford" /> with entrepreneurs, consultants, scientists, and the media. Big data showcases such as [[Google Flu Trends]] failed to deliver good predictions in recent years, overstating the flu outbreaks by a factor of two. Similarly, [[Academy awards]] and election predictions solely based on Twitter were more often off than on target.

第990行：第1,140行：

大数据是一个时髦词汇和“模糊词汇”，但同时也是企业家、咨询师、科学家和媒体的“迷恋”。像谷歌流感趋势这样的大数据展示在最近几年未能提供好的预测，将流感爆发夸大了两倍。同样，仅仅基于推特的奥斯卡奖和选举预测往往不准确。大数据往往会带来与小数据相同的挑战; 增加更多的数据并不能解决偏差问题，但可能会强调其他问题。特别是像推特这样的数据来源并不能代表整个人口，从这些来源得出的结果可能会导致错误的结论。基于大数据文本统计分析的谷歌翻译(Google translate)在网页翻译方面做得很好。然而，来自专门领域的结果可能被严重扭曲。另一方面，大数据也可能引入新的问题，比如多重比较问题: 同时测试大量假设可能会产生许多错误的结果，错误地显得意义重大。约阿尼迪斯认为，“大多数已发表的研究结果都是错误的”，其原因基本上是相同的: 当许多科学团队和研究人员各自进行许多实验(即。处理大量的科学数据，尽管不是使用大数据技术) ，“显著”结果是错误的可能性快速增长——当只有正面的结果被公布时，这种可能性更大。此外，大数据分析的结果只能和它们所预测的模型一样好。举个例子，大数据试图预测2016年美国总统大选的结果，但却取得了不同程度的成功。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''大数据是一个时髦词和“模糊术语”，但同时也是对企业家、顾问、科学家和媒体的“痴迷”。近年来，谷歌流感趋势（Google Flu Trends）等大数据展示未能提供良好的预测，将流感疫情高估了两倍。类似地，仅仅基于Twitter的奥斯卡奖和选举预测往往偏离目标，而非目标。大数据往往与小数据面临同样的挑战；添加更多数据并不能解决偏见问题，但可能会强调其他问题。尤其是Twitter等数据源不能代表整个人口，从这些数据源得出的结果可能会导致错误的结论。基于文本大数据统计分析的谷歌翻译在翻译网页方面做得很好。然而，来自专门领域的结果可能会有很大的偏差。另一方面，大数据也可能带来新的问题，比如多重比较问题：同时测试大量假设可能会产生许多错误的结果，这些结果被错误地认为是重要的。Ioannidis认为，“大多数已发表的研究结果都是错误的”，其原因基本上是相同的：当许多科学团队和研究人员各自进行许多实验（即处理大量科学数据；尽管没有使用大数据技术），一个“重大”结果被错误的可能性会迅速增加——甚至更大，当只有积极的结果被公布时。此外，大数据分析结果只能与预测模型一样好。例如，大数据参与了对2016年美国总统选举结果的预测，并取得了不同程度的成功。

=== Critiques of big data policing and surveillance ===

第1,017行：第1,167行：

如果这些潜在的问题得不到纠正或规范，大数据监管的影响可能会继续塑造社会等级。布莱恩还指出，尽责地使用大数据监管可以防止个人层面的偏见成为制度层面的偏见。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

+

大数据已被执法和企业等机构用于警务和监视。由于与传统的警务方法相比，基于数据的监控不那么明显，因此反对大数据警务的可能性较小。根据Sarah Brayne的《大数据监控：警务案例》，大数据警务可以通过三种方式重现现有的社会不平等：

+

通过使用一个数学的、因此是无偏的算法，将嫌疑犯置于更严格的监视之下

+

增加执法跟踪的范围和人数，并加剧刑事司法系统中现有的种族比例过高现象

+

鼓励社会成员放弃与会产生数字痕迹的机构的互动，从而为社会包容制造障碍

+

如果这些潜在问题得不到纠正或监管，大数据监管的影响可能会继续影响社会等级。Brayne还指出，认真使用大数据监管可以防止个人层面的偏见变成制度层面的偏见。

==In popular culture==

第1,027行：第1,187行：

《点球成金》是一本非小说类书籍，书中探讨了奥克兰运动家是如何利用统计分析来超越那些预算较大的团队的。2011年，由布拉德 · 皮特主演的改编电影上映。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''Moneyball是一本非虚构的书，探讨奥克兰田径队如何利用统计分析来超越预算较大的球队。2011年，布拉德·皮特主演的一部改编电影上映。

===Film===

第1,038行：第1,198行：

* 美国队长: 冬兵》(Captain America: The Winter Soldier)中，H.Y.D.R.A (伪装成神盾局)开发了一种利用数据来确定和消除全球威胁的飞行母舰。

* 在《蝙蝠侠: 黑暗骑士》中，蝙蝠侠使用了一种可以监视整个哥谭市的声纳设备。这些数据是通过城市里人们的手机收集的。

−

'''''【终译版】'''''。

+

'''''【终译版】'''''

−

~~== See also ==~~

+

在《美国队长：冬季士兵》一书中，H.Y.D.R.A（化装成S.H.I.E.L.D）开发了利用数据确定和消除全球威胁的直升机。

−

~~= 参见 =~~

+

在《黑暗骑士》中，蝙蝠侠使用的声纳设备可以监视整个高谭市。这些数据是通过市内居民的手机收集的。

−

~~{{Category see also|LABEL~~=~~For a list of companies, and tools, see also|Big data}}~~

+

= 关联条目 =

−

~~~~

+

{{columns-list|colwidth=26em|

−

{{columns-list|colwidth=~~15em~~|

+

*[[Big data ethics 大数据伦理

−

*[[Big data ethics]]

+

]]

−

*[[Big Data Maturity Model]]

+

*[[Big Data Maturity Model 大数据成熟度模型

−

*[[Big memory]]

+

]]

−

*[[Data curation]]

+

*[[Big memory 大内存

−

*[[Data defined storage]]

+

]]

−

*[[Data lineage]]

+

*[[Data curation 数据整理

−

*[[Data philanthropy]]

+

]]

−

*[[Data science]]

+

*[[Data defined storage 数据定义存储

−

*[[Datafication]]

+

]]

−

*[[Document-oriented database]]

+

*[[Data lineage 数据谱系]]

−

*[[In-memory processing]]

+

*[[Data philanthropy 数据慈善

−

*[[List of big data ~~companies~~]]

+

]]

−

*[[Urban informatics]]

+

*[[Data science 数据科学

−

*[[Very large database]]

+

]]

+

*[[Datafication 数据化

+

]]

+

*[[Document-oriented database 面向文档的数据库

+

]]

+

*[[In-memory processing 内存处理

+

]]

+

*[[List of big data companies大数据公司名单

+

]]

+

*[[Urban informatics 城市信息学

+

]]

+

*[[Very large database 超大数据库

+

]]

*[[XLDB]]}}

−

=~~= References =~~=

+

= 参考文献 =

{{Reflist

|refs =

第1,077行：第1,249行：

}}

−

== ~~Further reading ==~~

+

= 拓展材料 =

−

~~{{Library resources box}}~~

+

*{{cite magazine|editor1=Peter Kinnaird |editor2=Inbal Talgam-Cohen|magazine=[[XRDS (magazine)|XRDS: Crossroads, The ACM Magazine for Students]]|title=Big Data|volume=19 |issue=1|date=2012|publisher=[[Association for Computing Machinery]]|issn=1528-4980 |oclc=779657714 |url=http://dl.acm.org/citation.cfm?id=2331042}}

−

+

*{{cite book|title=Mining of massive datasets|author1=Jure Leskovec|author2-link=Anand Rajaraman|author2=Anand Rajaraman|author3-link=Jeffrey D. Ullman|author3=Jeffrey D. Ullman|year=2014|publisher=Cambridge University Press|url=http://mmds.org/|isbn=9781107077232 |oclc=888463433|author1-link=Jure Leskovec}}

−

* {{cite magazine|editor1=Peter Kinnaird |editor2=Inbal Talgam-Cohen|magazine=[[XRDS (magazine)|XRDS: Crossroads, The ACM Magazine for Students]]|title=Big Data|volume=19 |issue=1|date=2012|publisher=[[Association for Computing Machinery]]|issn=1528-4980 |oclc=779657714 |url=http://dl.acm.org/citation.cfm?id=2331042}}

+

*{{cite book|author1=Viktor Mayer-Schönberger|author2-link=Kenneth Cukier|author2=Kenneth Cukier|title=Big Data: A Revolution that Will Transform how We Live, Work, and Think|date=2013|publisher=Houghton Mifflin Harcourt|isbn=9781299903029 |oclc=828620988|author1-link=Viktor Mayer-Schönberger}}

−

* {{cite book|title=Mining of massive datasets|author1=Jure Leskovec|author2-link=Anand Rajaraman|author2=Anand Rajaraman|author3-link=Jeffrey D. Ullman|author3=Jeffrey D. Ullman|year=2014|publisher=Cambridge University Press|url=http://mmds.org/|isbn=9781107077232 |oclc=888463433|author1-link=Jure Leskovec}}

+

*{{cite news |url=https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data |title=A Very Short History of Big Data |first=Gil |last=Press |work=forbes.com |date=9 May 2013 |access-date=17 September 2016 |location=Jersey City, NJ}}

−

* {{cite book|author1=Viktor Mayer-Schönberger|author2-link=Kenneth Cukier|author2=Kenneth Cukier|title=Big Data: A Revolution that Will Transform how We Live, Work, and Think|date=2013|publisher=Houghton Mifflin Harcourt|isbn=9781299903029 |oclc=828620988|author1-link=Viktor Mayer-Schönberger}}

+

*{{cite book |title=Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are |year=2017 |first=Seth |last=Stephens-Davidowitz |publisher=Dey Street Books |isbn=978-0062390851}}

−

* {{cite news |url=https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data |title=A Very Short History of Big Data |first=Gil |last=Press |work=forbes.com |date=9 May 2013 |access-date=17 September 2016 |location=Jersey City, NJ}}

+

*{{cite magazine |url=https://hbr.org/2012/10/big-data-the-management-revolution |title=Big Data: The Management Revolution|magazine=Harvard Business Review |date=October 2012|work=}}

−

* {{cite book |title=Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are |year=2017 |first=Seth |last=Stephens-Davidowitz |publisher=Dey Street Books |isbn=978-0062390851}}

+

*{{cite book |title=Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy |first=Cathy |last= O'Neil |year=2017 |publisher=Broadway Books |isbn=978-0553418835}}

−

* {{cite magazine |url=https://hbr.org/2012/10/big-data-the-management-revolution |title=Big Data: The Management Revolution|magazine=Harvard Business Review |date=October 2012|work=}}

−

* {{cite book |title=Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy |first=Cathy |last= O'Neil |year=2017 |publisher=Broadway Books |isbn=978-0553418835}}

*

第1,093行：第1,263行：

*

+

= 外部链接 =

*

+

维基媒体共享空间中与大数据相关的媒体{{Commonsinline}}

−

*

+

维基词典对大数据的定义{{Wiktionary-inline|big data}}

−

*

−

*

−

*

−

*

−

*

−

*

−

~~== External links ==~~

−

*{{Commonsinline}}

−

* {{Wiktionary-inline|big data}}

−

*

−

*

−

~~= = = 外部链接 = =~~

−

*

−

*

−

~~{{Authority control}}~~

−

[[Category:Big data| ]]

[[Category:Data management]]

第1,131行：第1,277行：

[[Category:Data analysis]]

[[Category:Databases]]

−

~~Category:Data management~~

−

~~Category:Distributed computing problems~~

−

~~Category:Transaction processing~~

−

~~Category:Technology forecasting~~

−

~~Category:Data analysis~~

−

~~Category:Databases~~

−

~~类别: 数据管理类别: 分布式计算/科技预测问题类别: 交易处理类别: 数据分析类别: 数据库~~

−

~~<noinclude>~~

−

~~<small>This page was moved from [[wikipedia:en:Big data]]. Its edit history can be viewed at [[大数据/edithistory]]</small></noinclude>~~

−

[[Category:待整理页面]]

L（吕奥博）

35

个编辑