更改

大数据 (查看源代码)

2022年2月7日 (一) 10:56的版本

添加247字节、 2022年2月7日 (一) 10:56

V0.6_20220207_翻译

第240行：第240行：

MIKE2.0是一个开放的信息管理方法，它承认由于《大数据解决方案提供》一文中确定的大数据影响，需要进行修订。这种方法论通过数据源的有用排列、相互关系的复杂性以及删除(或修改)单个记录的困难来处理大数据。

−

'''''【终译版】'''''迈克。0是一种开放的信息管理方法，它承认由于在一篇题为“大数据解决方案提供”的文章中指出的大数据影响，需要进行修订。该方法从数据源的有用排列、相互关系的复杂性以及删除（或修改）单个记录的难度等方面处理大数据。

+

'''''【终译版】'''''MIKE2.0是一个开放的信息管理方法，它承认由于在一篇题为“大数据解决方案提供”的文章中指出的大数据影响，需要进行修订。该方法从数据源的有用排列、相互关系的复杂性以及删除（或修改）单个记录的难度等方面处理大数据。

Studies in 2012 showed that a multiple-layer architecture was one option to address the issues that big data presents. A [[List of file systems#Distributed parallel file systems|distributed parallel]] architecture distributes data across multiple servers; these parallel execution environments can dramatically improve data processing speeds. This type of architecture inserts data into a parallel DBMS, which implements the use of MapReduce and Hadoop frameworks. This type of framework looks to make the processing power transparent to the end-user by using a front-end application server.<ref>{{cite journal|last=Boja|first=C|author2=Pocovnicu, A |author3=Bătăgan, L. |title=Distributed Parallel Architecture for Big Data|journal=Informatica Economica|year=2012 |volume=16|issue=2| pages=116–127}}</ref>

第762行：第762行：

==Research activities==

+

== 研究活动 ==

Encrypted search and cluster formation in big data were demonstrated in March 2014 at the American Society of Engineering Education. Gautam Siwach engaged at ''Tackling the challenges of Big Data'' by [[MIT Computer Science and Artificial Intelligence Laboratory]] and Amir Esmailpour at the UNH Research Group investigated the key features of big data as the formation of clusters and their interconnections. They focused on the security of big data and the orientation of the term towards the presence of different types of data in an encrypted form at cloud interface by providing the raw definitions and real-time examples within the technology. Moreover, they proposed an approach for identifying the encoding technique to advance towards an expedited search over encrypted text leading to the security enhancements in big data.<ref>{{cite conference |url=http://asee-ne.org/proceedings/2014/Student%20Papers/210.pdf |title=Encrypted Search & Cluster Formation in Big Data |last1=Siwach |first1=Gautam |last2=Esmailpour |first2=Amir |date=March 2014 |conference=ASEE 2014 Zone I Conference |conference-url=http://ubconferences.org/ |location=[[University of Bridgeport]], [[Bridgeport, Connecticut|Bridgeport]], Connecticut, US |access-date=26 July 2014 |archive-url=https://web.archive.org/web/20140809045242/http://asee-ne.org/proceedings/2014/Student%20Papers/210.pdf |archive-date=9 August 2014 |url-status=dead }}</ref>

第859行：第861行：

===Sampling big data===

+

=== 大数据采样 ===

A research question that is asked about big data sets is whether it is necessary to look at the full data to draw certain conclusions about the properties of the data or if is a sample is good enough. The name big data itself contains a term related to size and this is an important characteristic of big data. But [[Sampling (statistics)|sampling]] enables the selection of right data points from within the larger data set to estimate the characteristics of the whole population. In manufacturing different types of sensory data such as acoustics, vibration, pressure, current, voltage, and controller data are available at short time intervals. To predict downtime it may not be necessary to look at all the data but a sample may be sufficient. Big data can be broken down by various data point categories such as demographic, psychographic, behavioral, and transactional data. With large sets of data points, marketers are able to create and use more customized segments of consumers for more strategic targeting.

第864行：第868行：

关于大数据集，人们提出的一个研究问题是，是否有必要查看完整的数据，以便对数据的属性得出某些结论，或者样本是否足够好。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但是，抽样可以从较大的数据集中选择正确的数据点，以估计整个种群的特征。在制造不同类型的感官数据，如声学，振动，压力，电流，电压和控制器数据可在短时间间隔。为了预测停机时间，可能不需要查看所有的数据，但是一个样本就足够了。大数据可以按照不同的数据点分类，如人口统计学、心理学、行为学和交易数据。有了大量的数据点，营销人员就能够创造和使用更多的定制的消费者细分市场，从而实现更具战略性的目标。

−

'''''【终译版】'''''关于大数据集的一个研究问题是，是否有必要查看完整的数据，以得出关于数据属性的某些结论，或者样本是否足够好。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点，以估计整个人口的特征。在制造过程中，不同类型的感官数据（如声学、振动、压力、电流、电压和控制器数据）在短时间间隔内可用。要预测停机时间，可能不需要查看所有数据，但一个样本就足够了。大数据可以按不同的数据点分类，如人口统计、心理、行为和交易数据。有了大量的数据点，营销人员可以创建和使用更多定制的消费者群体，以实现更具战略性的目标。

There has been some work done in sampling algorithms for big data. A theoretical formulation for sampling Twitter data has been developed.<ref>{{cite conference |author1=Deepan Palguna |author2= Vikas Joshi |author3=Venkatesan Chakravarthy |author4=Ravi Kothari |author5=L. V. Subramaniam |name-list-style=amp | title=Analysis of Sampling Algorithms for Twitter | journal=[[International Joint Conference on Artificial Intelligence]] | year=2015 }}</ref>

第873行：第875行：

在大数据的抽样算法方面已经做了一些工作。已经开发了一个抽样 Twitter 数据的理论公式。

−

'''''【终译版】'''''~~在大数据采样算法方面已经做了一些工作。推特数据抽样的理论公式已经开发出来。~~

+

'''''【终译版】'''''关于大数据集的一个研究问题是，是否有必要查看完整的数据或者样本要足够好，以得出关于数据属性的某些结论。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点，以估计整个人口的特征。在制造过程中，不同类型的感官数据（如声学、振动、压力、电流、电压和控制器数据）在短时间间隔内可用。要预测停机时间，可能不需要查看所有数据，仅一个样本就足够了。大数据可以按不同的数据点分类，如人口统计、心理、行为和交易数据。有了大量的数据，营销人员可以创建和使用更多定制的消费者群体，以实现更具战略性的目标。

+

在大数据采样算法方面已经有了一些成果。比如抽样 Twitter 数据的理论公式已被开发出。

==Critique==

+

== 批评 ==

Critiques of the big data paradigm come in two flavors: those that question the implications of the approach itself, and those that question the way it is currently done.<ref name="Kimble and Milolidakis (2015)">{{Cite Q|Q56532925}}</ref> One approach to this criticism is the field of [[critical data studies]].

第882行：第888行：

对大数据范式的批评有两种: 一种质疑方法本身的含义，另一种质疑目前的方法。批评的一个方法是批判性数据研究领域。

−

'''''【终译版】'''''~~对大数据范式的批评有两种：一种是质疑方法本身的含义，另一种是质疑目前的做法。对这种批评的一种方法是关键数据研究领域。~~

+

'''''【终译版】'''''针对大数据范式的批评有两种：一种是质疑方法本身，另一种是质疑目前的方法。对这种批评的一个形式是批判性数据研究领域。

===Critiques of the big data paradigm===

+

=== 针对大数据范式的批评 ===

"A crucial problem is that we do not know much about the underlying empirical micro-processes that lead to the emergence of the[se] typical network characteristics of Big Data."<ref name="Editorial" /> In their critique, Snijders, Matzat, and [[Ulf-Dietrich Reips|Reips]] point out that often very strong assumptions are made about mathematical properties that may not at all reflect what is really going on at the level of micro-processes. Mark Graham has leveled broad critiques at [[Chris Anderson (writer)|Chris Anderson]]'s assertion that big data will spell the end of theory:<ref>{{Cite magazine|url=https://www.wired.com/science/discoveries/magazine/16-07/pb_theory|title=The End of Theory: The Data Deluge Makes the Scientific Method Obsolete|author=Chris Anderson|date=23 June 2008|magazine=Wired}}</ref> focusing in particular on the notion that big data must always be contextualized in their social, economic, and political contexts.<ref>{{cite news |author=Graham M. |title=Big data and the end of theory? |newspaper=The Guardian |url= https://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory |location=London |date=9 March 2012}}</ref> Even as companies invest eight- and nine-figure sums to derive insight from information streaming in from suppliers and customers, less than 40% of employees have sufficiently mature processes and skills to do so. To overcome this insight deficit, big data, no matter how comprehensive or well analyzed, must be complemented by "big judgment", according to an article in the ''[[Harvard Business Review]]''.<ref>{{cite journal|title=Good Data Won't Guarantee Good Decisions |journal=[[Harvard Business Review]]|url=http://hbr.org/2012/04/good-data-wont-guarantee-good-decisions/ar/1|author=Shah, Shvetank|author2=Horne, Andrew|author3=Capellá, Jaime |access-date=8 September 2012|date=April 2012}}</ref>

第891行：第899行：

= = = 对大数据范式的批评 = = = “一个关键问题是，我们对导致出现大数据的典型网络特征的潜在经验微过程知之甚少。”斯奈德斯、马扎特和瑞普斯在他们的评论中指出，通常对数学性质做出的非常强有力的假设，可能根本不能反映微过程层面的真实情况。马克 · 格雷厄姆对克里斯 · 安德森断言大数据将意味着理论的终结提出了广泛的批评: 特别关注大数据必须始终与其社会、经济和政治背景相联系的概念。尽管企业投入了8位数和9位数的资金，从供应商和客户源源不断的信息中获取洞察力，但只有不到40% 的员工拥有足够成熟的流程和技能来做到这一点。《哈佛商业评论》(Harvard Business Review)的一篇文章指出，为了克服这种洞察力不足，无论大数据分析得多么全面，多么精确，都必须辅之以“大判断力”。

−

'''''【终译版】'''''“一个关键问题是，我们对导致大数据典型网络特征出现的潜在经验微观过程知之甚少。”Snijders、Matzat和Reips在他们的评论中指出，通常对数学性质做出非常强烈的假设，这些假设可能根本无法反映微观过程水平上的真实情况。马克·格雷厄姆（Mark Graham）对克里斯·安德森（Chris Anderson）关于大数据将意味着理论的终结的断言提出了广泛的批评：他特别关注大数据必须始终在其社会、经济和政治背景下进行语境化的概念。尽管公司投入8位数和9位数的资金，从供应商和客户的信息流中获取洞察力，但只有不到40%~~的员工拥有足够成熟的流程和技能。根据《哈佛商业评论》（Harvard~~ Business ~~Review）上的一篇文章，为了克服这种洞察力缺陷，大数据无论多么全面或分析得多么好，都必须辅之以“大判断”。~~

+

'''''【终译版】'''''“一个关键问题是，我们对导致大数据典型网络特征出现的潜在经验微观过程知之甚少。”Snijders、Matzat和Reips在他们的评论中指出，通常对数学性质做出非常强烈的假设，这些假设可能根本无法反映微观过程上的真实情况。马克·格雷厄姆（Mark Graham）批评了克里斯·安德森（Chris Anderson）关于大数据将意味着理论的终结的断言：他特别关注大数据必须始终在其社会、经济和政治背景下进行语境化的概念。尽管公司投入8位数甚至9位数的资金，从供应商和客户的信息流中获取洞察力，但只有不到40%的员工拥有足够成熟的技能。根据《哈佛商业评论》（Harvard Business Review）上的一篇文章，为了克服这种洞察力缺陷，大数据无论多么全面或分析得多么好，都必须辅之以“综合判断力”。

Much in the same line, it has been pointed out that the decisions based on the analysis of big data are inevitably "informed by the world as it was in the past, or, at best, as it currently is".<ref name="HilbertBigData2013">Hilbert, M. (2016). Big Data for Development: A Review of Promises and Challenges. Development Policy Review, 34(1), 135–174. https://doi.org/10.1111/dpr.12142 free access: https://www.martinhilbert.net/big-data-for-development/</ref> Fed by a large number of data on past experiences, algorithms can predict future development if the future is similar to the past.<ref name="HilbertTEDx">[https://www.youtube.com/watch?v=UXef6yfJZAI Big Data requires Big Visions for Big Change.], Hilbert, M. (2014). London: TEDx UCL, x=independently organized TED talks</ref> If the system's dynamics of the future change (if it is not a [[stationary process]]), the past can say little about the future. In order to make predictions in changing environments, it would be necessary to have a thorough understanding of the systems dynamic, which requires theory.<ref name="HilbertTEDx"/> As a response to this critique Alemany Oliver and Vayre suggest to use "abductive reasoning as a first step in the research process in order to bring context to consumers' digital traces and make new theories emerge".<ref>{{cite journal|last=Alemany Oliver|first=Mathieu |author2=Vayre, Jean-Sebastien |s2cid=111360835 |title= Big Data and the Future of Knowledge Production in Marketing Research: Ethics, Digital Traces, and Abductive Reasoning|journal=Journal of Marketing Analytics |year=2015|volume=3|issue=1|doi= 10.1057/jma.2015.1|pages=5–13}}</ref>

第901行：第909行：

与此类似，有人指出，基于大数据分析的决策不可避免地“受到过去世界的影响，或者充其量受到现在世界的影响”。希尔伯特(2016)。大数据促进发展: 承诺与挑战述评。发展政策检讨，34(1) ，135-174。Https://doi.org/10.1111/dpr.12142免费访问: 由过去经验的大量数据提供的 https://www.martinhilbert.net/big-data-for-development/ ，算法可以预测未来的发展，如果未来类似于过去。大数据需要大变化的远见，希尔伯特，m. (2014)。伦敦: TEDx 伦敦大学学院，x = 独立组织的 TED 演讲如果系统对未来的动态变化(如果不是一个平稳过程) ，过去对未来的影响微乎其微。为了在不断变化的环境中做出预测，需要对系统的动态性有一个透彻的理解，这需要理论。作为对这种批评的回应，Alemany Oliver 和 Vayre 建议使用“溯因推理作为研究过程中的第一步，以便为消费者的数字痕迹提供背景，并产生新的理论”。此外，有人建议将大数据方法与计算机模拟相结合，如基于主体的模型和复杂系统。基于代理的模型越来越能够通过基于一组相互依赖的算法的计算机模拟来预测未来未知情况下的社会复杂性的结果。爱泼斯坦，j. m. ，& Axtell，r. l. (1996)。成长中的人工社会: 自下而上的社会科学。一本布拉德福德的书。最后，使用多变量方法探测数据的潜在结构，如因子分析和数据聚类分析，已被证明是有用的分析方法，远远超出了双变量方法(例如:。列联表)通常用于较小的数据集。

−

'''''【终译版】'''''与此大致相同的是，有人指出，基于大数据分析的决策不可避免地“像过去一样，或者充其量也像现在一样，受到世界的影响”。通过大量关于过去经验的数据，如果未来与过去相似，算法可以预测未来的发展。如果系统对未来的动态变化（如果它不是一个平稳的过程），那么过去对未来的影响就很小。为了在不断变化的环境中做出预测，有必要对系统动力学有一个透彻的了解，这需要理论。作为对这一批评的回应，Alemany Oliver和Vayre建议使用“诱因推理作为研究过程的第一步，以便为消费者的数字痕迹提供背景，并使新的理论出现”。此外，有人建议将大数据方法与计算机模拟相结合，例如基于代理的模型和复杂系统。通过基于一系列相互依赖的算法的计算机模拟，基于代理的模型在预测甚至未知未来场景的社会复杂性的结果方面越来越好。最后，探索数据潜在结构的多变量方法的使用，如因子分析和聚类分析，已被证明是有用的分析方法，远远超出了通常用于较小数据集的双变量方法（如列联表）。

+

'''''【终译版】'''''与此大致相同的是，有人指出，基于大数据分析的决策不可避免地“像过去一样，或者充其量也像现在一样，受到世界的影响”。如果未来与过去相似，通过大量关于过去经验的数据，算法可以预测未来的发展。如果系统对未来的动态变化（如果它不是一个平稳的过程），那么过去对未来的影响就很小。为了在不断变化的环境中做出预测，有必要对系统动力学有一个透彻的了解。作为对这一批评的回应，Alemany Oliver和Vayre建议使用“诱因推理作为研究过程的第一步，以便为消费者的数字痕迹提供背景，并使新的理论出现”。此外，有人建议将大数据方法与计算机模拟相结合，例如基于代理的模型和复杂系统。通过基于一系列相互依赖的算法的计算机模拟，基于代理的模型在预测甚至未知场景的社会复杂性的结果方面越来越好。最后，探索数据潜在结构的多变量方法的使用，如因子分析和聚类分析，已被证明是有用的分析方法，远远超出了通常用于较小数据集的双变量方法。

In health and biology, conventional scientific approaches are based on experimentation. For these approaches, the limiting factor is the relevant data that can confirm or refute the initial hypothesis.<ref>{{cite web|url=http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=5| title=Delort P., Big data in Biosciences, Big Data Paris, 2012|website =Bigdataparis.com |access-date=8 October 2017}}</ref>

第911行：第919行：

在健康和生物学领域，传统的科学方法是建立在实验的基础上的。对于这些方法，限制因素是相关的数据，可以证实或反驳最初的假设。生物科学现在接受了一个新的假设: 没有事先假设的大量数据(组学)所提供的信息是互补的，有时是基于实验的传统方法所必需的。在大量的方法中，它是一个相关假设的表述，以解释数据，这是限制因素。搜索的逻辑是颠倒的，归纳法的局限性(“科学的荣耀与哲学的丑闻”，C.d. 布罗德，1926)是需要考虑的。

−

'''''【终译版】'''''在健康和生物学领域，传统的科学方法是基于实验的。对于这些方法，限制因素是可以证实或反驳初始假设的相关数据。如今，生物科学界接受了一个新的假设：大量数据（组学）提供的信息（无需事先假设）是对基于实验的传统方法的补充，有时是必要的。在大规模方法中，相关假设的表述是解释数据的限制因素。搜索逻辑被颠倒，归纳的局限性（“科学和哲学的荣耀丑闻”，C.D.布罗德，1926年）将被考虑。

+

'''''【终译版】'''''在健康和生物学领域，传统的科学方法是基于实验的。对于这些方法，限制因素是相关的数据，可以证实或反驳最初的假设。如今，生物科学界接受了一个新的假设：大量数据（组学）提供的信息（无需事先假设）是对基于实验的传统方法的补充，有时是必需的。在大数据方法中，相关假设的表述是解释数据的限制因素。搜索逻辑被颠倒以及归纳的局限性是需要考虑的。

[[Consumer privacy|Privacy]] advocates are concerned about the threat to privacy represented by increasing storage and integration of [[personally identifiable information]]; expert panels have released various policy recommendations to conform practice to expectations of privacy.<ref>{{cite magazine |first=Paul |last=Ohm |title=Don't Build a Database of Ruin |magazine=Harvard Business Review |url=http://blogs.hbr.org/cs/2012/08/dont_build_a_database_of_ruin.html|date=23 August 2012 }}</ref> The misuse of big data in several cases by media, companies, and even the government has allowed for abolition of trust in almost every fundamental institution holding up society.<ref>Bond-Graham, Darwin (2018). [https://www.theperspective.com/debates/the-perspective-on-big-data/ "The Perspective on Big Data"]. [[The Perspective]].</ref>

第919行：第927行：

隐私权倡导者担心隐私权受到威胁，这种威胁表现在个人身份信息的存储和整合不断增加; 专家小组已经发布了各种政策建议，使实践符合隐私权的期望。媒体、公司甚至政府在几个案例中滥用大数据，导致几乎所有支撑社会的基础机构都失去了信任。邦德-格雷厄姆，达尔文(2018)。“大数据透视”。透视法。

−

'''''【终译版】'''''隐私倡导者担心个人身份信息的存储和集成增加对隐私的威胁；专家小组发布了各种政策建议，以使实践符合对隐私的期望。媒体、公司甚至政府在几起案件中滥用大数据，导致几乎所有支撑社会的基本机构都失去了信任。邦德·格雷厄姆，达尔文（2018）。“大数据透视”。视角。

+

'''''【终译版】'''''隐私倡导者担心个人身份信息的存储和收集增加了对隐私的威胁；专家小组发布了各种政策建议，以使实践符合对隐私的期望。媒体、公司甚至政府在几起案件中滥用大数据，导致几乎所有支撑社会的基本机构都失去了信任。

Nayef Al-Rodhan argues that a new kind of social contract will be needed to protect individual liberties in the context of big data and giant corporations that own vast amounts of information, and that the use of big data should be monitored and better regulated at the national and international levels.<ref>{{Cite news|url=http://hir.harvard.edu/the-social-contract-2-0-big-data-and-the-need-to-guarantee-privacy-and-civil-liberties/|title=The Social Contract 2.0: Big Data and the Need to Guarantee Privacy and Civil Liberties – Harvard International Review|last=Al-Rodhan|first=Nayef|date=16 September 2014|work=Harvard International Review|access-date=3 April 2017|archive-url=https://web.archive.org/web/20170413090835/http://hir.harvard.edu/the-social-contract-2-0-big-data-and-the-need-to-guarantee-privacy-and-civil-liberties/|archive-date=13 April 2017|url-status=dead}}</ref> Barocas and Nissenbaum argue that one way of protecting individual users is by being informed about the types of information being collected, with whom it is shared, under what constraints and for what purposes.<ref>{{Cite book|title=Big Data's End Run around Anonymity and Consent| last1 =Barocas |first1=Solon |last2=Nissenbaum |first2=Helen|last3=Lane|first3=Julia|last4=Stodden|first4=Victoria|last5=Bender|first5=Stefan|last6=Nissenbaum|first6=Helen| s2cid =152939392|date=June 2014| publisher =Cambridge University Press|isbn=9781107067356|pages=44–75|doi =10.1017/cbo9781107590205.004}}</ref>

第927行：第935行：

纳耶夫 · 阿尔罗德汉认为，在拥有大量信息的大数据和巨型公司的背景下，需要一种新型的社会契约来保护个人自由，大数据的使用应该在国家和国际层面受到监督和更好的管理。巴罗卡斯和尼森鲍姆认为，保护个人用户的一种方法是了解收集的信息类型、与谁共享、受到何种限制以及用于何种目的。

−

'''''【终译版】'''''Nayef Al-Rodhan认为，在大数据和拥有大量信息的大公司的背景下，需要一种新的社会契约来保护个人自由，大数据的使用应该在国家和国际层面受到监控和更好的监管。Barocas和Nissenbaum认为，保护个人用户的一种方法是，让用户了解所收集的信息类型、与谁共享信息、在什么约束下以及出于什么目的。

+

'''''【终译版】'''''Nayef Al-Rodhan认为，在大数据和拥有大量信息的大公司的背景下，需要一种新的社会契约来保护个人自由，大数据的使用应该在国家和国际层面受到更好的监管。Barocas和Nissenbaum认为，保护个人用户的一种方法是，让用户了解所收集的信息类型、与谁共享信息、在什么约束下以及出于什么目的。

===Critiques of the "V" model===

第947行：第955行：

* 解释性和可解释性: 人类渴望理解和接受他们所理解的东西，而算法不能处理这个

* 自动决策层: 支持自动决策和自我学习的算法

−

'''''【终译版】'''''

−

大数据的“V”模型令人担忧，因为它以计算可伸缩性为中心，缺乏信息的可感知性和可理解性。这导致了认知大数据框架的形成，该框架根据以下特点描述了大数据应用：

+

=== 针对“ v”模型的批评 ===

+

大数据的“V”模型令人担忧，因为它以计算的可延展性为中心，缺乏信息的可感知性和可理解性。这导致了认知大数据框架的形成，该框架根据以下特点描述了大数据应用：

−

~~数据完整性：从数据中理解不明显的信息~~

+

数据完整性：从数据中理解意义不明的信息。

−

~~数据相关性、因果关系和可预测性：因果关系不是实现可预测性的必要条件~~

+

数据相关性、因果关系和可预测性：因果关系不是实现可预测性的必要条件。

−

~~可解释性和可解释性：人类渴望理解并接受他们所理解的，而算法无法解决这一问题~~

+

可解释性和可解释性：人类渴望理解并接受他们所理解的，而算法无法实现这一目标。

−

~~自动决策水平：支持自动决策和算法自学习的算法~~

+

自动决策的水平：支持自动决策算法和自我学习算法。

===Critiques of novelty===

第969行：第975行：

= = = 对新奇性的批评 = = = 大型数据集已经通过计算机进行了一个多世纪的分析，包括美国人口普查分析，由 IBM 的打孔卡片机进行，计算统计数据，包括整个大陆人口的均值和方差。近几十年来，欧洲核子研究中心(CERN)等科学实验所产生的数据规模与当前的商业“大数据”类似。然而，科学实验倾向于使用专门定制的高性能计算(超级计算)集群和网格来分析数据，而不是像当前商业浪潮中那样使用廉价的商品计算机云，这意味着文化和技术层面的差异。

−

'''''【终译版】'''''一个多世纪以来，计算机一直在分析大型数据集，包括IBM的穿孔卡片机进行的美国人口普查分析，该机器计算统计数据，包括整个大陆人口的均值和方差。近几十年来，欧洲核子研究中心（CERN）等科学实验产生的数据规模与当前的商业“大数据”相似。然而，科学实验倾向于使用专门定制的高性能计算（超级计算）集群和网格来分析数据，而不是像当前的商业浪潮那样使用廉价商品计算机云，这意味着文化和技术堆栈上的差异。

+

'''''【终译版】'''''

+

=== 对新颖性的批评 ===

+

一个多世纪以来，计算机一直在分析大型数据集，包括IBM的穿孔卡片机进行的美国人口普查分析，该机器计算统计数据，包括整个大陆人口的均值和方差。近几十年来，欧洲核子研究中心（CERN）等科学实验产生的数据规模与当前的商业“大数据”类似。然而，科学实验倾向于使用专门定制的高性能计算（超级计算）集群和网格来分析数据，而不是像当前的商业应用那样使用廉价商品计算机云，这意味着文化和技术堆栈上的差异。

===Critiques of big data execution===

+

=== 针对大数据执行的批评 ===

[[Ulf-Dietrich Reips]] and Uwe Matzat wrote in 2014 that big data had become a "fad" in scientific research.<ref name="pigdata" /> Researcher [[danah boyd]] has raised concerns about the use of big data in science neglecting principles such as choosing a [[Sampling (statistics)|representative sample]] by being too concerned about handling the huge amounts of data.<ref name="danah">{{cite web | url=http://www.danah.org/papers/talks/2010/WWW2010.html | title=Privacy and Publicity in the Context of Big Data | author=danah boyd | work=[[World Wide Web Conference|WWW 2010 conference]] | date=29 April 2010 | access-date = 18 April 2011| author-link=danah boyd }}</ref> This approach may lead to results that have a [[Bias (statistics)|bias]] in one way or another.<ref>{{Cite journal|last=Katyal|first=Sonia K.|date=2019|title=Artificial Intelligence, Advertising, and Disinformation|url=https://muse.jhu.edu/article/745987|journal=Advertising & Society Quarterly|language=en|volume=20|issue=4|doi=10.1353/asr.2019.0026|s2cid=213397212|issn=2475-1790}}</ref> Integration across heterogeneous data resources—some that might be considered big data and others not—presents formidable logistical as well as analytical challenges, but many researchers argue that such integrations are likely to represent the most promising new frontiers in science.<ref>{{cite journal |last1=Jones |first1=MB |last2=Schildhauer |first2=MP |last3=Reichman |first3=OJ |last4=Bowers | first4=S |title=The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere | journal=Annual Review of Ecology, Evolution, and Systematics |volume=37 |issue=1 |pages=519–544 |year=2006 |doi=10.1146/annurev.ecolsys.37.091305.110031 |url= http://www.pnamp.org/sites/default/files/Jones2006_AREES.pdf }}</ref>

In the provocative article "Critical Questions for Big Data",<ref name="danah2">{{cite journal | doi = 10.1080/1369118X.2012.678878| title = Critical Questions for Big Data| journal = Information, Communication & Society| volume = 15| issue = 5| pages = 662–679| year = 2012| last1 = Boyd | first1 = D. | last2 = Crawford | first2 = K. | s2cid = 51843165| hdl = 10983/1320| hdl-access = free}}</ref> the authors title big data a part of [[mythology]]: "large data sets offer a higher form of intelligence and knowledge [...], with the aura of truth, objectivity, and accuracy". Users of big data are often "lost in the sheer volume of numbers", and "working with Big Data is still subjective, and what it quantifies does not necessarily have a closer claim on objective truth".<ref name="danah2" /> Recent developments in BI domain, such as pro-active reporting especially target improvements in the usability of big data, through automated [[Filter (software)|filtering]] of [[spurious relationship|non-useful data and correlations]].<ref name="Big Decisions White Paper">[http://www.fortewares.com/Administrator/userfiles/Banner/forte-wares--pro-active-reporting_EN.pdf Failure to Launch: From Big Data to Big Decisions] {{Webarchive|url=https://web.archive.org/web/20161206145026/http://www.fortewares.com/Administrator/userfiles/Banner/forte-wares--pro-active-reporting_EN.pdf |date=6 December 2016 }}, Forte Wares.</ref> Big structures are full of spurious correlations<ref>{{Cite web | url=https://www.tylervigen.com/spurious-correlations | title=15 Insane Things That Correlate with Each Other}}</ref> either because of non-causal coincidences ([[law of truly large numbers]]), solely nature of big randomness<ref>[https://onlinelibrary.wiley.com/loi/10982418 Random structures & algorithms]</ref> ([[Ramsey theory]]), or existence of [[confounding factor|non-included factors]] so the hope, of early experimenters to make large databases of numbers "speak for themselves" and revolutionize scientific method, is questioned.<ref>Cristian S. Calude, Giuseppe Longo, (2016), The Deluge of Spurious Correlations in Big Data, [[Foundations of Science]]</ref>

第979行：第990行：

= = = 对大数据执行的批评 = = = Ulf-Dietrich Reips 和 Uwe Matzat 在2014年写道，大数据已经成为科学研究的“时尚”。研究人员 danah boyd 对大数据在科学中的应用表示担忧，他忽视了一些原则，比如过于关注海量数据的处理而选择了具有代表性的样本。这种方法可能会导致在某种程度上存在偏见的结果。跨越不同种类的数据资源(有些可能被认为是大数据，有些则不是)的整合带来了巨大的逻辑和分析挑战，但许多研究人员认为，这种整合可能代表了科学界最有前途的新领域。在这篇颇具煽动性的文章《大数据的关键问题》(Critical Questions for Big Data)中，作者将大数据称为神话的一部分: “大数据集提供了更高形式的智力和知识[ ... ... ] ，带有真实、客观和准确的光环。”。大数据的使用者往往”迷失在庞大的数字中”，而且”使用大数据仍然是主观的，它量化的东西不一定能够更接近客观事实”。BI 领域的最新发展，例如前瞻性报告，特别是通过自动过滤非有用数据和相关性提高大数据的可用性。发布失败: 从大数据到重大决策，Forte Wares。大结构充满了虚假的相关性，要么是由于非因果巧合(真正的大数定律) ，大随机结构和算法(拉姆齐理论)的唯一性，要么是由于非包含因素的存在，因此，早期实验者使大型数据库“为自己说话”和革命性的科学方法的希望受到了质疑。克里斯蒂安 · s · 卡劳德，朱塞佩 · 隆戈，(2016) ，《大数据中伪相关性的泛滥》，《科学基础》

−

'''''【终译版】'''''Ulf Dietrich Reips和Uwe Matzat在2014年写道，大数据已经成为科学研究的“时尚”。研究人员danah boyd对大数据在科学中的使用提出了担忧，他忽略了一些原则，比如选择代表性样本时过于关注处理大量数据。这种方法可能会导致结果在某种程度上存在偏差。跨异构数据资源的集成——一些可能被视为大数据，而另一些可能不会带来巨大的后勤和分析挑战，但许多研究人员认为，这种集成可能代表着科学领域最有前途的新前沿。在挑衅性文章《大数据的关键问题》中，作者将大数据称为神话的一部分：“大数据集提供了更高形式的智能和知识[…]，大数据的用户往往“迷失在数量的巨大中”，而且“使用大数据仍然是主观的，它量化的东西不一定对客观真理有更紧密的要求“.BI领域的最新发展，例如主动报告，特别是通过自动过滤无用数据和相关性来改善大数据的可用性。大结构充满虚假相关性，要么是因为非因果巧合（真大数定律），要么仅仅是大随机性的本质（拉姆齐理论）或非包含因素的存在，因此早期实验者建立大型数字数据库“为自己说话”并革新科学方法的希望受到质疑。

Big data analysis is often shallow compared to analysis of smaller data sets.<ref name="kdnuggets-berchthold">{{cite web|url=http://www.kdnuggets.com/2014/08/interview-michael-berthold-knime-research-big-data-privacy-part2.html|title=Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2|date=12 August 2014|author=Gregory Piatetsky| author-link= Gregory I. Piatetsky-Shapiro|publisher=KDnuggets|access-date=13 August 2014}}</ref> In many big data projects, there is no large data analysis happening, but the challenge is the [[extract, transform, load]] part of data pre-processing.<ref name="kdnuggets-berchthold" />

第988行：第997行：

大数据分析与小数据集分析相比往往是肤浅的。在许多大数据项目中，没有大型的数据分析发生，但是挑战在于提取、转换和加载数据预处理数据的部分。

−

'''''【终译版】'''''与对较小数据集的分析相比，大数据分析往往是肤浅的。在许多大数据项目中，没有进行大数据分析，但挑战在于数据预处理的提取、转换和加载部分。

+

'''''【终译版】'''''Ulf Dietrich Reips和Uwe Matzat在2014年写道，大数据已经成为科学研究的“风潮”。研究人员Danah Boyd对大数据在科学中的使用提出了担忧，因为研究往往忽略了一些原则，比如选择代表性样本时过于关注处理大量数据，这种方法可能会导致结果在某种程度上存在偏差。大量异构数据资源的集成(有些被认为是大数据，有些则不是)带来巨大的后勤和分析挑战，但许多研究人员认为，这种集成可能代表着科学领域最有前途的新前沿。在这篇颇具煽动性的文章《大数据的关键问题》(Critical Questions for Big Data)中，作者将大数据称为神话的一部分：“大数据集提供了更高形式的智能和知识……大数据的用户往往“迷失在庞大的数据量中”，而且“使用大数据仍然是主观的，它量化的东西不一定能够更接近客观事实”。BI领域的最新发展，例如前瞻性报告，特别是通过自动过滤无用数据及相关性来改善大数据的可用性。大数据充满了虚假的相关性，要么是因为非因果巧合（真大数定律），要么是大随机数的唯一性（拉姆齐理论）或其他未发现的因素，因此早期实验者建立大型数字数据库“用数据说话”以及宣称的革新科学方法都受到了质疑。

+

与对较小数据集的分析相比，大数据分析往往是肤浅的。在许多大数据项目中，没有进行大数据分析，但挑战在于提取、转换、加载和预处理数据的部分。

Big data is a [[buzzword]] and a "vague term",<ref>{{cite news|last1=Pelt|first1=Mason|title="Big Data" is an over used buzzword and this Twitter bot proves it|url= http://siliconangle.com/blog/2015/10/26/big-data-is-an-over-used-buzzword-and-this-twitter-bot-proves-it/ |newspaper=Siliconangle|access-date=4 November 2015|date=26 October 2015}}</ref><ref name="ft-harford">{{cite web |url=http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html |title=Big data: are we making a big mistake? |last1=Harford |first1=Tim |date=28 March 2014 |website=[[Financial Times]] |access-date=7 April 2014}}</ref> but at the same time an "obsession"<ref name="ft-harford" /> with entrepreneurs, consultants, scientists, and the media. Big data showcases such as [[Google Flu Trends]] failed to deliver good predictions in recent years, overstating the flu outbreaks by a factor of two. Similarly, [[Academy awards]] and election predictions solely based on Twitter were more often off than on target.

第1,006行：第1,017行：

大数据是一个时髦词汇和“模糊词汇”，但同时也是企业家、咨询师、科学家和媒体的“迷恋”。像谷歌流感趋势这样的大数据展示在最近几年未能提供好的预测，将流感爆发夸大了两倍。同样，仅仅基于推特的奥斯卡奖和选举预测往往不准确。大数据往往会带来与小数据相同的挑战; 增加更多的数据并不能解决偏差问题，但可能会强调其他问题。特别是像推特这样的数据来源并不能代表整个人口，从这些来源得出的结果可能会导致错误的结论。基于大数据文本统计分析的谷歌翻译(Google translate)在网页翻译方面做得很好。然而，来自专门领域的结果可能被严重扭曲。另一方面，大数据也可能引入新的问题，比如多重比较问题: 同时测试大量假设可能会产生许多错误的结果，错误地显得意义重大。约阿尼迪斯认为，“大多数已发表的研究结果都是错误的”，其原因基本上是相同的: 当许多科学团队和研究人员各自进行许多实验(即。处理大量的科学数据，尽管不是使用大数据技术) ，“显著”结果是错误的可能性快速增长——当只有正面的结果被公布时，这种可能性更大。此外，大数据分析的结果只能和它们所预测的模型一样好。举个例子，大数据试图预测2016年美国总统大选的结果，但却取得了不同程度的成功。

−

'''''【终译版】'''''~~大数据是一个时髦词和“模糊术语”，但同时也是对企业家、顾问、科学家和媒体的“痴迷”。近年来，谷歌流感趋势（Google~~ Flu Trends）等大数据展示未能提供良好的预测，将流感疫情高估了两倍。类似地，仅仅基于Twitter的奥斯卡奖和选举预测往往偏离目标，而非目标。大数据往往与小数据面临同样的挑战；添加更多数据并不能解决偏见问题，但可能会强调其他问题。尤其是Twitter等数据源不能代表整个人口，从这些数据源得出的结果可能会导致错误的结论。基于文本大数据统计分析的谷歌翻译在翻译网页方面做得很好。然而，来自专门领域的结果可能会有很大的偏差。另一方面，大数据也可能带来新的问题，比如多重比较问题：同时测试大量假设可能会产生许多错误的结果，这些结果被错误地认为是重要的。Ioannidis认为，“大多数已发表的研究结果都是错误的”，其原因基本上是相同的：当许多科学团队和研究人员各自进行许多实验（即处理大量科学数据；尽管没有使用大数据技术），一个“重大”结果被错误的可能性会迅速增加——甚至更大，当只有积极的结果被公布时。此外，大数据分析结果只能与预测模型一样好。例如，大数据参与了对2016年美国总统选举结果的预测，并取得了不同程度的成功。

+

'''''【终译版】'''''大数据是一个时髦的“模糊术语”，但同时也是企业家、咨询师、科学家和媒体的关注热点。近年来，谷歌流感趋势（Google Flu Trends）等大数据应用在最近几年未能提供好的预测，将流感疫情高估了两倍。类似地，基于Twitter的奥斯卡奖和选举预测往往偏离目标。大数据往往与小数据面临同样的挑战；添加更多数据并不能解决偏见问题，甚至可能会强调其他问题。尤其是Twitter等数据源不能代表整体人口的意见，从这些数据源得出的结果可能会导致错误结论。基于文本大数据统计分析的谷歌翻译在翻译网页方面做得很好。然而，来自专门领域的结果可能会有很大的偏差。另一方面，大数据也可能带来新的问题，比如多重比较问题：同时测试大量假设可能会产生许多错误的结果，这些结果被错误地认为是重要的。Ioannidis认为，“大多数已发表的研究结果都是错误的”，其原因基本上是相同的：当许多科学团队和研究人员各自进行许多实验（即处理大量科学数据；尽管没有使用大数据技术），一个“重大”结果被错误的可能性会迅速增加。而当只有正面的结果被公布时，这种可能性更大。

+

此外，大数据分析结果只能与预测模型一样好。例如，大数据参与了对2016年美国总统选举结果的预测，并取得了与预测模型类似的不同程度的成功。

=== Critiques of big data policing and surveillance ===

第1,035行：第1,048行：

'''''【终译版】'''''

−

大数据已被执法和企业等机构用于警务和监视。由于与传统的警务方法相比，基于数据的监控不那么明显，因此反对大数据警务的可能性较小。根据Sarah Brayne的《大数据监控：警务案例》，大数据警务可以通过三种方式重现现有的社会不平等：

+

=== 针对大数据监管和监视批评 ===

+

大数据已被执法和企业等机构用于警务和监视。与传统的警务方法相比，基于数据的监控不那么明显，因此反对大数据警务的可能性较小。根据Sarah Brayne的《大数据监控：警务案例》（Big Data Surveillance: The Case of Policing），大数据警务会通过三种方式加剧现有的社会不平等：

−

~~通过使用一个数学的、因此是无偏的算法，将嫌疑犯置于更严格的监视之下~~

+

通过使用一个数学的无偏算法，将嫌疑犯置于更严格的监视之下。

−

~~增加执法跟踪的范围和人数，并加剧刑事司法系统中现有的种族比例过高现象~~

+

增加执法跟踪的范围和人数，并加剧刑事司法系统中存在的特定种族比例过高的现象。

−

~~鼓励社会成员放弃与会产生数字痕迹的机构的互动，从而为社会包容制造障碍~~

+

鼓励社会成员放弃与产生数字痕迹的机构的互动，从而为社会包容制造障碍。

−

如果这些潜在问题得不到纠正或监管，大数据监管的影响可能会继续影响社会等级。Brayne还指出，认真使用大数据监管可以防止个人层面的偏见变成制度层面的偏见。

+

如果以上潜在的问题得不到纠正或监管，大数据监管的影响可能会继续影响社会分化。Brayne还指出，谨慎地使用大数据监管可以防止个人层面的偏见变成制度层面的偏见。

==In popular culture==

第1,053行：第1,067行：

《点球成金》是一本非小说类书籍，书中探讨了奥克兰运动家是如何利用统计分析来超越那些预算较大的团队的。2011年，由布拉德 · 皮特主演的改编电影上映。

−

'''''【终译版】'''''~~Moneyball是一本非虚构的书，探讨奥克兰田径队如何利用统计分析来超越预算较大的球队。2011年，布拉德·皮特主演的一部改编电影上映。~~

+

'''''【终译版】'''''《点球成金》（Moneyball）是一本非虚构的书，书中探讨了探讨奥克兰田径队如何利用统计分析来超越那些预算较大的球队。2011年，由布拉德·皮特主演的改编电影上映。

===Film===

第1,066行：第1,080行：

'''''【终译版】'''''

−

~~在《美国队长：冬季士兵》一书中，H~~.Y.D.R.~~A（化装成S.H.I.E.L.D）开发了利用数据确定和消除全球威胁的直升机。~~

+

在《美国队长：寒冬战士》(Captain America: The Winter Soldier)一书中，H.Y.D.R.A (伪装成神盾局)开发了一种利用数据来确定和消除全球威胁的飞行母舰。

−

~~在《黑暗骑士》中，蝙蝠侠使用的声纳设备可以监视整个高谭市。这些数据是通过市内居民的手机收集的。~~

+

在《蝙蝠侠: 黑暗骑士》中，蝙蝠侠使用的声纳设备可以监视整个哥谭市，这些数据是通过市内居民的手机收集的。

= 关联条目 =

L（吕奥博）

35

个编辑

更改

大数据 (查看源代码)

2022年2月7日 (一) 10:56的版本

导航菜单

搜索