更改

大数据 (查看源代码)

2022年3月6日 (日) 23:45的版本

添加1字节、 2022年3月6日 (日) 23:45

第332行：第332行： −

~~2014年3月，英国政府宣布成立艾伦·图灵研究所（Alan~~ Turing ~~Institute），该研究所以计算机先驱和破译者的名字命名，将专注于收集和分析大型数据集的新方法。~~<ref>{{cite news|url=https://www.bbc.co.uk/news/technology-26651179|title=Alan Turing Institute to be set up to research big data|work=[[BBC News]]|access-date=19 March 2014|date=19 March 2014}}</ref>

+

2014年3月，英国政府宣布成立艾伦·图灵研究所 Alan Turing Institute，该研究所以计算机先驱和破译者的名字命名，将专注于收集和分析大型数据集的新方法。<ref>{{cite news|url=https://www.bbc.co.uk/news/technology-26651179|title=Alan Turing Institute to be set up to research big data|work=[[BBC News]]|access-date=19 March 2014|date=19 March 2014}}</ref>

第348行：第348行：

现代海量数据集（MMD）算法研讨会汇集了计算机科学家、统计学家、数学家和数据分析从业者，讨论大数据的算法挑战。<ref>Stanford. [https://web.stanford.edu/group/mmds/ "MMDS. Workshop on Algorithms for Modern Massive Data Sets"].</ref>关于大数据，这样的量级概念是相对的。正如它所说，“如果说过去的数据有什么指导意义的话，那么今天的大数据在不久的将来很可能不会被认为是这样的。”<ref name=CAD7challenges/>

−

=== 大数据采样 ===

关于大数据集的一个研究问题是，是否有必要查看完整的数据或者样本要足够好，以得出关于数据属性的某些结论。大数据这个名称本身包含一个与规模相关的术语，这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点，以估计整个人口的特征。在制造过程中，不同类型的感官数据（如声学、振动、压力、电流、电压和控制器数据）在短时间间隔内可用。要预测停机时间，可能不需要查看所有数据，仅一个样本就足够了。大数据可以按不同的数据点分类，如人口统计、心理、行为和交易数据。有了大量的数据，营销人员可以创建和使用更多定制的消费者群体，以实现更具战略性的目标。

+

在大数据采样算法方面已经有了一些成果。比如抽样 Twitter 数据的理论公式已被开发出。<ref>{{cite conference |author1=Deepan Palguna |author2= Vikas Joshi |author3=Venkatesan Chakravarthy |author4=Ravi Kothari |author5=L. V. Subramaniam | title=Analysis of Sampling Algorithms for Twitter | journal=[[International Joint Conference on Artificial Intelligence]] | year=2015 }}</ref>

+

<br>

== 批评 ==

薄荷

7,129

个编辑