更改

添加1字节 、 2022年3月6日 (日) 23:45
第332行: 第332行:       −
2014年3月,英国政府宣布成立艾伦·图灵研究所(Alan Turing Institute),该研究所以计算机先驱和破译者的名字命名,将专注于收集和分析大型数据集的新方法。<ref>{{cite news|url=https://www.bbc.co.uk/news/technology-26651179|title=Alan Turing Institute to be set up to research big data|work=[[BBC News]]|access-date=19 March 2014|date=19 March 2014}}</ref>
+
2014年3月,英国政府宣布成立艾伦·图灵研究所 Alan Turing Institute,该研究所以计算机先驱和破译者的名字命名,将专注于收集和分析大型数据集的新方法。<ref>{{cite news|url=https://www.bbc.co.uk/news/technology-26651179|title=Alan Turing Institute to be set up to research big data|work=[[BBC News]]|access-date=19 March 2014|date=19 March 2014}}</ref>
      第348行: 第348行:     
现代海量数据集(MMD)算法研讨会汇集了计算机科学家、统计学家、数学家和数据分析从业者,讨论大数据的算法挑战。<ref>Stanford. [https://web.stanford.edu/group/mmds/ "MMDS. Workshop on Algorithms for Modern Massive Data Sets"].</ref>关于大数据,这样的量级概念是相对的。正如它所说,“如果说过去的数据有什么指导意义的话,那么今天的大数据在不久的将来很可能不会被认为是这样的。”<ref name=CAD7challenges/>
 
现代海量数据集(MMD)算法研讨会汇集了计算机科学家、统计学家、数学家和数据分析从业者,讨论大数据的算法挑战。<ref>Stanford. [https://web.stanford.edu/group/mmds/ "MMDS. Workshop on Algorithms for Modern Massive Data Sets"].</ref>关于大数据,这样的量级概念是相对的。正如它所说,“如果说过去的数据有什么指导意义的话,那么今天的大数据在不久的将来很可能不会被认为是这样的。”<ref name=CAD7challenges/>
         
=== 大数据采样 ===
 
=== 大数据采样 ===
 
关于大数据集的一个研究问题是,是否有必要查看完整的数据或者样本要足够好,以得出关于数据属性的某些结论。大数据这个名称本身包含一个与规模相关的术语,这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点,以估计整个人口的特征。在制造过程中,不同类型的感官数据(如声学、振动、压力、电流、电压和控制器数据)在短时间间隔内可用。要预测停机时间,可能不需要查看所有数据,仅一个样本就足够了。大数据可以按不同的数据点分类,如人口统计、心理、行为和交易数据。有了大量的数据,营销人员可以创建和使用更多定制的消费者群体,以实现更具战略性的目标。
 
关于大数据集的一个研究问题是,是否有必要查看完整的数据或者样本要足够好,以得出关于数据属性的某些结论。大数据这个名称本身包含一个与规模相关的术语,这是大数据的一个重要特征。但抽样可以从更大的数据集中选择正确的数据点,以估计整个人口的特征。在制造过程中,不同类型的感官数据(如声学、振动、压力、电流、电压和控制器数据)在短时间间隔内可用。要预测停机时间,可能不需要查看所有数据,仅一个样本就足够了。大数据可以按不同的数据点分类,如人口统计、心理、行为和交易数据。有了大量的数据,营销人员可以创建和使用更多定制的消费者群体,以实现更具战略性的目标。
 +
    
在大数据采样算法方面已经有了一些成果。比如抽样 Twitter 数据的理论公式已被开发出。<ref>{{cite conference |author1=Deepan Palguna |author2= Vikas Joshi |author3=Venkatesan Chakravarthy |author4=Ravi Kothari |author5=L. V. Subramaniam | title=Analysis of Sampling Algorithms for Twitter | journal=[[International Joint Conference on Artificial Intelligence]] | year=2015 }}</ref>
 
在大数据采样算法方面已经有了一些成果。比如抽样 Twitter 数据的理论公式已被开发出。<ref>{{cite conference |author1=Deepan Palguna |author2= Vikas Joshi |author3=Venkatesan Chakravarthy |author4=Ravi Kothari |author5=L. V. Subramaniam | title=Analysis of Sampling Algorithms for Twitter | journal=[[International Joint Conference on Artificial Intelligence]] | year=2015 }}</ref>
 +
 +
<br>
    
== 批评 ==
 
== 批评 ==
7,129

个编辑