大数据预测 - 知识百科

大数据预测

更新时间：2022-08-25 12:55

大数据预测是大数据最核心的应用，大数据预测将传统意义预测”拓展到“现测”。大数据预测的优势体现在它把一个非常困难的预测问题，转化为一个相对简单的描述问题，而这是传统小数据集根本无法企及的。从预测的角度看，大数据预测所得出的结果不仅仅得到处理现实业务简单、客观的结论，更能用于帮助企业经营决策，收集起来的资料还可以被规划，引导开发更大的消费力量。

特征

实样而非抽样

在小数据时代，由于缺乏获取全体样本的手段，人们发明了“随机调研数据”的方法。理论上，抽取样本越随机，就越能代表整体样本。但问题是获取一个随机样本代价极高，而且很费时。人口调查就是典型一例，即使一个大国都做不到每年都发布一次人口调查，因为随机调研实在是太耗时耗力。但有了云计算和数据库以后，获取足够大的样本数据乃至全体数据，就变得非常容易。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖7成以上的北美搜索市场，已经完全没有必要去抽样调查这些数据，只需要对大数据记录仓库进行挖掘和分析。

但是这些大数据样本也有缺陷，实际样本不等于全体样本，依然存在系统性偏差的可能。所以存在一个数据规模的阈值问题。数据少于这个阈值，问题解决不了；达到这个阈值，就可以解决以前束手无策的大问题；而数据规模超过这个阈值，对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”，即在做大数据处理之前，可以预言，当数据量到达多大规模时，该问题的解可以达到何种满意程度。如何确定阈值?当前的学术界还没有一个完整的解决方案。

效率而非精确

过去使用抽样的方法，就需要在具体运算上非常精确，因为所谓“差之毫厘便失之千里”。设想一下，在一个总样本为1亿人口中随机抽取1000人，如果在1000人上的运算出现错误的话，那么放大到1亿中偏差将会很大。但全样本时，有多少偏差就是多少偏差而不会被放大。谷歌的人工智能专家诺维格写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。数据分析的目的并非就是数据分析，而是有多种决策用途，故而时效性也非常重要。

精确的计算是以时间消耗为代价的，在小数据时代，追求精确是为了避免放大的偏差不得已而为之。在大数据时代，快速获得一个大概的轮廓和发展脉络，就要比严格的精确性要重要得多。但是，在需要依赖大数据进行个性化决策时，张冠李戴是个很大忌讳，精确性就变得非常重要。所以在效率和精确之间存在一个平衡点，这是大数据预测中一个棘手问题。

相关而非因果

大数据研究不同于传统的逻辑推理研究，需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳，因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性。所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的就是找出数据集里隐藏的相互关系网(关联网)，一般用支持度、可信度、兴趣度等参数反映相关性。难道大家都喜欢购买A和B，就一定等于你买了A之后的果就是买B吗?未必，但的确需要承认，概率很大。知道喜欢A的人很可能喜欢B但却不知道其中的原因。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}