大数据理论遇上新兴分析工具挑战无处不在-白红宇

对于大数据，有观点认为有了足够大的数据集，分析的统计方法就是非必要的。我们将其称为“N等价于所有”的理论。而按这样的说法，抽样和推理都是浪费时间。拥有了所有的数据，就只需让数据说话。

虽然“N等价于所有”的理论在短短几年前还是革命性的产物，作为正在上线的新颖而且更具潜在价值的分析方法，它很快就过时了。对于将所有数据对应一个给定主题这样的概念，物联网（IoT）分析和认知计算这对大数据的流行观点带来了挑战，而且这也要求那些分析专家重新对他们的做法进行评估。

“N等价于所有”的框架的早期形成是在2008年——大数据时代的开端。Chris Anderson在《连线》杂志中撰文谈及的例子提到，在广告和生物等领域，拍字节大小的数据存储可以让答案变得清晰。足够大的数据集意味着研究人员甚至不需要设定问题或是假设。这些数字说明了一切。但是当你在谈论新兴分析技术的时候，事情并不是这样的。

物联网不会将所有数据收入囊中

一说到物联网，会很自然地将曾经所有的数据排除在外。它包括每秒钟刷新的源源不断传入的信息流。它会告诉你时刻发生的事情，而不是寻求获得大量关键数据来回答可溯源问题。

最有效的物联网策略可以从传统大数据的角度识别技术有何不同。对于物联网来说，边缘分析已经成为关键组成部分。这包括了在随着数据创建用于计算的边缘网络的网络设备和传感器中的统计算法，对于要将哪些数据送回中心数据库，要抛弃哪些数据，它们会进行决策。在这种情况下，更多的数据只会是负担。你永远不会想要所有的数据。我们会使用统计方法来决定使用哪些数据。

认知计算带来不同的挑战

由认知计算带来的对主流大数据理论的挑战是有所不同的。在认知计算中，不论我们是否在谈论人工智能(AI)或深度学习，或者你是否能有足够的数据是没有意义的。算法通过经验加以改进，而且它们越是获得更多的训练，表现会越出色。

谷歌的围棋人工智能算法AlphaGo(阿尔法狗)通过提取人类玩家完成的3000万棋局走法，学会了玩棋类游戏。这是作为该算法的初步训练，但这还不够。接着它跟自己下了数千局棋，并对每场比赛进行改进。最终，它改进到能够击败该棋类游戏的每个人类大师。

但是，从理论上讲，该算法还是能够通过不断学习来进行自身优化。你永远不能说它已经学会了玩儿这种游戏的所有内容。这同样适用于像语音识别，计算机视觉和自然语言处理之类的其他深度学习实践。人类是认知计算算法最为接近的模拟。没有理由认为一种算法能够获得所有需要的数据来最优地执行这些任务。

是时候重新考虑大数据的性质了

曾经有段时间“N等价于所有”的大数据理论被认为是终极的价值主张。调查整个数据集的能力似乎为提出特定问题和接收特定的答案提供了功能，而不必依赖必须涉及一定程度上不确定性的统计方法。

但是，越来越多的企业真正的价值和他们在市场上逐渐面临差异将来自于这些新兴的分析趋势。那些想要在业界保持领先的企业需要对“什么是大数据”进行重新审视。

本文转自d1net（转载）