CNET科技资讯网 3月13日 国际报道 当大数据成为今年的炒作词汇后,部分人对大数据的理念提出质疑也是一种必然趋势。我们在讨论企业中激增的信息量和种类时,是否考虑过什么样的信息才是我们应该谈论的?
此前,已经有不少人发表文章称大数据炒作已达巅峰。
Precog CEO约翰·狄格斯(John De Goes)在博客网站VentureBeat上发文称,厂商炒作的大数据已经死亡。我们发现每家厂商软件产品中都有大数据身影:“‘大数据’一词已失去意义。对我们这些业界老兵而言,只要一提到这个词汇,就会诱发我们的‘大数据’头痛病。”
这只是个语义上的问题,大数据自身问题或许更严重。Nassim Taleb在《连线》(Wired)上发表文章称,从事大数据的研究人员和分析师冒着挑选信息的风险。
Nassim Taleb说:“大数据意味着任何人都能够在伪数据出现后看到的是伪统计关系,这是因为在大数据集中,大偏差的主要诱因是方差而非信息(类似于是噪音而非信号的关系)。”
也就是说,大数据分析发现的结果与现实生活环境相矛盾。
MIT科技评论(MIT Technology Review)的Brian Bergstein指出,人们对大数据分析的依赖性日益加重会使企业的自负泡沫越来越大。
未来关于如何部署资源的直观知识将被算法推翻,这些算法只对自己拥有的数据有效,却对不曾拥有的数据无效。无论数据规模有多大,都无法完全代表其复杂性,信息技术产生太多信息,人们很容易忘记有多少信息被遗漏了。
历史上数据结果与当场观察情况相矛盾的例子举不胜举,1959-1975年越南战争中,美国过度依赖数据就是一个典型示例。
狄格斯说,大数据发展的大体趋势实际上是几种情况同时发生:
·预测分析:狄格斯指出:“如果你能够预测未来,也就能够改变未来。预测分析支持所有情况,从推荐引擎到欺诈检测到预测哪位假释犯可能谋杀。该领域对统计学、机器学习、建模和识别及利用模型等技巧要求颇高。”
·智能数据:智能数据大有取代大数据之势。狄格斯说,智能数据会很快盛行。他将大数据转向智能数据描述为“通过预测分析,使机器捕获的数据转化为金钱的行为”。
·数据科学:数据科学领域被描述为利用统计学、机器学习、自然语言处理和计算机科学中的技巧,从大量数据中获得意义。
·NewSQL:可扩展水平分布式SQL系统。
狄格斯和Bergstein均对炒作大数据分析及对大数据分析寄予厚望提出警告,但两位提出警告的方向却是相互独立的。狄格斯预测指向较多依赖机器产生的数据和分析,与Bergstein反对过分依赖系统得出见解的观点相左。
发表于2025-09-28 17:14:00
发表于2025-09-28 17:10:00
发表于2025-09-28 17:02:00
发表于2025-09-28 16:49:00
发表于2025-09-28 15:56:00
发表于2025-09-28 15:49:00
发表于2025-09-28 14:58:00
发表于2025-09-28 13:29:00
发表于2025-09-28 13:04:00
发表于2025-09-19 11:37:00
京ICP备11027698号 CopyRight 2010-2015 All Rights Reserved