大数据分析的三大障碍-编程学习网

[[433901]]

苏奇与科维尼于2019年发表了一篇名为《大数据：科学方法的终结?(Big data: the end of the scientific method? )》[1]文章。苏奇与科维尼认为，我们身处的世界非常复杂，因此大数据研究方法所提出的一些主张仍需要修订。因为源自于伽利略的「现代科学方法」，背后存在着一些障碍，这些障碍包括：非线性(nonlinearity)、非局部性(non-locality)和高维度性(hyperdimensions)，如图1所示。

图1 大数据分析的三大障碍绘图者：张琬旖

1.非线性(nonlinearity)

非线性是在理论建模时，众所周知的难题。非线性建模最典型的案例，就是气象学里的「蝴蝶效应(Butterfly effect)」。一只小蝴蝶在中美洲的古巴拍拍翅膀，能在美国德州引发龙卷风吗?(Does the Flap of a Butterfly’s wings in Brazil Set Off a Tornado in Texas?[2])

蝴蝶效应是由美国气象学家，也是麻省理工学院的教授爱德华‧诺顿‧罗伦兹(Edward Norton Lorenz)所提出，意思是指在一个复杂的系统中，一个变量的微小变化，配合背后的连锁反应，将会对整个系统造成巨大的影响。而这种非线性的影响，大大限制了模型的预测能力。大数据分析可以协助解决一些非线性系统的问题，但许多机器学习算法的基本假设，并不适合用在非线性系统当中。

2.非局部性(non-locality)

非局部性则是指存在着远距离的相关性，纵使在系统里不同的子系统或是变量之间距离很远，但仍然可能保有因果关系。非局部性通常「违反直觉」，毕竟一般人会认为，越接近的事物，它们彼此之间的相互作用影响也最多。用机器学习来解决非局部性问题显然是一个重大挑战。

3.高维度性(hyperdimensions)

我们已经习惯在三维空间上，再加上时间维度来生活。但当维度超过三个以上，人类的认知就会受到相当大的限制(这时一般会透过数学来运算)。复杂系统背后所探讨的变量非常多，而这也造成计算维度的复杂。

苏奇与科维尼最后指出，如果机器学习技术能够协助克服上述三个基本障碍，那将是非常理想的，但到目前为止，几乎没有证据能表明大数据分析研究能有效突破以上的障碍，这需要大家持续的努力(一些例外是在天文学，机器学习在天文领域开始获得很大的进展)。

文章详情

大数据分析的三大障碍

1.非线性(nonlinearity)

2.非局部性(non-locality)

3.高维度性(hyperdimensions)

软考中级精品资料免费领

相关文章

猜你喜欢

大数据分析的三大障碍

克服大数据障碍的三种方法

数据中心可靠性和效率的三大障碍

阻碍数据分析获得成功的四大原因

学习大数据分析需要具备的三大技能

成为数据驱动型公司的六大障碍

大数据分析的好处以及如何分析大数据

如何进行数据库三大范式的分析

自动化是解决大数据迁移障碍的答案

导致数据驱动型项目脱轨的六大障碍

Python的三大开源数据分析工具是什么

用 ASP 操作筛选器玩转数据：跨越数据分析的障碍

2021年大数据分析的5大挑战

十大数据分析模型之三：矩阵模型

年终盘点：2020数据分析“三大”关键词

大数据分析，到底分析了啥？

2021年大数据和分析的四大趋势

影响大数据和分析的5大趋势

数据分析：六大类分析方法

数据库大数据量删除的分析