大数据、统计学与机器学习是怎样的关系
这三个主题,都是当下热门的概念,梳理清楚其关系,有助于在后续的学习中,有的放矢。如果只看结论,可以直接到最后一个章节。
|0x00 统计分析与实证研究
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
为什么要讲“统计学”?很简单,统计分析为现代科学奠定了方法论基础,即实证研究。统计推断有个基础,研究的对象是服从某一规律法则的随机过程,而现实观测到的数据是从这个随机过程产生的,这个随机过程我们称之为数据生成过程。统计学基于观测到的数据进行建模,推断出概率法则,便可以应用于实际场景中,如检验经济学假说、评估公共政策效果等。
在统计建模中,一般假设的DGP(数据生成过程,Data Generating Process)的概率法则可以由唯一的数学概率模型来刻画,模型通常将因变量与一些解释变量或预测变量联系起来,同时假设该数学模型的函数形式已知,但包含低维的未知参数,这是一种参数建模方法,在统计学中应用最为广泛。
统计推断主要目的是观测数据、估计模型的未知参数值,将经济理论或者假说转化为统计参数假设,然后进行参数假设检验,并对实证结果提供经济解释。常见的做法,是基于一个预设的显著性水平(如5%)判断一个参数估计值或者参数假设在统计学上是否显著。如果具有统计显著性,则相应的将变量视为一个重要决定因素。
互联网行业中,常见的A/B测试,也是为了验证某个idea是否具备统计显著性。
但以上的做法至少需要六个关键假设:
- 随机性,DGP是一个随机过程;
- 唯一性,DGP的概率法则由唯一的数学概率模型来刻画;
- 正确性,存在唯一的未知参数,使得概率模型与DGP概率法则相吻合;
- 代表性,描述观测数据的随机样本不存在样本选择偏差;
- 抽样推断总体,使用包含DGP信息的样本数据来推断总体分布特征;
- 统计显著性,使用统计检验量的P值,在预设的显著性水平(如5%)上判断解释变量或预测变量是否重要,并据此提供逻辑解释。
如果以上概念非常不好理解,那么就简单记住下面几句:
- 总结数据与模型;
- 推断结论是否合理;
- 回答重要的社会问题;
- 认识并改善我们日常的行为模型。
|0x01 大数据特征
通常意义上,我们可以认为大数据是继信息革命后的第四次革命,尤其是互联网与移动互联网的普及、物联网的兴起,数据的增长是指数级别的。大数据最显著的特征,是其“4V”特性,即:
- Volume(海量性):多渠道采集的数据,包括了日志、音视频、地理位置等信息,但存储压力在Hadoop之后得到缓解;
- Velocity(高速性):大数据的产生、传播与计算速度,是前所未有的,需要实时分析而非批量式分析,这也是Flink快速兴起的缘由;
- Variety(多样性):大数据形式多样,既包括了传统的结构化数据,也有很多非结构化的数据,“数据湖”的出现也是为了解决非结构化数据的计算问题;
- Veracity(真实性):大数据体量庞大,但信息密度低,因此如何进行去伪存真、有效概括并提取大数据中的有效信息,就显得非常重要。
尽管我们能够熟练背诵大数据的4V原理,但其背后的深刻概念与技术挑战,却是一直被忽视的。从统计学的角度看,大数据的4V特征会有一些新的解读。
- Volume(海量性):海量有双重含义,一个是大数据的样本容量非常大,另一个是能在给定时间内从不同维度对DGP进行比较多的描述;
- Velocity(高速性):在高频甚至实时条件下记录或收集数据,使得准实时的数据分析与预测成为可能;
- Variety(多样性):统计学长期以来关注结构化数据,但不同形式的数据组合在一起,将提供比传统数据更多有价值的信息,如社交媒体的非结构信息;
- Veracity(真实性):统计学的本质是有效地从数据中提取有价值的真实信息,虽然很多经典的统计方法很有用,但也需要发展新方法和新工具。
|0x02 机器学习及其本质
与统计学一样,机器学习也是一种重要的大数据分析工具,尽管机器学习由于云计算的出现得到了迅速的发展和普及,但机器学习并不能替代统计学。例如,尽管机器学习在改善样本外预测和模式识别方面非常有用,但统计学在推断分析、因果分析、结果解释等方面依然可以发挥很大的作用。可以说,机器学习与统计学是互补的,两者的交叉融合可以为数据科学提供新的方法与工具。
机器学习可以分为三个主要的类别:监督学习、无监督学习和强化学习。
监督学习基于训练好的数据来构建算法,训练数据包含一组训练样例,每个训练样例拥有一个或多个输入与输出,成为监督信号,通过对目标函数的迭代优化,监督学习算法探索出一个函数,可用于预测新输入所对应的输出。
无监督学习只在包含输入的训练数据中寻找结构,识别训练数据的共性特征,并基于每个新数据所呈现或缺失的这种共性特征做出判断。
强化学习是研究算法如何在动态环境中执行任务,以实现累计奖励的最大化。很多学科对这个领域有研究,比如博弈论、控制论等,在自动驾驶、人类博弈比赛等方面比较常用。
因此,从本质上说,机器学习是数据优化问题与算法优化问题,数学优化为该领域提供了理论、方法与应用。
|0xFF 大数据、机器学习与统计学的关系
主要有四点。
第一,大数据的出现,其实并没有改变统计学通过随机抽样来推断总体分布特征的基本思想,需要统计学的基本方法,如充分性原则、因果推断等,依然适用于大数据分析。此外,大数据提供了很多传统数据所没有的信息,大大拓展了统计学研究的边界,如非结构化数据的影响,而实时数据甚至为实时预测和高频统计建模带来可能。
第二,由于样本容量的巨大,大数据很有可能改变基于统计显著性来选择统计模型重要变量的习惯做法,研究范式就会从参数估计的不确定性转为模型选择的不确定性,这对统计建模与推断会带来新的挑战。
第三,机器学习的兴起得益于大数据的爆炸式发展,与统计学类似,机器学习也存在并且特别注重样本偏差的问题。机器学习的本质是一个数据优化问题及实现该优化问题的计算机算法问题,它比统计学的参数建模更普遍和更灵活。
第四,在大数据的加持下,机器学习与统计推断的结合,有望为数据科学提供一些新的发展方向,包括变量降维、精准预测、因果识别等方面。