文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大数据、统计学与机器学习是怎样的关系

2024-12-03 03:33

关注

大数据、统计学与机器学习是怎样的关系

这三个主题,都是当下热门的概念,梳理清楚其关系,有助于在后续的学习中,有的放矢。如果只看结论,可以直接到最后一个章节。

|0x00 统计分析与实证研究

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

为什么要讲“统计学”?很简单,统计分析为现代科学奠定了方法论基础,即实证研究。统计推断有个基础,研究的对象是服从某一规律法则的随机过程,而现实观测到的数据是从这个随机过程产生的,这个随机过程我们称之为数据生成过程。统计学基于观测到的数据进行建模,推断出概率法则,便可以应用于实际场景中,如检验经济学假说、评估公共政策效果等。

在统计建模中,一般假设的DGP(数据生成过程,Data Generating Process)的概率法则可以由唯一的数学概率模型来刻画,模型通常将因变量与一些解释变量或预测变量联系起来,同时假设该数学模型的函数形式已知,但包含低维的未知参数,这是一种参数建模方法,在统计学中应用最为广泛。

统计推断主要目的是观测数据、估计模型的未知参数值,将经济理论或者假说转化为统计参数假设,然后进行参数假设检验,并对实证结果提供经济解释。常见的做法,是基于一个预设的显著性水平(如5%)判断一个参数估计值或者参数假设在统计学上是否显著。如果具有统计显著性,则相应的将变量视为一个重要决定因素。

互联网行业中,常见的A/B测试,也是为了验证某个idea是否具备统计显著性。

但以上的做法至少需要六个关键假设:

如果以上概念非常不好理解,那么就简单记住下面几句:

|0x01 大数据特征

通常意义上,我们可以认为大数据是继信息革命后的第四次革命,尤其是互联网与移动互联网的普及、物联网的兴起,数据的增长是指数级别的。大数据最显著的特征,是其“4V”特性,即:

尽管我们能够熟练背诵大数据的4V原理,但其背后的深刻概念与技术挑战,却是一直被忽视的。从统计学的角度看,大数据的4V特征会有一些新的解读。

|0x02 机器学习及其本质

与统计学一样,机器学习也是一种重要的大数据分析工具,尽管机器学习由于云计算的出现得到了迅速的发展和普及,但机器学习并不能替代统计学。例如,尽管机器学习在改善样本外预测和模式识别方面非常有用,但统计学在推断分析、因果分析、结果解释等方面依然可以发挥很大的作用。可以说,机器学习与统计学是互补的,两者的交叉融合可以为数据科学提供新的方法与工具。

机器学习可以分为三个主要的类别:监督学习、无监督学习和强化学习。

监督学习基于训练好的数据来构建算法,训练数据包含一组训练样例,每个训练样例拥有一个或多个输入与输出,成为监督信号,通过对目标函数的迭代优化,监督学习算法探索出一个函数,可用于预测新输入所对应的输出。

无监督学习只在包含输入的训练数据中寻找结构,识别训练数据的共性特征,并基于每个新数据所呈现或缺失的这种共性特征做出判断。

强化学习是研究算法如何在动态环境中执行任务,以实现累计奖励的最大化。很多学科对这个领域有研究,比如博弈论、控制论等,在自动驾驶、人类博弈比赛等方面比较常用。

因此,从本质上说,机器学习是数据优化问题与算法优化问题,数学优化为该领域提供了理论、方法与应用。

|0xFF 大数据、机器学习与统计学的关系

主要有四点。

第一,大数据的出现,其实并没有改变统计学通过随机抽样来推断总体分布特征的基本思想,需要统计学的基本方法,如充分性原则、因果推断等,依然适用于大数据分析。此外,大数据提供了很多传统数据所没有的信息,大大拓展了统计学研究的边界,如非结构化数据的影响,而实时数据甚至为实时预测和高频统计建模带来可能。

第二,由于样本容量的巨大,大数据很有可能改变基于统计显著性来选择统计模型重要变量的习惯做法,研究范式就会从参数估计的不确定性转为模型选择的不确定性,这对统计建模与推断会带来新的挑战。

第三,机器学习的兴起得益于大数据的爆炸式发展,与统计学类似,机器学习也存在并且特别注重样本偏差的问题。机器学习的本质是一个数据优化问题及实现该优化问题的计算机算法问题,它比统计学的参数建模更普遍和更灵活。

 

第四,在大数据的加持下,机器学习与统计推断的结合,有望为数据科学提供一些新的发展方向,包括变量降维、精准预测、因果识别等方面。

 

来源:晓阳的数据小站内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯