文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

收藏!一文掌握数据分析知识体系

2024-12-11 17:50

关注

什么是数据分析?需要掌握哪些技能?如何进行数据分析?本文全面梳理了数据分析知识体系,从数据分析的定义讲起,详细介绍了分析思维模型和经典分析模型及指标体系。

一 数据分析定义

数据分析是指有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

1 数据定义

数据是客观事实,对于客观事物发生,发展的数字化记录。随着科学技术的发展,数据的概念内涵越来越广泛包括数值,文本,声音,图像,视频。

 

数据可以分为定性数据和定量数据。

定量数据可以继续划分:定序数据、定距数据与定比数据。

 

2 数据分析大事记

计算机时代崛起

计算机的发展和计算技术的发展极大地增强了数据分析的过程。1880年,在使用计算机之前,美国人口普查局花了7年的时间来处理收集到的信息并完成最终报告。使用此设备,在18个月内完成了1890年的人口普查。

关系数据库诞生

关系数据库由埃德加·科德(Edgar F. Codd)在1970年代发明,并在1980年代非常流行。关系数据库(RDBM)允许用户编写Sequel(SQL)并从其数据库中检索数据。关系数据库和SQL提供了能够按需分析数据的优势,并且仍在广泛使用。它们易于使用,对于维护准确的记录非常有用。

数据仓库诞生

在1980年代后期,收集数据的数量继续显着增长,部分原因是硬盘驱动器的成本较低。在此期间,开发了数据仓库的体系结构,以帮助将来自操作系统的数据转换为决策支持系统。数据仓库通常是云的一部分,或者是组织的大型机服务器的一部分。与关系数据库不同,数据仓库通常经过优化,可快速响应查询。

商业智能(BI)崛起

20世纪80年代-90年代,数十家BI厂商进入市场。数据仓库技术的发展大大推动了商业智能的发展,传统存储在各个地方的业务数据开始集中在一起。应运而生的技术还包括ETL(数据抽取、转换、加载)和OLAP(联机分析处理)。

数据挖掘崛起

数据挖掘始于1990年代,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。

大数据来临

2000年到2010年是大数据兴起和备受关注的时期,谷歌的“三驾马车”:谷歌文件系统、MapReduce和 BigTable。亚马逊也发表了一篇关于 Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。随着大数据的到来,海量的数据以及新的技术发展,帮助公司将数据转化为洞察力。

数据科学家

2012年9月, Tom Davenport和DJ Patil 在《哈佛商业评论》上发表了“数据科学家:21世纪最性感的工作” 。

增强分析

2017年,Rita Sallman,Cindi Howson和Carlie Idonies在Gartner的研究论文中引入了增强分析的概念,并将其描述为一种新的数据分析方法,可使用机器学习和自然语言生成(NLG)自动化见解。增强型数据分析大大提升了数据分析效率,降低数据分析的门槛,人人都可以像数据科学家一样,对数据进行多维度的自动钻取,自动加载各种模型进行深度分析。

3 数据分析 VS 数据科学 VS 商业智能

商业智能(Business intelligence )

泛指用于业务分析的技术和工具,通过获取、处理原始数据,将其转化为有价值的信息指导商业行动。维基百科定义为一个组织将所有资源转化为认知的能力。

 

数据科学(data science)

是一个多学科领域,专注于从大量原始和结构化数据中找到切实可行的见解。该领域主要注重发掘我们没有意识到我们还不清楚的事情的答案。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

 

三者关系

 

4 数据分析师 vs 数据科学家

虽然数据分析师和数据科学家都与数据打交道,但主要的区别在于他们如何处理数据。数据分析师检查大型数据集,以确定趋势、开发图表和创建可视化表示,以帮助企业做出更多的战略决策。另一方面,数据科学家使用原型、算法、预测模型和自定义分析设计和构建新的数据建模和生产流程。

 

数据科学家、数据工程师和软件工程师技能图谱:

 

二 为什么要分析

分析的本质是让业务更加清晰,让决策更加高效。在市场经济的条件下,企业面对激烈的竞争,差异化的市场,多变的环境,常常会面临各种难题。数据分析是用来解决企业的难题,识别机会,规避风险,问题诊断。

总结下来,数据分析可以帮助我们:

 

三 如何分析?

分析的6个步骤:

 

1 明确分析目的

业务理解

从事数据分析工作的前提就是懂业务,即熟悉行业知识、公司业务及流程,有自己的业务见解。如果脱离行业认知和公司业务背景,分析的结果没有太大的使用价值。

如何做到懂业务?首先我们要明白我们业务的商业模式是怎么样的?即我们通过什么样的方式发生关系并最终产生什么样的商业价值。其次我们要了解我们商业模式的核心组成要素,例如我们的客户细分、收入来源、关键业务、核心的资源、成本的结构等等。除此之外我们要对核心的环境因素有所了解,例如宏观经济、市场影响、行业趋势等等。

明确目的

数据分析第一步,不是分析数据而是把业务的问题或者目标定义清晰。通过这次数据分析想要解决一个什么样的问题,达成一个业务目标是什么?

业务理解 业务结果
业务目标/问题 结果性目标

2 确定分析思路和框架

在明确分析的目的之后,我们需要梳理分析思路,并确定分析框架,即从哪些角度进行分析,采用哪些分析指标。在梳理分析思路的时候,将常见的思维模型应用与分析,能够帮我们更加清晰的理解背后的逻辑线索,做到”不重不漏“(MECE)。常见的思维模型有:结构化思维模型、时间模型、逻辑演绎模型、重要性思维模型。

当然在今天,除了思维模型,其实我们已经沉淀了很多经典的分析模型,这些分析模型历经随便的沉淀和检验。如果你熟悉这些分析框架你的思考会更加快速,有效。你不需要在另起炉灶,就能达到事半功倍。例如:SWOT分析模型、STP分析模型、RATER指数模型。

掌握分析思维模型

思维模型就是我们对客观世界的一种主观抽象描述,通过思维模型来分析问题,从而更为准确地找到解决问题的方法。查理·芒格说过:“思维模型是你大脑中做决策的工具箱。你的工具箱越多,你就越能做出最正确的决策。”

1)结构化模型

以事物的结构为思考对象,来引导思维、表达和解决问题的一种思考方法。例如麦肯锡的金字塔原理,5W2H七要素分析法。

a)5W2H分析法

又叫七问分析法,是二战中美国陆军兵器修理部首创。简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。

 

b)结构化思维

是指一个人在面对工作任务或者难题时能从多个侧面进行思考,深刻分析导致 问题出现的原因,系统制定行动方案,并采取恰当的手段使工作得以高效率开展,取得高绩效。

 

c)MECE原则

MECE,是Mutually Exclusive Collectively Exhaustive,中文意思是“相互独立,完全穷尽”。也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并解决问题的方法。

 

2)时间模型

按照事物发展的时间线索,来进行分析。例如用户行为5阶段模型:需求的产生->信息收集->方案比较->购买决策->购买行为。

 

3)逻辑演绎模型

演绎模型分为:

a)麦肯锡七步分析法

麦肯锡七步分析法又称“七步分析法”是麦肯锡公司根据他们做过的大量案例,总结出的一套对商业机遇的分析方法。它是一种在实际运用中,对新创公司及成熟公司都很重要的思维、工作方法。

 

b)逻辑树分析法

逻辑树是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。

 

4)重要性思维

企业资源是有限的,需要把资源用在刀刃上。消费者的关注点有优先级,做好消费者关注的才能打动消费者。例如,四象限分析法提倡人们应有重点地把主要的精力和时间集中地放在处理那些重要但不紧急的工作上,这样可以做到未雨绸缪,防患于未然。

 

5)经典思维模型

掌握经典分析模型

分析模型是对客观事物或现象的一种描述。为了分析其相互作用机制,揭示内部规律,可根据理论推导,或对观测数据的分析,或依据实践经验,设计一种模型来代表所研究的对象。经典的分析模型一般都是以营销、管理等为理论基础的。

1)战略与组织

2)营销服务

3)人力资源

4)质量及生产管理

6)项目与物流

7)常见的分析模型

a)SWOT分析模型

用来确定企业自身的竞争优势、竞争劣势、机会和威胁,从而将公司的战略与公司内部资源、外部环境 有机地结合起来的一种科学的分析方法。

 

b)STP分析

客户细分(Segmentation)、目标客户选择(Targeting)、目标客户定位(Positioning)。

c)经典的客户满意度模型

RATER指数模型、KANO模型。例如:RATER指数是全美最权威的客户服务研究机构美国论坛公司投入数百名调查研究人员用近十年的时间对全美零售业、信用卡、银行、制造、保险、服务维修等十四个行业的近万名客户服务人员和这些行业的客户进行了细致深入的调查研究,发现一个可以有效衡量客户服务质量的RATER指数。

 

d)PEST分析模型

是指宏观环境的分析模型,宏观环境又称一般环境,是指一切影响行业和企业的宏观因素。对宏观环境因素作分析,不同行业和企业根据自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)、经济(Economic)、社会(Social)和技术(Technological)这四大类影响企业的主要外部环境因素进行分析。简单而言,称之为PEST分析法。

 

e)波特五力分析模型

是迈克尔·波特(Michael Porter)于80年代初提出,对企业战略制定产生全球性的深远影响。用于竞争战略的分析,可以有效的分析客户的竞争环境。五力分别是:供应商的议价能力、购买者的议价能力、潜在竞争者进入的能力、替代品的替代能力、行业内竞争者现在的竞争能力。五种力量的不同组合变化 最终影响行业利润潜力变化。

 

f)经典营销管理模型4P、4C、4S、4R、4V、4I

以满足市场需求为目标的4P理论,以追求顾客满意为目标的4C理论,以建立顾客忠诚为目标的4R理论等。

 

g)用户行为理论

h)AARRR模型

AARRR是Acquisition、Activation、Retention、Revenue、Refer这五个单词的缩写,分别对应用户生命周期中的5个重要环节:获取用户、提高用户活跃度、提高用户留存率、获取收入、自传播。AARRR模型因其掠夺式的增长方式也被称为海盗模型,同时它也是一个典型的漏斗模型可以用来评估连续的业务流程节点转化率。通过该模型可以有针对性的对出现问题的重要节点进行优化,达到提升ROI的目的。

 

指标体系设计

指标体系的设计是一个业务数据化的过程。好的指标设计能够抽象目标具体化,具有直接实践意义。

1)什么是指标

通常我们讲述的指标是指将业务单元精分后量化的度量值,譬如:DAU、订单数、金额等。当然,原子指标还会基于维度、修饰词、统计口径而构建出派生指标。指标的核心意义是它使得业务目标可描述、可度量、可拆解。

2)什么是好指标

好的数据指标是比较性的,可以是一个比率。因为比率的可操作性强、天生比较性指标、适用于比较各种因素间的相生和相克。例如:“本周转化率比上周高0.5个百分点”显然比“转化率为2%”更有意义。会计和金融分析师仅需迅速查看几个比率就能对一个公司的基本状况做出判断。例如:市盈率、毛利率、利润率,等等。

好的数据指标是简单易懂的。如果人们不能容易记住或讨论某个指标,那么通过改变它来改变公司的作为将会十分困难。

好的数据指标可以衡量当前业务的真实情况。

好的数据指标会改变行为。这是最重要的评判标准。

3)什么是指标体系

将数据指标系统性的组织起来,可以按照业务模型。指标体系会对按照指标不同的属性分类及分层。

指标不成体系会怎样?

4)常见指标体系构建过程 业务理解业务数据化

业务理解 业务数据化
业务目标/问题 结果性目标
业务运营模式-业务可以关联起来的关键因素 关键过程指标
关键业务因素和环境因素 关键指标下的延展指标
业务关键策略/项目 业务运作的核心指标

指标设计规范

随着数据量的增大,数据指标也会越来越多,即使是同样的命名,但定义口径却不一致。这对于各部门理解难度大,同时也造成了重复计算存储的资源浪费。阿里OneData指标规范,以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等,帮助我们形成统一数据标准。

 

第一关键指标原则

第一关键指标(OMTM:One Metric That Matters)原则就是在当前阶段高于一切,你需要集中全部注意力的数字。

使用第一关键指标的理由:

选择第一关键指标的同时它还会解释下一个关注点。

常见指标名词

你所在商业领域决定了你应关注的指标。常见商业模式分类有电商类、内容类、社区类、软件工具类、游戏类。

1)电商类

电商类的指标常见分类:

 

常见的指标定义如下:

2)游戏类

游戏类产品考虑的指标很多,根据最想要知道的指标大致可以分为四大类:用户、付费、推广和游戏。

 

参考资料

 

https://data-flair.training/blogs/data-scientist-vs-data-analyst/https://www.datapine.com/blog/data-science-vs-data-analytics/https://www.leiphone.com/news/201703/u6UW2CFBbGa4bRrN.htmlhttp://www.woshipm.com/pmd/1418055.htmlhttps://radacad.com/do-you-need-a-date-dimensionhttps://www.zhihu.com/question/20117449https://zhuanlan.zhihu.com/p/43529971https://www.cnblogs.com/fanyu2019/p/11502913.html

 

来源:51CTO专栏内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯