但是,现在市场上还是有很多的企业同学在问,数据中台和数据仓库,大数据平台等概念的区别。经过过去一年的沉淀和实践,我个人把对于企业级数据中台的本质进行了深度剖析,整合了多个行业,企业,厂商的数据中台产品的多种理解和解读,形成此文,供大家参考。
企业数字化转型的终局
首先,数据中台是服务于企业数字化转型的,所以,我们要从企业数字化的终局来看数据中台的终局。
企业数字化转型的终局是传统业务变成数字化业务,数字化业务的本质就是以数据作为新生产要素进行加工处理,构建以数据作为主要存在形式的产品,产生商业价值的业务模式。
数字化业务的典型代表是:天猫、淘宝、抖音、滴滴这样的互联网企业。
- 天猫,淘宝本身是一个数字化平台,天猫,淘宝本身不生产一件商品,它构建了一个数字化平台,把商家上传的数字化商品以数据的形式(天猫店铺,SKU)提供给消费者,让消费者在线上用数字化的形式下单,然后拉通线下,获得物理世界的实体商品,从而从中获取平台收益。
- 抖音,连实体产品都没有,用户上传的是原生数据产品(视频),然后通过信息流,通过推荐算法,推荐给平台用户,形成商业收益。
- 滴滴,某种意义上和天猫,淘宝是类似的,将物理世界的运力,运单,地图以数据形式变成平台产品,提供给消费者和司机,进行撮合交易,精准匹配,从而赚取价差和增值服务,形成商业收益。
数字化业务和传统的实体业务比较起来,是具有升维的绝对优势的。体现在以下几个方面:
- 分发复制速度快,数字化业务的分发复制速度快,一个抖音的短视频可以在一秒钟内触达几十亿用户;
- 柔性敏捷高响应,当业务数字化后,面对市场的变化有高速的响应能力,业务本身会变得非常柔性和敏捷,从而能够做类似于A/B Testing这样的数字化测试。
- 实时数据洞察准,业务数字化的特点是所有的业务流程,业务动作,交易,都数据化了,业务都实时变成了数据,而通过数字化技术,这些数据可以被实时处理,形成业务的数字化呈现形式,全链路,全口径的呈现出来,所有的业务都能够被可视化,从而能够更好地被准确洞察。
- 海量数据精预测,有了全量的数据,包括交易,用户,行为数据等,就能够形成对未来的趋势的预测,从而能够根据历史数据,用户画像做精准匹配和推荐,这样能够产生更多的业务创新和主动性。
数字化企业的终局对企业数据处理能力提出了新的要求,未来的数字化企业就是一个把数据当做生产要素的制造企业,所以,数字化企业的就是一个数据产品和服务的加工工厂,如下图所示:
每个企业都是获取数据,采集数据,然后将数据放入数据加工的厂房,生产出不同的数据产品,每个企业都会有基于数据去做创新的实验室,去研发新的数据产品,比如字节跳动的今日头条,孵化出抖音,然后沉淀更多的数据生产要素,并且通过对用户数据的洞察,在创新实验室发现更多的数据产品需求,生产出更多的数据产品,这样就形成了源源不断的闭环数据价值生态。
制造业最重要的是生产力也就是生产设备,产线,管理方法,这些对应到就是数字化企业的数据加工厂。未来数字化企业的所有员工,不论线上线下业务的人,都是在围绕数据做工作,线下的业务人员,在进行作业的同时,是为了把物理业务数据化,产生数据。线上的分析人员,是将数据做加工,变成有业务价值的数据产品;运营人员,是将数据产品通过数字化渠道匹配给对应的用户,并且提升用户的使用满意度。整个企业从数据的维度来看就是一个数据加工厂。
所以,这个加工厂的效率,性能,柔性,运维,监控,管理的高效性,协同的效率就非常重要,而这就是数字化企业的数据中台的愿景目标。
当我们把企业看作是一个数据加工厂的时候,我们就可以重新定位企业级数据中台是什么了。
企业级数据中台是数字化企业用来加工数据的全链路平台,它的输入是数据,输出是各种数据产品和数据服务。如果将企业级数据中台进行拆解的话,我们可以看到它的六大核心能力。
二、企业级数据中台的六大核心能力
数据中台六大能力模型
利用领域建模的思想,企业级数据中台的核心能力可以分成两类,一类是核心的业务域,
就是直接存储,加工,生产数据和数据产品的能力,就像工厂生产线里的主要加工设备。第二类是辅助于生产的管理域,是为了让生产的过程更加高效,安全,稳定的能力,就像工厂里的传送带,实验室,检测中心和监控运维中心。
这样一来我们就清晰的看到了数据中台所需要的六大核心能力:
业务能力(Business):
(1) B1数据的获取存储和处理
从源系统中获取到数据,并且将数据存储起来,对它进行适当形式的处理,这是数据加工的第一步。例如,大数据平台,通过爬虫、ETL、接口等方式,从多样化的业务系统获取数据,将数据进行清洗、转换,建模存储到各种不同类型的数据库中,如结构性,非结构性,图数据库等,这也是我们常讲的“业务数据化”的最后一公里。
(2) B2 数据价值的探索和挖掘
当数据已经获取并存储起来后,人们需要对它进行分析探索和挖掘,从而识别出有价值的业务场景数据,从而将数据业务化,反作用于业务本身。目前这个能力主要是靠人的经验在线下完成,线上只是补充。比如,现在的报表,就是数据价值的一种呈现形式,领导层希望看到业务的情况,于是通过数据可视化报表的形式来
(3) B3数据产品和服务的构建和发布
发现数据能够产生价值的场景后,就需要把这个场景开发成数据产品和服务,提供给用户使用。这是数据加工厂的最后一公里的环节,也是面向用户价值呈现的环节。这个环节主要的工作是在发现的数据价值场景基础上用合适的形式(API,报表,APP,数据包)为客户提供数据产品和服务。
管理能力(Management):
除了核心域的数据生产,价值探索和产品开发能力外,为了更好地协作,提升数据产品的生产效率,还需要有很多管理性的配套工作,这就是数据中台的管理能力部分,主要分为三类
(1) M1 共享和协作
企业级数据中台,要具备一站式,全链路的数据开发能力,让所有的数据相关的工作者都能够在这个平台上工作,这里就需要两个主要的子能力。
数据共享:就像Netflix的数据中台有一个数据门户一样,企业的数据要通过一个统一的入口根据不同的权限进行共享,开放给对应的用户,让他们能够方便的访问数据。
数据协作:数据的生产链路是需要多人协作的,比如,源系统提供数据,数据工程师进行数据的抽取和采集,数据分析师对数据进行分析,数据可视化工程师完成数据的可视化设计等。传统这些工作都是通过文件传来传去,而企业级数据中台则需要一个全链路协同的工作环境,让所有的角色都在这个平台上对同样的数据集进行操作。
(2) M2 管理和治理
要把数据当做资产来管理和治理,这里的管理主要指的是以数据资产目录为核心的相关能力,比如数据资产的规划,数据资产的分类,数据资产的获取,数据资产目录的维护,还包括数据权限分级的能力,从而保证数据在一套标准化的管理体系下进行应用,而避免出现管理缺位,数据安全,数据分散的问题,数据的管理要从源头就开始,也就是数据中台要对企业级的数据进行统一的管理,而不仅是数据相关的系统,还要包括源数据。
数据治理就是一个老生常谈的话题了,是以数据标准为核心,对企业的数据质量进行管理,数据中台要有元数据、数据血缘、数据质量、数据版本等全方位的功能,并且企业级数据中台的数据治理模块不能是一个独立运行的模块,它应该嵌入到整个数据生产链路的每一个环节,从而在数据的全链路中发挥作用。
(3) M3 运营和运维
要把数据当做一个核心生产要素来进行运营,所以,数据中台也是需要运营的,这里的运营就包括对数据中台的用户行为数据进行分析,从而发现哪些数据集是高价值的,哪些是被调用比较少的,要把数据产品和服务当做一个互联网产品一样来进行用户运营,只有这样,才能够让数据中台被更多的用户所接受,不断地迭代新的功能,才能够有更强的生命力。
未来数字化企业中,数据中台是一个企业级生产系统,就像淘宝,天猫一样,是不可能接受宕机的,所以数据中台的运维就显得至关重要,SLA要得到必须的保证,这样的话,就需要一套自动化的运维体系。
当我们把这两大类,六个数据中台的核心能力进行组合后,我们就会得到下图的十二个能力子域:
每一个企业根据自己的情况,这十二个能力子域的建设优先级,功能都会有差异。一般来说,从业务价值的产生速度来讲,一定是先完成数据产品的构建和应用是最高优先级的,毕竟这是最快能带来价值的,而管理域的功能则是大型数字化企业必须具备的能力。
数据仓库、数据湖和大数据平台与数据仓库的区别
当我们把这六个能力分析清楚后,就能够更加清晰的看出数据仓库,大数据平台,数据湖和数据中台的区别:
如下图所示:
大数据平台,是偏数据存储和加工的系统,带有部分数据探索的能力,生产的数据产品以数据集为主,不全面。
数据仓库则比较均衡,包括结构化数据的存储加工,可以用自分析报表(Query)的方式实现数据的探索和挖掘,最终数据产品以报表和数据可视化为主。
数据湖则偏重于数据存储和提供,有一部分的数据管理,共享和运维的能力。
数据中台是需要这六大能力都全面具备的。
数据中台一定不仅是一个单体的软件能够形成的,它是一个体系化的企业级数据加工厂,所以数据中台的建设也是需要顶层规划,分步建设的。
【本文为51CTO专栏作者“凯哥”的原创稿件,转载请通过作者微信公众号shikai590获取授权】