数据元由三部分组成:对象、特性和表示。数据元是组成实体数据的最小单元,或称原子数据。例如个人信息中,手机号为数据元,“135********”为数据元的值;性别为数据元,“男”和“女”为数据元的值。
2. 主要作用
作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。
在企业数据治理中,数据元是需要标准化的对象,一个数据元对象有且只有一个数据特性,每个数据特性对应一个数据表示。例如:人员的性别中的“男”是一个数据元对象,用数字“1”来表示。
3. 应用举例
数据元早期在金融、医疗等领域应用非常广泛,国家相关单位发布了关于数据元管理的一系列技术标准和行业标准,如《CFDAB/T 0301.3—2014食品药品监管信息基础数据元 第3部分:药品》。图1-1所示为食品药品监管信息基础数据元标准。
▲图1-1 食品药品监管信息基础数据元标准
二、元数据
1. 名词解释
元数据是描述数据的数据或关于数据的结构化数据。
你是不是看了这个定义依然一头雾水?那我们来举个例子。一本书的封面和目录向我们展示了这样的元数据信息:图书名称、作者姓名、出版商和版权细节、图书的提纲、、页码等。
2. 主要作用
在数据治理中,元数据是对数据的描述,存储着数据的描述信息。我们可以通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。
3. 应用举例
元数据是业界公认的数据治理中的核心要素,做好元数据管理,能够更容易地对数据进行检索、定位、管理和评估。用哲学的思维理解元数据的话,元数据其实解决的是我是谁、我在哪里、我从哪里来、我要到哪里去的问题。
元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
如果说数据是物料,那么元数据就是仓库里的物料卡片;如果说数据是文件夹,那么元数据就是夹子的标签;如果说数据是书,那么元数据就是图书馆中的图书卡。
三、主数据
1. 名词解释
主数据是企业内需要在多个部门、多个信息系统之间共享的数据,如客户、供应商、组织、人员、项目、物料等。与记录业务活动、波动较大的交易数据相比,主数据(也称“基准数据”)变化较慢。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。
主数据具有3大特性、4个超越。
3大特性:高价值性、高共享性、相对稳定性。
4个超越:超越业务,超越部门,超越系统,超越技术。
2. 主要作用
在数据治理中,主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。
3. 应用举例
不同行业、不同领域的主数据的内容不同。例如:在制造型企业中,核心主数据有物料、BOM、设备、客户、供应商、人员等;在金融行业中,客户、客户关系是主数据管理的核心;在政府各部门,人口、法人、证照等是主要的主数据。
四、业务数据
1. 名词解释
业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。
第一,业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
第二,系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
第三,自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。
不论源自何处,业务数据的共同特点是:时效性强,数据量大。
2. 主要作用
业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。
3. 应用举例
表1-1是某企业的产品销售记录,这是一种非常重要的业务数据。
▼表1-1 某企业的产品销售记录
五、主题数据
1. 名词解释
主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。
主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。
2. 主要作用
主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。
3. 应用举例
主题数据与行业或领域有较大的关系,不同行业关注的主题是不一样的。即使是同一行业,不同企业也有不同的主题数据定义。
例如,某生产制造企业定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安全环保。
六、数据仓库
1. 名词解释
数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。本质上,数据仓库与数据库并没有什么区别。
2. 主要作用
数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。
数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。
3. 应用举例
数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。
为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。
七、数据湖
1. 名词解释
根据维基百科的定义,数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。
2. 主要作用
关于数据湖的作用,AWS将它与数据仓库进行了类比,如表1-2所示。
▼表1-2 来自AWS的数据湖与数据仓库的对比
3. 应用举例
数据湖不是一个产品或工具,它是融合了数据采集、数据处理、数据存储、机器学习、数据挖掘等技术和工具的解决方案。数据湖支持处理不同类型的数据和分析方法,以获得更深层次的洞见所必需的扩展性、敏捷性和灵活性。亚马逊AWS、Informatica、阿里云、华为云、用友等都推出了数据湖解决方案。
数据湖的出现给数据治理带来了一定的挑战。数据湖将数据全部集中存储,那数据治理是在“湖中”治理还是在“湖外”治理,这是个需要企业研究和探索的问题。
关于作者:罗小江,用友集团助理总裁、平台和数据智能事业部总经理、北京软件和信息服务业协会云计算专委会副会长、中国企业财务管理协会企业风险管控专业委员会副主任委员。专注于企业数字化平台技术应用研究,具有企业管理、IT等复合知识,并且有丰富的实施交付经验,主导过多个千万级项目的规划及设计工作。
石秀峰,用友集团数据治理专家、中国电子商会数据资源服务创新专业委员会受聘专家、数据质量管理智库(DQPro)受聘专家。深耕数据领域十余年,曾主导过多家大型集团的数据治理、数据集成等项目的咨询和落地。
本文摘编自《一本书讲透数据治理:战略、方法、工具与实践》,经出版方授权发布。(ISBN:9787111694489)