说到数字化,就要提到信息化。信息化是通过各种信息系统实现业务流程从线下到线上的迁移,从而提升生产效率和业务效率、降低成本、提高可靠性。数字化是基于信息化系统的运行数据,通过人工智能等技术,对企业的运营作出决策支撑。从数据的角度来看,数据是信息化过程的“副产品”,却是数字化过程中支撑决策不可或缺的“原材料”,是数字化转型的基础。因此,数据质量的高低,在一定程度上决定着数字化转型的成败。
数据建模是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等,直至转化成现实的数据库。数据模型是源端系统的数据结构,也是提升数据质量的关键。数据建模的目标是创建一个准确、一致和可理解的数据模型,以便支持数据管理、数据分析、系统设计和业务决策等活动。通过数据建模,可以帮助组织更好地理解和利用数据,提高数据质量和数据价值,支持数字化转型和业务创新。
企业数据建模的现状
信息系统建设处在“一应用一系统”状态
在信息化建设阶段,信息系统往往由业务部门各自牵头建设,导致一项应用建设一个系统,系统之间彼此互不相关。
如图1所示,某企业有3个独立的业务系统A、B、C,都是为满足不同的业务需求而独立开发的,拥有独立的业务数据和客户数据。从企业视角出发,各个系统中的客户数据属于公共数据,应可供各个业务系统共享,但由于各个系统独立设计,很容易出现冗余、不一致,甚至冲突的情况。
图1 企业信息化建设中的“一应用一系统”架构
如图2所示,3个业务系统的客户表分别为A客户表、B客户表和C客户表,由于业务需要和独立设计的原因,A客户表的主键是自定义的ID,B客户表的主键是统一信用代码,C客户表的主键是银行账户。每个数据表中的地址信息也不相同,A客户表保存的是注册地址,B客户表保存的是省、市、街道拆分开的地址格式,而C客户表保存的是通信地址。从整体看,虽然每个系统本身运行稳定,但是系统间的集成和数据共享非常难。
图2 3个业务系统客户表截图
这种情况不仅造成资源浪费和运维成本大幅提升,还很容易形成数据“孤岛”。每个应用系统通常有自己的数据存储和管理机制,导致数据在不同系统之间存在孤立、难以共享和集成的问题,难以保证数据的一致性和准确性,也限制了企业对数据的综合分析和利用。在这种情况下,如果需要实现不同系统之间的数据共享和业务流程集成,势必面临较高的技术复杂性和难度,需要耗费大量的时间、资源。
缺乏规范数据建模的数据标准
数据标准是保障各业务系统对数据统一理解、统一使用、统一交换的一致性、准确性、完整性的规范性约束,其中包括对业务、技术和管理等数据属性的统一定义。数据标准主要解决数据在共享、融合、汇集应用中因格式不一致造成的数据处理困难。缺乏数据标准的数据建模将导致数据不一致、数据重复和冗余、数据集成困难、数据可理解性与可维护性差等问题。
在图2所示的场景中,由于缺乏基于数据标准的统一管理,3个业务系统客户数据的属性、约束关系和命名规则等都存在不同程度的差异。随着业务的发展,企业决定研发合同管理系统,对所有的客户数据进行统一管理(如图3所示),需要集成那些在各自系统中维护良好的客户数据,却发现要进行繁重的数据清洗工作,其中有些数据甚至无法使用。
图3企业合同管理系统与业务系统关系
数据建模过度依赖平台能力
在数字化转型的过程中,很多企业已经逐渐意识到“一应用一系统”模式的弊端,开始逐步采用统一的平台(例如致远互联的COP平台以及用友的BIP平台),利用低代码或者无代码的开发模式打通应用系统,降低集成成本。这些平台都通过表单、主表、明细表等概念来提供数据建模,因此只能进行逻辑建模,而不能进行物理建模,实体间的约束关系只能通过应用来限制。当一项应用需要使用另一项应用中的实体表时,经常会因为不了解其约束关系而导致数据混乱,直接影响统计分析的准确性。
忽视概念模型建模
数据建模分为3个阶段:概念模型建模、逻辑模型建模和物理模型建模。在实际生产中,由于业务人员对信息化技术了解不多、领域专家介入不深,概念模型建模往往被忽略,导致数据建模从概要设计阶段的逻辑模型建模开始。这必然产生业务人员和技术人员之间对业务实体、属性和关系的描述不一致,以及技术人员对业务的了解不全面甚至是理解错误的现象,最终导致数据缺失、冗余或不一致等问题。
应对措施
数据建模过程中有很多技术细节需要注意,而以下三点尤为重要。
先有数据标准再进行数据建模
在进行数据建模之前,首先需要制定数据标准,用来指导和约束数据建模。数据标准包括数据命名规范、数据类型、数据格式、数据约束等方面的规定。即便是分批建设的彼此独立的业务系统,也可以使用统一的数据标准以确保不同业务系统间数据的一致性和可集成性。
同时,数据建模也可以促进数据标准的优化和改进。随着数字化进程的深入,产业各方可能发现有更多的数据项需要被纳入数据标准范畴,进而推动数据标准体系的完善。
在图3的场景中,如果企业建立了数据标准,即便3个独立的业务系统存在数据冗余,但由于数据具有统一的属性、约束条件,仅需要简单的数据治理就可以抽取3个业务系统的数据为新的业务系统提供服务,如图4所示。
图4 执行统一数据标准后的数据建模
基于数据底座进行数据建模
虽然数据标准可以解决数据一致性问题,但是不能消除系统间的数据冗余。因此,在图4所示的业务场景中,合同管理系统在使用系统A、B、C产生的客户数据前,仍然需要进行数据整理,以去掉冗余数据。
如果在整个架构中存在多个与合同管理系统类似的数据消费者系统,那么类似的数据治理操作就要重复多次。另外,当有新的数据生产者系统加入时,所有的数据消费者系统都要修改对应的集成接口,这就增加了集成的工作量。为此,很多企业引入了数据底座,用于集中管理企业数据资产,打通数据通道,在数据标准的统一约束下确保企业内部数据的一致性和完整性。
数据底座在数字化转型中起着至关重要的作用。通过在数据底座基础上进行数据建模,可以获得企业统一的数据视图,整合不同数据源的数据,为业务分析和决策提供一致的数据基础。图1业务场景在引入数据底座后的架构如图5所示。
数据生产者系统A、B、C的数据按照集成规则存储到数据底座,通过对数据底座中的整体数据进行数据建模,可以明确数据间的关系、属性和约束,帮助企业更好地理解和管理数据。消费者系统根据需要通过数据底座提供的服务使用数据,消费者系统不用关心数据的来源和数据源发生的变化。当有新的数据生产者系统加入时,只要做好与数据底座的对接,就不会影响数据消费者系统。
图5引入数据底座后的企业各系统架构
可以看出,上述整个数据流程都依赖于数据标准。
循序渐进地进行数据建模
数据建模金字塔如图6所示,三个阶段是从简单到复杂、从抽象到具体、从需求描述到最终实现的循序渐进的过程,缺一不可。
图6数据建模金字塔
概念设计是数据建模的第一步,是需求分析中后期要由业务人员和领域专家完成的任务。通过描述业务中实体、属性和它们之间的关系,确定业务规则和数据实体之间的关联,以加深对需求的理解,也为后续阶段的工作奠定基础。
逻辑模型是数据库设计人员对概念模型的进一步细化,定义数据实体、属性、关系和约束,确保数据的一致性、准确性和安全性。概念模型和逻辑模型主要是针对业务需求进行抽象和设计,不依赖于具体的平台和数据库选型。
物理模型是由数据库管理员和开发人员将逻辑模型转化为数据库实现的具体方案,定义数据库表、字段和索引等细节信息,同时还要考虑数据库的性能优化、存储规划、备份与恢复方案、安全策略,为开发人员提供数据库编码和实现的依据。
高质量的数据建模是企业数字化转型成功的关键一步,它可以统一并整合企业数据,为企业决策提供高质量的数据支撑。在此基础上,结合人工智能技术,帮助企业实现从业务决策到数据决策的数据驱动的数字化转型。