1. 从质量管理到质量与服务并重
在传统的关系型数据库时代,开展数据治理更多的是为了能够解决数据质量问题,提升数据决策水平。而在大数据时代,除了需要保证数据质量之外,对数据治理也提出了更高的要求,数据必须更好地适应不确定性的需求,即插即用,服务不断变化的业务创新,发挥出数据更大的价值。
在这种要求下,可以通过数据资产管理,在传统的数据治理能力之外,提供数据资产视图能力、数据检索能力、数据共享能力、数据价值运营能力等,实现数据的可见、可懂、可用、可运营,并不断增值。数据管理部门也有机会从一个纯粹的的成本中心逐渐转变成企业的创新中心和高利润部门。
可见:通过对数据资产的全面盘点,形成数据资产地图。针对数据生产者、管理者、使用者等不同的角色,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。
可懂:通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人可懂的、无歧义的数据资产。具体来说,在数据中台之上,需要将数据资产进行标签化。标签是面向业务视角的数据组织方式。
可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科学家和数据分析人员没有后顾之忧,放心使用数据资产,降低因为数据不可用、不可信而带来的沟通成本和管理成本。
可运营:数据资产运营的最终目的是让数据价值越滚越大,因此数据资产运营要始终围绕资产价值来开展。通过建立一套符合数据驱动的组织管理制度流程和价值评估体系,改进数据资产建设过程,提升数据资产管理的水平,提升数据资产的价值。
2. 人工智能大幅提升数据治理效率
高质量的大数据作为AI的原料,不断地训练出表现越来越出色的AI模型。反过来,AI也可以反哺大数据的处理能力,帮助人类大幅度提升大数据处理效率。目前很多企业和大数据服务提供商都在探索用机器人学习的方式帮助组织增强数据治理能力。
通过应用机器学习技术,来识别哪些数据可能有问题,哪些数据是用户的隐私数据。一旦数据特征被确认,就会自动给它们打上标签,从而使用这种自动化的机制来完成一部分数据治理工作。
比如当碰到某类有特殊标记的数据时,就会有相应的流程契动。而解决这类问题的传统机制往往需要人工操作,费时费力,在大数据时代,这样的人力成本投入已经不再实现,机器学习恶意将这一整串流程完全自动化,且准确率达到较高的水平。
在数据安全管理方面,人工智能的介入将帮助组织发现更多可疑的数据窃取、数据泄露的潜在风险,识别潜在的系统攻击,帮助组织建立健全的数据安全管理措施,填补技术上的漏洞。
3. 以元数据为核心的分布式数据治理
随着云计算、边缘计算的兴起,未来的数据治理必须满足分布式的要求,因为数据治理总是随着数据存储的位置进行。而实现这些,需要数据治理围绕元数据展开,无论数据分散在何处,都可以在数据保留在原地的情况下,通过元数据把它们关联在一起,因此元数据将成为未来数据治理的基础和核心。