一、当前数据环境和数据挑战的理解
1. 当前数据环境的多重挑战
在当前的数据环境中,数据治理的关键挑战在于数据的移动、分散和多样化。随着技术、资源和用户需求的变化,企业不断将数据从一个地方转移到另一个地方,以实现数据的管理、应用和共享。然而,数据的持续迁移使数据治理变得更加复杂。
首先,从数据环境的变化来看,数据量呈现出爆炸式增长的趋势。据 IDC 报告显示,亚太地区 2022 年的数据产量达到 41.4 ZB,预计到 2025 年将翻倍至 96.4 ZB。同时,数据产生和存储的形式也日益分散化。预计到 2025 年,在全球各个边缘节点上产生的数据量将从 2021 年的 12.4 ZB 增至 40 ZB。这种数据分散化的现象不仅源于传统的人为输入,还包括大量来自传感器、社交媒体和线上线下应用等多种渠道的数据。
此外,云端数据的快速增长也进一步加剧了数据环境的复杂性。预计到 2025 年,云端数据将占全球数据总量的 55%。然而,这意味着剩余的 45% 数据并未存储在云端,企业在管理这些数据时需要面对云端与非云端数据之间的分布式特性。对于企业来说,如何有效管理和利用这些分散的数据资产成为一个亟需解决的问题。
其次,数据的多样化形式对数据治理提出了更高要求。过去,结构化数据占据主导地位,而如今,非结构化和半结构化数据的比重不断增加。例如,企业在云端或不同系统中存储的数据,不再局限于传统的数据库形式,更多的是通过 API 等方式进行访问和集成。这种数据访问方式的变化,使得企业在数据治理中需要考虑如何管理和利用这些多模态数据。
最后,数据的实时性成为当前数据环境的另一重要特征。2020 年,在移动平台上产生了 6.7 ZB 的数据,这直接推动了云端应用的发展。预计到 2025 年,25% 的原始数据将包含实时数据。实时数据的激增要求企业在数据治理方案中纳入对实时数据的管理和分析,以提高数据的价值。
综合来看,当前数据环境面临着数据量激增、数据分散、多样化和实时化等多重挑战。在这种背景下,企业需要制定新的数据治理策略,以在确保数据安全和合规的同时,提高数据的利用效率,降低数据管理的成本。
2. 数据治理需求的演变
在当前的数据治理中,业务部门和 IT 部门对数据的需求和挑战正在发生变化。业务部门要求更高的数据敏捷性和质量,希望能够快速获取准确的数据以支持业务决策。此外,数据的使用不应依赖少数数据科学家,强调数据民主化,让更多非 IT 专业人员也能轻松使用数据。这种需求推动数据治理走向降低使用门槛,让更广泛的用户能够更快地消费和利用数据。
IT 部门则面临着数据体量增加和数据重复移动、复制导致的成本问题。传统的数据治理方式往往涉及数据复制,如 ETL、ELT 等过程,但这种方式在面对大规模数据时成本高昂。因此,IT 部门需要思考是否有更包容、更优化的治理方法,减少对数据的物理复制,尤其是提前量的对原始数据级别的全量复制行为,以此降低数据管理的整体成本。
除了业务部门和 IT 部门的需求,数据合规和安全问题也日益突出。首席数据官(CDO)和首席风险官(CRO)角色的出现,反映了企业对数据合规和安全的重视。随着企业在全球范围内的扩张,数据跨境传输带来了合规和安全挑战。不同国家和地区的数据法规(如中国的 PIPL、欧洲的 GDPR、美国的 CCPA)对数据的存储、传输和访问提出了严格的要求。企业必须在全球不同地区的数据治理中遵守各自的法规,以确保数据的合法合规。这些法规对数据的存储和跨境访问提出了限制,使得数据治理策略更加复杂。综合这些变化,数据治理方法、理念和架构需要不断演进,以适应业务敏捷性、数据合规、安全管理等多维度的需求。
3. 分布式数据环境的现代化策略
Denodo 提出的解决方案数据虚拟化技术为数据治理提供更多的选择。数据虚拟化是一种让数据可以在不进行物理复制的情况下被访问和管理的技术,这种方式为企业带来了优化数据治理的能力。现代数据架构需要应对两个核心问题:首先,接受分布式数据环境已成为必然。由于技术、安全合规、数据使用等多重原因,数据很难实现物理集中,强行集中不仅成本高昂,还会带来复杂的风险。企业必须坦然接受分布式数据环境,承认数据在物理上是分散的。
其次,虽然数据在存储层面是分布的,但在访问、管理、治理层面仍需实现统一。若企业需要访问多个分布在不同环境甚至跨境的数据源,点对点的连接方式将导致访问网络复杂且混乱,不利于清晰地掌控数据的使用情况。因此,在逻辑层面上集中数据的访问和管理是关键。这就是逻辑数据管理的核心思想,它允许在分布式数据环境下实现数据的集中化使用,满足业务对数据敏捷性和准确性的需求。
逻辑数据管理并非新概念,已经被全球顶级数据管理咨询机构(如 Gartner、Forrester 等)讨论多年,并经历了不同发展阶段,包括逻辑数据仓库、逻辑数据编织和数据网格等理念。Denodo 将在后续的讨论中详细阐述这些概念,帮助企业更好地理解逻辑数据管理在现代数据治理中的重要性。
二、逻辑数据编织优势
1. 数据编织的优势
逻辑数据编织在现代数据架构中具有显著优势,尤其是在数据治理和数据管理方面。根据 Gartner 2021 年的报告,逻辑数据编织借助逻辑集中化的数据访问,实现了治理、审计、追踪、安全性和监控的统一管理。具体优势如下:
- 统一的业务语义和安全性:逻辑数据编织提供了对数据治理的单一接入点。尽管数据存储是分布式的,但数据的访问和管理通过逻辑集中化实现统一。这种统一性确保了业务语义的一致性,并强化了数据的安全性。
- 敏捷性与缩短交付时间:逻辑数据编织大幅提升数据交付的敏捷性。它有效缩短了从需求提出到实现交付的周期(TTM,Time to Market),从而使数据在更短时间内为业务提供支持,提高了组织的响应速度和竞争力。
- 易于业务人员使用:逻辑数据编织为业务人员提供了一种更友好的数据消费方式。它使用标准化、统一的业务语言和访问请求,使得业务人员无需深入掌握技术细节,也能有效利用和消费数据。
- 面向未来的架构设计:逻辑数据编织是一种面向未来的数据管理方法。其架构设计灵活,能够适应技术发展和基础架构的变更,为企业提供了持续发展的空间,确保数据系统在未来的可扩展性和可维护性。
2. 逻辑数据仓库(LDW)架构
(1)逻辑数据仓库(LDW)架构
在数据管理的架构设计中,逻辑数据仓库(Logical Data Warehouse, LDW)是一种常见的实现方式,它通过统一的数据管理和访问层整合了多种数据源。构建逻辑数据仓库并不意味着物理数据仓库的消失,物理数据仓库在 LDW 架构中依然存在,甚至可以与数据湖等物理存储环境共存。通过虚拟化层的整合,这些物理存储成为一个统一的逻辑数据环境。
在 LDW 架构中,左侧为各种数据源,包括物理数据仓库和数据湖,右侧则是数据应用。架构中的核心是中间的虚拟化层,它提供了一个统一的数据访问界面,无论数据位于仓库、数据湖,还是直接来自业务系统的数据源,用户都能在这个逻辑环境中进行访问。
这一架构的灵活性体现在数据的跨源访问和异构整合上,用户可以快速有效地组织和查询来自不同源的数据。甚至在某些情况下,数据不必首先进入数据仓库或数据湖,而是可以直接从业务系统中进行访问,这使得数据的处理和响应更加灵活和高效。
LDW 并不是一个全新的概念,早在 2010 年,全球范围内已经开始广泛应用这一技术架构。LDW 的兴起很大程度上是因为物理数据仓库建设成本高昂。随着数据量的增长,数据仓库的维护费用,包括人力、存储和时间的成本,都会显著上升。例如,许多企业存储了十年以上的历史数据,尽管实际使用中可能只需要近三个月或三年的数据。对于领导层来说,常常只关注最新的数月数据,而对更久远的数据需求较少。然而,一些中层管理人员或者具体执行层面的人,比如财务部门,可能需要查看较长时间跨度的数据。面对这些不同层级的需求,继续将所有数据存放在高成本的物理数据仓库中显然是不合理的。
(2)数据分区与虚拟化层的实现
逻辑数据仓库的一个关键优势在于,它能够基于数据的使用场景和需求,灵活分配数据存储资源。这种分配可以通过不同的分区策略实现,比如水平分区和垂直分区。以水平分区为例,LDW 允许我们在保持数据结构一致的前提下,将数据根据不同条件分配到不同的存储环境中。
举例来说,企业可以将最核心的、高访问频率的数据保存在性能更高的物理数据仓库中,而将历史性或低频访问的数据存储在如 Hadoop 集群这样的低成本环境中。对于三年以上的历史数据,由于访问频率较低,用户对查询响应时间的容忍度相对较高,因此不需要保存在高性能系统中。然而,领导层可能对实时数据的响应时间要求非常高,延迟几秒钟就可能影响他们的决策,因此这些数据必须保存在高效的物理仓库中。而对于需要查询多年历史数据的财务或操作人员,即使系统响应稍慢也可以接受,这样的数据就可以被转移到更具性价比的存储系统中。
在逻辑数据仓库的虚拟化层中,用户不必关心数据究竟存储在数据仓库还是数据湖中。虚拟化层会根据用户的请求自动决定数据的访问路径。用户可以同时查询物理数据仓库和数据湖中的数据,而这一过程对用户来说是透明的。这样的设计确保了数据的灵活整合和高效访问,减少了跨源查询的复杂性。
(3)LDW 构建的核心要素
在逻辑数据仓库的建设过程中,虚拟化层的实现涉及三项核心任务:
- 业务逻辑的设计与统一建模:逻辑数据仓库中的数据访问是通过一种业务语言进行的。无论数据是存储在物理数据仓库中,还是在数据湖中,逻辑数据仓库需要将这些数据抽象成统一的业务模型。这个模型必须是面向业务的,方便业务人员理解和操作,保证用户能够以一致的方式访问所有数据源。
- 自动化处理与优化:在逻辑数据仓库的环境中,数据访问的自动化优化至关重要。用户发出的查询请求并不会直接指向某个特定的数据源,而是通过虚拟化层的自动化机制决定应该从哪里提取数据。根据用户的查询条件,系统会自动判断是否从物理数据仓库或数据湖中获取数据,从而提高访问效率。用户不需要理解这些数据是如何分布的,也不需要手动指定数据的来源,这一切都是在后台通过智能优化完成的。
- 数据管理与治理:逻辑数据仓库的另一重要功能是数据管理和治理,包括数据安全、监控、审计和数据治理。由于逻辑数据仓库可能会涉及多个数据源,因此在保证数据访问效率的同时,还需要确保数据的安全性和合规性。虚拟化层会对数据访问进行监控和审计,保证数据治理的完整性和安全性,确保数据访问符合企业的合规要求。
通过这三大核心要素的构建,逻辑数据仓库能够有效解决物理数据仓库带来的存储和维护成本问题,提供了一个灵活的、面向业务的统一数据访问平台。它不仅优化了跨源数据的查询和管理,还为企业提供了高效的数据整合方案,满足了不同层级的业务需求。
3. 逻辑数据编织的概念
逻辑数据编织(Logical Data Fabric)是近年来数据管理领域中广泛讨论的一个概念,常常与逻辑数据仓库(Logical Data Warehouse)一同被提及。然而,逻辑数据编织与逻辑数据仓库并非完全相同的概念,而是一种更广泛的数据集成和管理方法。尽管目前尚未有一个绝对明确的标准定义来解释什么是逻辑数据编织,但诸如 Gartner、Forrester 等权威咨询机构在过去五年中提出了关于它的一些观点,可以帮助我们对其进行理解。
根据 Gartner 的观点,逻辑数据编织首先是一种面向数据集成服务的设计架构。它旨在通过提供数据集成服务来实现数据的无缝整合。逻辑数据编织的第二个关键特点是它基于元数据驱动。元数据在这个架构中起到核心作用,驱动数据集成和管理的各个环节。基于元数据驱动的架构使得逻辑数据编织能够按需完成数据集成工作,这意味着在数据集成过程中,逻辑数据编织可以动态地适应不同的数据需求。
逻辑数据编织的另一个重要特征是其对人工智能(AI)和机器学习(Machine Learning)的运用。Gartner 指出,逻辑数据编织应当在数据集成的过程中,最大化或自动化地使用 AI 和机器学习技术,以优化数据集成和管理流程。这不仅提高了数据集成的效率,还能使得数据分析和数据洞察更为智能和精准。
逻辑数据编织通过元数据来驱动整个数据集成过程,并能够基于这些元数据进行推荐和优化。这种元数据与推荐的结合,构成了逻辑数据编织的核心理念,使其在数据集成领域中扮演了重要角色。
4. 数据网格
数据网格(Data Mesh)是一种新型的数据治理架构,它的核心思想是通过各个部门基于自身的数据产品来实现联邦式的数据治理。与传统的集中化数据治理方式不同,数据网格强调数据产品的分布式管理和自治,这种方式能够更好地适应组织内部各个部门的特定需求和数据特性。
- 尊重差异:数据网格强调各部门数据的独特性,允许不同部门根据自身需求来管理和使用数据。每个部门的数据可能在格式、结构和用途上有所不同,数据网格鼓励保持这种多样性,而不是强制统一标准。这一特点使数据治理能够更灵活地适应企业内部的复杂需求。
- 数据即产品:在数据网格中,数据被视为产品。各部门的数据产品应具备易于发现、理解和使用的特性,方便其他部门在组织内部进行共享和利用。通过将数据作为产品来管理,可以确保数据质量、提高数据可用性,并使数据在组织内部发挥更大的价值。
- 自服务平台:数据网格提供了一个自服务的平台,使各部门可以自主构建、部署、发布和管理其数据产品。虽然该平台由中央团队运营,但中央团队的职责仅限于维护平台,而不负责开发具体的数据产品。这样,各部门可以快速响应业务需求,构建符合自身需要的数据产品,提高数据治理的效率和灵活性。
- 联邦式计算治理:联邦式计算治理确保了数据网格的整体互操作性和一致性。通过共享实体的通用语义和惯例,数据网格在各部门之间实现了数据的无缝协作。同时,联邦式治理还支持全局安全和管理政策的执行,确保数据在整个组织中的安全和合规。这种治理方式既保证了各部门的自主性,又维护了全局的数据一致性和安全性。
5. Denodo 的解决方案
基于数据虚拟化和 Denodo 的解决方案,数据网格的实现可以分步进行,其中的核心概念是数据产品。数据网格将数据交付视为数据产品,并将其分类为三种类型:源域的数据产品、跨域的数据产品以及面向业务的数据产品。这种分类方式强调了数据在不同场景和需求下的交付形式,使得数据产品能够更好地服务于组织的多元化需求。
总结来看,数据管理的架构经历了三个主要阶段。根据 Gartner 的最新研究,可以划分为三个时期:前数据仓库时代、逻辑数据仓库时代和增强型分析时代。
在 2010 年以前,这被称为前数据仓库时代或后数仓时代。在这一时期,企业主要构建的是物理数据仓库、数据集市和数据沙箱等环境,重点是将数据集中到一个物理平台中进行管理和分析。随着需求的变化和数据规模的扩大,这种物理集中式的方式逐渐暴露出其局限性。
2010 年至 2020 年的十年被称为逻辑数据仓库时代。这一阶段的核心在于构建统一的数据分析环境,以满足日益增长的分析需求。逻辑数据仓库在原有物理数据平台的基础上,增加了一个统一的业务语义层,即逻辑数据访问管理层。这一层的引入使得不同的数据平台可以通过统一的接口进行访问和分析,从而更好地支持业务需求。然而,数据环境的整体构建思路在这个时期并未发生根本性的变化,依然依赖于物理数据的集中存储。
2020 年以后,被称为增强型分析时代或活动元数据时代。在这一阶段,数据管理的核心从物理集中转向了元数据驱动。通过收集和管理元数据,企业可以在统一的数据交付和管理框架下,更高效地进行数据治理。元数据驱动不仅使数据管理更加灵活,还为数据的自动推荐提供了可能性,从而实现了活动元数据的管理架构。
在实际应用中,企业如何选择这三种架构是一个需要综合考虑的问题。逻辑数据编织的核心在于对元数据的收集和管理,因此适用于那些在元数据管理成熟度较高的企业。对于数据网格,它强调分散和自治的核心理念,适用于数据治理成熟度更高、能够自助式管理数据的企业。然而,现实中,全球范围内能够在这两个维度上都达到成熟度要求的企业不足 15%,剩余的 85% 企业往往在两个维度上都无法完全满足。因此,逻辑数据仓库成为这些企业较为适合的解决方案。
需要注意的是,数据编织和数据网格并非互斥的概念。在理想的数据治理环境中,数据编织和数据网格应当结合使用。在数据集成的架构层面,实现自动化和编织思想,同时在企业范围内,通过网格化的连接,实现各个数据单元的编织。这种融合的方式,既能利用元数据驱动的数据编织优势,又能发挥数据网格的自治性,为企业提供全面的数据治理能力。
三、企业角色与使用场景
在实际应用场景中,使用 Denodo 的数据虚拟化技术可以实现多种数据架构,包括逻辑数据仓库、逻辑数据编织以及数据网格。然而,无论采用何种架构,都需要根据具体的业务需求找到适合的切入点。以下是六个常见的切入点:
- 单一视图场景:构建客户、产品、车辆、档案等 360 度全景视图。这种场景适用于业务部门需要全面了解某一对象的所有关联信息,以支持业务决策和客户服务。
- 数据安全与合规场景:满足数据安全和合规性要求,包括数据访问控制、审计、数据隐私保护等。金融、医疗等对数据安全要求较高的行业尤为适合。
- 数据服务场景:提供 API 管理和数据服务发布,实现数据的标准化和可复用。通过数据服务化,可以为其他系统提供统一的数据访问接口,支持灵活的数据消费。
- 自助式 BI 场景:满足业务部门的数据自助分析需求,实现数据民主化和数据自制。通过自助式分析工具,业务用户可以直接对数据进行查询和分析,提高数据利用效率。
- 大数据场景:包括逻辑数据仓库和逻辑数据湖的管理。在大数据环境中,逻辑数据虚拟化层可以整合各种类型的数据源,提供统一的数据访问接口。
- 云端场景:支持上云、下云和多云策略,实现混合云和多云环境下的数据管理。通过数据虚拟化,可以实现云端与本地数据的无缝集成。
四、成功案例-冰岛银行
冰岛银行(Landsbank)的实践案例展现了逻辑数据仓库和数据网格的演进过程。在采用 Denodo 解决方案之前,冰岛银行面临着数据管理的复杂性。银行需要满足董事会、业务部门等不同的需求,例如 KPI 报告、风险报告等。冰岛银行原有的架构中,各个业务部门采用不同的 BI 工具(如 SAP BO、SAS)构建模型层和语义层。这种多工具、多系统的架构导致了以下问题:
数据安全与合规:银行对数据安全管控要求高,在每个数据源、数据集成层、应用层都需要进行大量的安全和审计规则治理,增加了管理的复杂性。
数据重复建设:不同部门采用不同工具和方法,导致数据模型的重复建设,增加了数据管理的成本。
第一年:逻辑数据仓库的实现:为解决上述问题,冰岛银行首先构建了逻辑数据仓库,将数据虚拟化层覆盖在原有的中间模型层上。通过数据虚拟化层,银行集中管理业务规则、安全审计规则,从而大幅降低了数据治理和管控的成本。
第二、三年:扩展逻辑数据仓库:看到逻辑数据仓库的成功后,冰岛银行将这一架构推广至更多业务部门,包括对私和对公业务等。逻辑数据仓库范围的扩大,实现了对更多业务数据的集中管理和虚拟化。
第四年:数据网格的初步构建:随着业务的扩展,冰岛银行发现仅靠物理集中存储无法满足所有业务需求,尤其是对原系统中数据的理解和管理成为瓶颈。因此,银行开始联合业务专家,对原域数据产品进行深入治理,提升数据质量。通过逻辑数据管理的方法,银行完成了从数据集中化到自治化的转变,为构建数据网格奠定了基础。
未来:数据网格的全面落地:经过多年的努力,冰岛银行最终实现了全行范围的数据网格化。数据网格使银行各个业务部门能够灵活地访问和共享数据,从而支持业务创新。例如,对公部门可以访问同业数据,对私部门可以访问信用卡数据。数据网格的实现使银行的业务更具灵活性和可扩展性。
冰岛银行的案例展示了数据虚拟化在数据管理架构中的重要性。无论是逻辑数据仓库、逻辑数据编织,还是数据网格,数据虚拟化都可以提供灵活的数据集成和治理能力,满足不同业务场景的需求。选择何种架构取决于企业的业务需求、数据治理成熟度以及数据安全与合规要求。在理想情况下,数据编织和数据网格的结合可以实现企业数据的最佳治理。