介绍
在本文中,我将讨论五种数据趋势,我认为它们将成为 2023 年以后数据公司的首要任务。
2023 年趋势
- Lakehouse Architecture
- Data Mesh
- Data Governance
- Real-time Processing/Streaming
- Data Architecture & Data Modeling
湖仓架构
那么什么是湖仓架构呢?湖仓是什么意思?湖仓架构是一种数据存储和管理架构,结合了数据湖和数据仓库的优点。它旨在解决传统数据仓库和数据湖的局限性,并提供一种更高效、更具成本效益的数据管理方法。
数据仓库:用于“商业智能目的”的大规模数据存储。数据仓库存储来自各种来源的数据,并针对查询和分析进行了优化,通常使用维度数据模型。数据仓库支持更快、更高效的报告和数据分析,帮助根据数据驱动的洞察力做出更好的决策。
数据湖:数据湖是一个集中式存储库,以其本机格式存储来自各种来源的原始、未处理的数据。数据湖提供了存储和分析大量结构化和非结构化数据(包括文本、图像和视频)的灵活性。数据湖旨在处理在存储时用例未知的数据,以便以后可以探索和分析数据。与数据仓库不同,数据湖不需要预先对数据进行结构化或转换,因此更适合探索性或“临时”分析。
在湖仓架构中,数据以原始格式存储在中央存储库中,类似于数据湖。但是,就像数据仓库一样,数据也是经过组织和索引的。这允许更快、更有效地查询数据,以及处理和分析数据的方式的灵活性。
此外,湖仓架构通常包括数据版本控制、数据沿袭和数据治理等功能,以帮助确保数据质量和一致性。
近年来,由于数据爆炸以及组织需要能够实时存储、管理和分析大量数据,湖仓架构越来越受欢迎。一些流行的湖仓架构技术包括 Apache Spark、Delta Lake 和 Databricks。
大多数组织现在都在寻求构建湖仓而不是数据仓库和数据湖,并且所有主要数据平台现在都有用于实现湖仓的产品/功能。
- Databricks
- Apache Iceberg
- Snowflake
数据网格
Data Mesh 听起来有点抽象,那到底是什么呢?
Data Mesh 是设计和操作分布式数据架构的一种相对较新的方法。它基于这样一种理念,即数据应被视为产品并作为跨多个部门的分布式自助服务系统进行管理,而不是作为集中式 IT 功能进行管理。
在数据网格架构中,数据被组织成特定领域的数据集,这些数据集由最接近数据的团队拥有和管理。这些团队负责他们管理的数据的质量、治理和安全性。数据被视为商品,数据生产者和数据消费者之间有明确的合同。
该架构旨在支持团队的可扩展性、灵活性和自主性。它鼓励使用数据标准、API 和定义明确的合同,以便跨多个域轻松安全地访问数据。
Data Mesh 是对传统集中式数据架构缓慢、僵化和难以扩展的局限性的回应。通过分散数据管理,Data Mesh 的目标是扩大数据民主化、加速创新并提高数据的整体质量。
整个 2022 年,我们一直在听说数据网格架构,似乎每个现代数据公司都在讨论并计划实施它们。但这并不容易。
Data Mesh 不仅仅是一种架构变化,它是一种组织协作,它需要转变关于谁拥有和管理数据以及如何拥有和管理数据的思维方式,因此 Data Mesh 的成功将取决于维护和运营管理的系统的程度.
Data Mesh 建立在四个关键基础之上。
领域所有权——领域团队对自己的数据负责。
数据作为一种产品——领域团队应该将他们的数据视为一种产品,并将其提供给其他领域或下游消费者。
自助数据基础架构——一个专门的团队来管理数据平台并使领域团队能够将其用于他们的用例。
联合治理——跨域标准化数据产品,使它们更易于管理、共享并遵守行业和监管标准。
数据治理
数据治理是一个需要讨论和理解的广泛话题。数据治理包含许多不同的方式,可以更好地管理数据。
以下是对数据治理的简要说明数据治理是一组政策、程序和控制措施,用于管理组织如何收集、存储、管理和使用其数据资产。这包括定义和执行与数据相关的标准、确保数据质量和准确性、管理数据安全和隐私,以及确保遵守法规要求。
数据治理提供了一个框架,用于将数据作为战略资产进行管理,确保数据可靠、一致、及时并且可供合适的人员访问。这使组织能够降低与数据泄露、违规和声誉损害相关的风险。
数据治理还可以通过清楚地了解哪些数据可用、数据的结构以及如何用于支持业务目标来帮助组织优化其数据资产并改进决策。
数据治理的一些步骤包括:
- 数据质量——验证和改进
- 元数据管理和数据发现
- 数据审计和数据沿袭
- 访问控制和安全数据共享
- 主数据管理定期审查流程
- 实时处理/流媒体
传统数据仓库在一天结束时 (EoD) 或一天开始时 (SoD) 以批处理的方式进行填充。BI 用户很高兴他们每天可以看到一次他们的准确和完整的数据。但时代变了,现在的决策更加实时。一个典型的例子是股票市场。
我们现在需要有关信用卡欺诈或未经授权访问的即时警报。我们还需要实时电影推荐或闪购提醒,以便快速做出决策。以下是几个示例:
- 金融服务:实时处理用于监控股市数据并实时识别交易机会。它还用于欺诈检测和风险管理,其中需要快速处理和分析数据以防止欺诈活动。
- 电子商务:电子商务中使用实时处理来跟踪客户行为,例如搜索查询、点击和购买,以及实时个性化产品推荐和促销。
- 医疗保健:实时处理用于监测患者数据,包括生命体征和病史,以识别潜在的健康问题并提供及时的医疗干预。
- 电信:电信中使用实时处理来监控网络流量并检测和防止网络中断或故障。
- 交通:实时处理用于交通监控交通状况,优化路线,提高交通网络的整体效率。
随着世界向更多实时用例发展,对实施可支持这些流分析的架构的需求将越来越大。2023 年,许多组织将开始致力于支持流式处理、近实时或微批处理用例。
数据架构和数据建模
这些是实现数据平台的构建块。从长远来看,拥有正确的架构蓝图和适当的数据存储建模策略可以帮助企业更好的管理数据。
随着 Hadoop 的兴起,数据建模已经退居二线。各种形状和形式的数据在没有任何建模指导的情况下被发送到数据湖。结果是数据沼泽很快变得很难发现和使用。
自去年以来,我听过许多行业专家谈论适当架构和建模的必要性。数据建模师又回来了,现在公司似乎希望使用最合适的建模方法将数据存储在数据湖和数据仓库中:维度模型或数据存储。这绝对是构建数据平台的一个重要方面。