文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

2023年数据架构要关注的五个重要方面

2024-11-30 13:54

关注

介绍

在本文中,我将讨论五种数据趋势,我认为它们将成为 2023 年以后数据公司的首要任务。

2023 年趋势

湖仓架构

那么什么是湖仓架构呢?湖仓是什么意思?湖仓架构是一种数据存储和管理架构,结合了数据湖和数据仓库的优点。它旨在解决传统数据仓库和数据湖的局限性,并提供一种更高效、更具成本效益的数据管理方法。

数据仓库:用于“商业智能目的”的大规模数据存储。数据仓库存储来自各种来源的数据,并针对查询和分析进行了优化,通常使用维度数据模型。数据仓库支持更快、更高效的报告和数据分析,帮助根据数据驱动的洞察力做出更好的决策。

数据湖:数据湖是一个集中式存储库,以其本机格式存储来自各种来源的原始、未处理的数据。数据湖提供了存储和分析大量结构化和非结构化数据(包括文本、图像和视频)的灵活性。数据湖旨在处理在存储时用例未知的数据,以便以后可以探索和分析数据。与数据仓库不同,数据湖不需要预先对数据进行结构化或转换,因此更适合探索性或“临时”分析。

在湖仓架构中,数据以原始格式存储在中央存储库中,类似于数据湖。但是,就像数据仓库一样,数据也是经过组织和索引的。这允许更快、更有效地查询数据,以及处理和分析数据的方式的灵活性。

此外,湖仓架构通常包括数据版本控制、数据沿袭和数据治理等功能,以帮助确保数据质量和一致性。

近年来,由于数据爆炸以及组织需要能够实时存储、管理和分析大量数据,湖仓架构越来越受欢迎。一些流行的湖仓架构技术包括 Apache Spark、Delta Lake 和 Databricks。

大多数组织现在都在寻求构建湖仓而不是数据仓库和数据湖,并且所有主要数据平台现在都有用于实现湖仓的产品/功能。

数据网格

Data Mesh 听起来有点抽象,那到底是什么呢?

Data Mesh 是设计和操作分布式数据架构的一种相对较新的方法。它基于这样一种理念,即数据应被视为产品并作为跨多个部门的分布式自助服务系统进行管理,而不是作为集中式 IT 功能进行管理。

在数据网格架构中,数据被组织成特定领域的数据集,这些数据集由最接近数据的团队拥有和管理。这些团队负责他们管理的数据的质量、治理和安全性。数据被视为商品,数据生产者和数据消费者之间有明确的合同。

该架构旨在支持团队的可扩展性、灵活性和自主性。它鼓励使用数据标准、API 和定义明确的合同,以便跨多个域轻松安全地访问数据。

Data Mesh 是对传统集中式数据架构缓慢、僵化和难以扩展的局限性的回应。通过分散数据管理,Data Mesh 的目标是扩大数据民主化、加速创新并提高数据的整体质量。

整个 2022 年,我们一直在听说数据网格架构,似乎每个现代数据公司都在讨论并计划实施它们。但这并不容易。

Data Mesh 不仅仅是一种架构变化,它是一种组织协作,它需要转变关于谁拥有和管理数据以及如何拥有和管理数据的思维方式,因此 Data Mesh 的成功将取决于维护和运营管理的系统的程度.

Data Mesh 建立在四个关键基础之上。

领域所有权——领域团队对自己的数据负责。

数据作为一种产品——领域团队应该将他们的数据视为一种产品,并将其提供给其他领域或下游消费者。

自助数据基础架构——一个专门的团队来管理数据平台并使领域团队能够将其用于他们的用例。

联合治理——跨域标准化数据产品,使它们更易于管理、共享并遵守行业和监管标准。

数据治理

数据治理是一个需要讨论和理解的广泛话题。数据治理包含许多不同的方式,可以更好地管理数据。

以下是对数据治理的简要说明数据治理是一组政策、程序和控制措施,用于管理组织如何收集、存储、管理和使用其数据资产。这包括定义和执行与数据相关的标准、确保数据质量和准确性、管理数据安全和隐私,以及确保遵守法规要求。

数据治理提供了一个框架,用于将数据作为战略资产进行管理,确保数据可靠、一致、及时并且可供合适的人员访问。这使组织能够降低与数据泄露、违规和声誉损害相关的风险。

数据治理还可以通过清楚地了解哪些数据可用、数据的结构以及如何用于支持业务目标来帮助组织优化其数据资产并改进决策。

数据治理的一些步骤包括:

传统数据仓库在一天结束时 (EoD) 或一天开始时 (SoD) 以批处理的方式进行填充。BI 用户很高兴他们每天可以看到一次他们的准确和完整的数据。但时代变了,现在的决策更加实时。一个典型的例子是股票市场。

我们现在需要有关信用卡欺诈或未经授权访问的即时警报。我们还需要实时电影推荐或闪购提醒,以便快速做出决策。以下是几个示例:

随着世界向更多实时用例发展,对实施可支持这些流分析的架构的需求将越来越大。2023 年,许多组织将开始致力于支持流式处理、近实时或微批处理用例。

数据架构和数据建模

这些是实现数据平台的构建块。从长远来看,拥有正确的架构蓝图和适当的数据存储建模策略可以帮助企业更好的管理数据。

随着 Hadoop 的兴起,数据建模已经退居二线。各种形状和形式的数据在没有任何建模指导的情况下被发送到数据湖。结果是数据沼泽很快变得很难发现和使用。

自去年以来,我听过许多行业专家谈论适当架构和建模的必要性。数据建模师又回来了,现在公司似乎希望使用最合适的建模方法将数据存储在数据湖和数据仓库中:维度模型或数据存储。这绝对是构建数据平台的一个重要方面。

来源:数据驱动智能内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯