文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

2021年值得关注的5大数据趋势

2024-12-03 10:42

关注

就像其他领域一样,2020年颠覆了数据世界。当COVID关闭企业并派遣员工在家工作时,企业必须迅速适应“新常态”。

随着组织转移到远程工作,云成为绝对必要。数据治理和安全性成为重中之重,每个人都从不同的位置和系统访问数据。现在,历史模型已经变得毫无意义,因此智慧的AI变得越来越有吸引力。简而言之,组织意识到他们需要快速进行更改。数据投资增加,组织寻求升级其系统并创建完美的数据堆栈。

有了2020年的后视镜,我们现在正期待着新的一年,并希望更好的一年。2021年将为数据世界带来什么?数据基础架构将如何发展以跟上所有最新的创新和变更?

今年,我们将看到几个新的数据趋势:新数据角色和数据质量框架的出现,现代数据堆栈和现代元数据解决方案的兴起以及数据湖和仓库的融合。

1.数据湖和仓库正在融合
在过去的十年中,数据架构师围绕两个关键单元设计了数据操作:

如今,许多公司仍然使用这两种系统-所有数据的数据湖,以及用于分析和报告用例的专用数据仓库。

虽然还没有到此,但随着数据湖和仓库都增加了更多功能,我们开始看到两个生态系统融合在一起。

像Snowflake这样的数据仓库已经将存储和计算成本分开了,从而大大降低了将所有数据存储在数据仓库中的成本。更进一步,一些数据仓库参与者已经开始增加对半结构化数据的支持。

另一方面,诸如Databricks之类的数据湖参与者已经开始朝着“数据湖舍”的概念迈进,他们最近宣布支持SQL分析和ACID事务。

了解更多:

2.“现代数据栈”成为主流
从2020年开始,“现代数据堆栈”一词在数据世界中无处不在。它指的是用于处理大量数据的新型最佳现代数据体系结构。

强大的云平台是现代数据堆栈的关键支柱之一。最初以云数据仓库为中心,现在也开始包括云数据湖和相关的数据湖引擎。

如今,现代数据堆栈为数据工作流的每个部分提供了一套工具:

了解更多:

3.元数据3.0:元数据管理重生
随着现代数据堆栈的成熟,公司已开展了雄心勃勃的项目来升级其数据基础架构并理清基本数据需求(即,提取数据,包装云迁移项目以及设置新的BI工具)。这些虽然释放了很多潜力,但也造成了混乱。

诸如“此列名称实际上意味着什么?”之类的上下文问题。和“为什么仪表板上的销售数字又出错了?”杀死那些以惊人速度前进的团队的敏捷性。

尽管这些不是新问题,但我们正处于新的颠覆性解决方案的风口浪尖。随着现代数据平台围绕五个主要参与者(AWS,Azure,Google Cloud Platform,Snowflake和Databricks)汇聚,并且元数据本身正在成为大数据,因此,将智能和自动化带入元数据空间具有巨大的潜力。

在接下来的24到36个月内,我们将看到为现代数据栈构建的一个或多个现代元数据管理平台的兴起,该平台可解决数据发现,数据分类,数据沿袭和可观察性的问题。

了解更多:

4.出现了新角色:分析工程师和数据平台负责人
2020年,两个角色的兴起比以往任何时候都更为主流。

数据平台负责人
组织越来越意识到需要有一个负责开发数据平台的中央团队,以帮助组织的其他成员更好地开展工作。当然,这个团队需要一个领导者。

过去,这是由更传统的角色(如数据仓库专家或数据架构师)来处理的。现在,拥有数据领导者变得很普遍,他可以领导整个组织的数据计划。这些人的头衔范围很广,例如“数据平台负责人”或“数据平台主管”。

数据平台负责人通常负责监督公司数据堆栈的现代化(或从头开始,以供初创企业使用)。这包括设置云数据湖和仓库,实施数据治理框架,选择BI工具等等。

这个新角色伴随着一个重要的新KPI:最终用户采用率。这是指领导者具有使组织中的人员和团队在日常工作流程中采用数据(和数据平台)的能力。这是一个可喜的变化,因为它决定了决定投资哪些数据产品的人们与最终使用该产品的人们的动机。

分析工程师
在过去的十年中,与我交谈的每个分析师都感到一个主要的挫败感:依靠数据工程师进行生产化和建立数据管道。

强大的基于SQL的管道构建工具(如dbt和Dataform)的兴起使这种情况变得更好。通过赋予分析人员超能力,他们将整个数据转换过程交给了数据分析人员。

结果就是“分析工程师”一词的兴起,该术语描述了以前的分析师,他们现在拥有从摄取和转换到最终将可用数据集提供给其余业务的整个数据栈。

了解更多:

5.数据质量框架正在上升
在过去的二十年里,数据质量是一个没有太多创新的空间。但是,它最近取得了长足的进步,并且整个数据堆栈都集成了数据质量的不同方面。

数据质量分析
数据概要分析是检查数据以了解其内容和结构,检查其质量并确定将来如何使用的过程。

在数据资产的整个生命周期中,概要分析可能会发生多次,从浅层评估到深入评估。它包括计算缺失值,最小值和最大值,中位数和众数,频率分布以及其他有助于用户了解基础数据质量的关键统计指标。

尽管数据质量概要分析通常是数据堆栈中的独立产品,但是公司越来越多地将其作为功能集成到现代数据目录中,从而使最终用户能够理解和信任他们的数据。

业务驱动的数据质量规则
数据质量不仅仅是关于数据的统计理解。根据业务环境,还取决于数据是否值得信赖。

例如,您的销售数字通常每周增长不应超过10%。100%的销售激增应提醒合适的团队成员并停止数据管道运行,而不是将其传递给CEO使用的仪表板!

对智能警报的需求已导致组织将业务团队带入编写数据质量检查的过程。

数据团队仍然没有一种很好的方式与业务部门合作进行数据质量检查,但是我希望这个领域在未来的几年中会带来很多创新。将来,我们将看到更智能的解决方案,它们可以根据数据趋势自动生成业务驱动的数据质量规则。

数据管道中的数据质量测
数据质量变得普遍的第三种方式是将其写入数据管道本身。这借鉴了软件工程界“单元测试”的原理。

多年来,软件工程已包含单元测试框架。它们会自动测试每个单独的代码单元,以确保它们可以使用。管道模拟单元测试框架中的数据质量测试可为数据工程带来相同的信心和速度。

这有助于团队在上游数据更改影响组织的工作流和报告之前发现其数据质量问题。

了解更多:

 

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯