文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

DataOps,开启数据管理的新时代

2024-12-02 20:08

关注

【51CTO.com快译】最近的一项针对企业正在面临的大数据挑战的调查,揭露了一个有关数据使用的惊人事实:有38%的企业“缺乏”令人信服的合理方式,去使用他们持有的数据;34%的公司没有足够成熟的流程,去持续处理大数据;24%的公司甚至无法让大数据转换为可供最终用户使用的有价值信息!无论该调查是否有所夸大其词,至少它表明了许多企业并不知道自己可以对数据做什么、必须做什么、以及如何合理从客户处收集数据。

可以说,在以数据为驱动的竞争格局中,忽视数据的价值,甚至无法充分发挥其潜力,对于组织来说都只会意味着灾难性的结局。许多组织往往在收集大量数据的过程中,不知道如何使用适当的流程,来处理和转化数据。

当然,部分问题源自历史遗留的数据管道。伴随着数据在数据管道中从源头移至目标系统,每个阶段对于数据的含义,以及数据的使用,都可能产生不连贯的数据视图。这些会让数据管道变得脆弱且难以迭代,进而使得组织在面对变化时,出现反应上的迟缓。对此,我们值得采取的方式便是:DataOps。

什么是DataOps?

DataOps(即,数据运营的缩写)是一种协作式数据管理方法,强调的是组织内部各种数据管道的通信、集成和自动化。

与数据存储管理不同,DataOps并非主要关注数据的“存储”,而是数据的“交付”。也就是说,如何让所有数据需求者都能够轻松地获得、访问和使用数据。其管理的目标是:创建可预测的数据、模型、以及相关组件的交付和变更管理,以便在整个组织内和数据消费者中,更快地交付出有价值的信息。

为此,DataOps需要通过各项技术,来自动化数据的设计、部署、管理和交付,缩短数据分析的周期,进而改善其使用和提供的价值。在此基础上,DataOps能够大幅提高组织对于市场变化的响应速度,以及应对挑战的能力。

DataOps能够解决的挑战和问题

大数据给我们带来的最大好处莫过于,快速可靠的数据驱动和可实现的业务洞见。对此,各类组织和技术人员需要将DataOps与敏捷、DevOps和精益制造等方法实践相结合,以应对如下方面的数据挑战:

现代化的组织往往需要对来自不同源头、不同形式的数据,持续进行清理、改进和再利用。只有经过这样复杂且漫长的过程,组织才能够从那些快速发展的业务环境中,发掘出潜在的数据洞见。而DataOps恰好能够从根本上提高此类洞见的发掘速度。

有时,组织收集到的数据可能是非结构化的格式。而此类数据源极有可能为新兴的业务挑战提供线索。因此,组织仍然以结构化的格式,去处理数据的话,是远远不够的。鉴于此类数据洞见提取的难度,DataOps能够方便组织去更好地识别、收集和使用来自每个可用数据源的数据。

DataOps打破了组织内部数据过于集中的孤岛状态。同时,它能够通过构建弹性系统,为需要访问数据的每一方提供自助式的服务。也就是说,弹性系统能够随着组织的业务进行扩展,为数据用户提供一种可预测的方式,实现对数据的按需查找和使用。

DataOps的业务优势

对于数据驱动型企业而言,他们需要尽快将数据交付给数据工程师、数据科学家、机器学习(ML)工程师,甚至客户。而DataOps则能够为他们带来如下业务优势:

DataOps为包括:分析师、管理层、以及客户在内的所有数据用户,提供自动化的数据交付,并在此过程中允许每个部门,从数据中提取最大的信息价值。显然,它能够提高组织的竞争力、面对变化的响应能力、以及更高的投资回报率。

目前,大数据需要关注的一个显著问题是,提供数据洞见的时效性。也就是说,过于延迟地提供正确的洞见,对于企业来说是没有意义的。而DataOps能够将数据快速地提供给需求方,以便更快地做出更明智的决策,使组织能够快速地适应市场的变化。

DataOps会使用自动化工具,将数据以自助操作的服务方式予以交付。它不但消除了数据请求和数据访问之间的固有延迟,而且让团队能够据此做出以数据为驱动的决策。同时,由于DataOps摆脱了各种需要手动进行数据管道变更的管理流程,因此组织能够针对数据管道进行简化、快速、且自动化的变更。

DataOps在数据管道中加入了一个反馈循环,允许各种数据消费者识别他们所需的特定数据,并从中获得定制的洞见。据此,每个团队都可以使用这些洞见,来进一步降低成本,发现新的机会,并提高组织的盈利能力。

DataOps的原则

在技​​术方面,DataOps能够在不影响数据分析的速度或质量的基础上,提高数据应用的可扩展性。由于借鉴了DevOps的经验教训与实践,因此DataOps在许多关键方面与DevOps高度重合。下面是DataOps的三个基本原则

由于DataOps能够动态地识别、整理、集成和提供来自不同源头的数据,因此新的数据会被DataOps自动集成到数据管道中,并使用AI/ML工具,提供给各个需求方。

DataOps的自动化完全简化了数据从被发现到转换、管理、洞察、以及定制的全过程。实际上,它可以将数据以实时流的形式,直接传输到预测算法中,以便向用户,特别是数据消费者提供即时的洞见。

这种经过优化的数据集成过程,确保了数据在被发现和利用的过程中,不会浪费过多的时间。

根据规模效应的理论,越多的人去访问组织持有的数据,从中提取的洞见就越具有参考价值。不过,数据的可访问性,取决于数据的治理。我们只有通过DataOps,在整个组织内实施数据治理,才能保证数据能够在安全、且保有隐私的前提下,提供可访问性。

为了保证数据能够以符合内部数据质量、以及数据屏蔽规则的协作方式,有目的性地交付给内、外部数据消费者,我们通常需要使用智能化的数据平台来实现。也就是说,只有当数据的质量、隐私和安全得到了保证时,各种相关方才有信心使用它,并从中获得准确的洞见,而不必担心数据治理所带来的影响。

如今,各种欺诈检测、AI聊天机器人、数字化销售、以及供应链管理等关键任务功能,都需要数据驱动型应用,实时地根据最新可用的数据,来进行决策。而持续部署正是保证用户与应用能够无缝访问数据的前提条件。

DevOps与DataOps

虽然DataOps借鉴了DevOps的基本概念和操作流程,但是两者之间仍然存在如下显着的差异

尽管DataOps的从业者可能非常精通技术,但是他们需要更加专注于,为数据用户创建算法、模型和视觉辅助等工具。同时,他们还应当具有可落地的软件工程思维。

虽然DevOps流程几乎不会涉及到编排(orchestration),但是DataOps流程则需要用到数据管道和分析开发的编排。

与DevOps不同,DataOps会高度依赖数据屏蔽,来开展测试。因此,测试数据的管理就显得至关重要了。此外,在部署之前,DataOps通常需要在数据管道和分析开发的过程中,测试和验证数据。

目前,DevOps已拥有成熟的工具生态系统,尤其体系在测试方面。而作为一种新的方法,DataOps通常需要团队从头开始构建工具,或根据其特殊目的去定制DevOps工具。

DataOps平台的演进

在数据分析的早期,ETL(提取、转换、加载)工具已经成为了管理大量导入数据的强大工具。然而,随着数据的多样性、准确性、以及体量的激增,人们对于可扩展性和实时数据分析的需求,变得更加迫切。ETL工具与云计算资源的结合,虽然加快了数据的分析速度,然而,数据访问的安全性仍然形式严峻。在此背景下,DataOps应运而生。通过采用民主化的数据访问(democratized data access)方式,所有数据需求方可以在组织数据治理策略的约束下,安全、优质地获取数据洞见。

原文A Guide toDataOps: The New Age of Data Management,作者: Mir Alimanagement

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯