以管理和集成数据为例,这是当前企业中特别需要 AI/ML 技术的应用。由于本地和云平台的数据量、数据种类、可变性和分布上升到一个新的高度,非常需要机器来帮助管理解决数据问题。
那么,AI/ML真的能够帮助建立数据混乱的秩序吗?答案是肯定的,但业界的共识是,我们只是触及了可能实现的目标表面。诸如Informatica、IBM和SnapLogic这些集成软件的老牌企业,已经增加了AI/ML功能来自动化各种任务,并且Tamr、Cinchy和Monte Carlo等一批新公司将AI/ML作为其产品的核心。不过,至今仍然没有一家能够提供端到端自动化数据管理和集成流程的 AI/ML 解决方案。
时至今日,仍然没有任何产品或服务可以在没有人为干预的情况下管理每个异常数据,更不用说改革混乱的企业数据架构了。如今,这些新的 AI/ML 驱动型解决方案可以做的是大幅减少各种数据整理和集成工作的人工劳动,从数据编目到构建数据管道再到提高数据质量。
然而,值得注意的是,要产生真正、持久的影响,一个 CDO(首席数据官) 需要一种方法,而不是为一次性项目获取集成工具的冲动。在企业确定要应用于哪些 AI/ML 解决方案的优先级之前,他们需要对其整个数据资产(客户数据、产品数据、交易数据、事件数据等)进行连贯的、自上而下的审视,并全面了解定义这些数据类型的元数据。
企业数据问题的范围
如今,大多数企业都管理着大量的数据存储,每个数据存储都与自己的应用程序和案例相关联,随着业务部门使用云计算等,企业的数据孤岛问题变得越来越严重。在企业的众多存储当中,一些数据存储可用于事务或其他业务活动,而其他数据存储(主要是数据仓库)则为从事分析或商业智能的人员提供服务。
Forrester Research副总裁兼首席分析师Noel Yuhanna表示,地球上的每个组织都有二十多种数据管理工具,这些工具都是独立存在的。目前,已经有一些供应商为他们的产品注入了AI / ML功能,而其他供应商尚未这样做。
数据集成的主要目的是映射各种数据源的架构,以便不同的系统可以共享、同步和/或丰富数据。例如,后者是开发客户360度视图的必备条件。但是,看似简单的任务,例如确定具有相同名称的客户或公司是否是同一实体,以及哪些记录正确的详细信息,都需要人工干预,这也就是技术专家经常被要求帮助建立规则来处理各种异常的原因所在。
Tamr的首席产品官Anthony Deighton声称,他的MDM解决方案克服了基于规则的系统复杂性。Anthony Deighton表示,基于机器学习的方法的优势在于,当你添加新的来源时,或者当数据类型本身发生变化时,系统可以很快地适应这些变化。当然,这与大多数ML系统一样,需要使用大量数据进行持续训练,并且仍然需要人工判断来解决差异。
因此,在管理数据的问题上,AI/ML不是灵丹妙药。但它可以提供非常有价值的自动化,不仅适用于 MDM,而且适用于数据集成的许多领域。
将AI/ML集成到数据结构中
“数据结构”是用于描述整个企业中有用数据的操作短语。要确定该结构的范围,首先要知道数据的位置,并对其进行编目。该任务可以使用Informatica的AI/ML注入CLAIRE引擎或IBM Watson知识目录等解决方案的AI / ML功能进行部分自动化。其他编目软件供应商包括Alation,BigID,Denodo和OneTrust。
Gartner研究总监Robert Thanaraj认为,要构建数据结构,必须购买必要的技术组件,构建并根据所需的结果进行编排。这种结构应该是“元数据驱动的”,由围绕企业数据本身的所有重要信息的汇编编织而成。
Robert Thanaraj对企业的建议是“投资于元数据发现”。这包括“与组织中的人员一起工作的模式,处理数据的人员模式以及他们使用的数据组合。
Informatica的CLAIRE引擎可以帮助企业获得元数据见解并采取行动。Informatica首席产品官Jittesh Ghai表示,我们应用 AI/ML 功能来提供预测数据......通过将元数据的所有维度链接在一起以提供上下文。除此之外,这种预测性数据智能可以帮助自动创建数据管道。通过自动生成与各种源项的公共元素的映射,并将其与目标系统的架构保持一致。
IDC Stewart Bond指出,SnapLogic集成平台具有类似的流水线功能。因为它们是基于云的,所以他们会关注所有其他已经建立了管道的客户,可以找出下一个最好的 Snap:根据成百上千的其他客户行为,判断应该在这个管道中采取的下一个最佳行动是什么。
提高数据质量
根据Stewart Bond的说法,AI / ML产生最大影响地是提供更好的数据质量。Forrester Yuhanna对此表示赞同:“AI/ML确实在推动数据质量的提高,这是因为 ML 可以发现大量数据中的模式并从中学习,并推荐人类缺乏带宽来确定的新规则或调整。
高质量的数据对于处理重要客户、员工、供应商和产品数据的交易和其他操作系统至关重要,让沉浸在分析中的数据科学家的生活更加轻松。
人们常说,数据科学家花费80%的时间清理和准备数据。Michael Stonebraker对这一估计提出了异议:他引用了与一位数据科学家的对话。这位数据科学家认为,她花了90%的时间来确定想要分析的数据源,整合结果并清理数据。然后,她将剩余 10% 的时间中的 90% 用于修复清洁错误。因此,任何能够让她节省大量时间的 AI/ML 数据编目或数据清理解决方案都会改变游戏规则。
数据质量从来都不是一劳永逸的。数据不断变化的性质及其经过的许多系统催生了一类新的解决方案:数据可观测性软件。它可以观察数据流经数据管道的数据,并正在识别数据质量问题。Stewart Bond认为,使用AI / ML来监控数据质量的六个维度”的参与者:准确性,完整性,一致性,唯一性,及时性和有效性。
正如DevOps必不可少的持续测试一样,越来越多的公司正在接受数据操作,其中正在对仪表板、ETL 作业进行操作、使这些管道运行的东西进行持续测试,并分析这些管道中的数据。
更多智能即将推出
数据管理和集成软件供应商将继续快速添加有用的 AI/ML 功能,以实现数据发现、映射、转换、流水线、治理等自动化。
Informatica Ghai 表示,如果我们要在这个异构、多云、碎片化的环境中以 PB 级的规模进行数据配置,我们需要将 AI 应用于数据管理。Ghai甚至关注OpenAI的GPT-3系列大型语言模型。他表示,最令人兴奋的是理解人类文本指令的能力。
然而,没有任何产品拥有使数据混乱合理化或在没有帮助的情况下清理数据的智能。Gartner Thanaraj认为,在自动化、人工操作之前必须找到一个平衡。
目前,AI / ML人才的严重短缺。Michael Stonebraker表示,目前仍旧没有用于数据管理和集成的交钥匙 AI/ML 解决方案,因此 AI/ML 专业知识对于正确实施是必要的。
当然,随着AI / ML解决方案变得更加智能,将会给企业带来越来越多的收益。
原文Can AI solve IT’s eternal data problem?
原文作者: Eric Knorr