据Capital One近日发布的新报告《可操作性机器学习实现关键业务成果》,尽管企业在将机器学习(ML)和人工智能(AI)投入生产方面取得了一些成功,但如果数据管理问题不成为阻碍,它们将会取得更大进展。
该报告部分基于Forrester今年7月对北美150名数据管理决策者的调查,发现73%的决策者认为数据流的透明度、可追溯性和可解释性是阻碍机器学习和AI应用操作化的关键问题。调查还发现,57%的受访者表示,他们的数据科学家和业务者之间的内部竖井阻碍了机器学习的部署。
Capital One高级副总裁兼数据分析主管David Kang表示:“我们仍然处在这样一个阶段,机器学习算法本身并不是阻碍人们获得成功的障碍。”“关键还是数据!”
当Capital One委托进行这项调查时,他们认为最大的挑战将集中在机器学习的可操作性上。随着机器学习和人工智能应用的发展,MLOps(机器学习运营)已经成为独立学科,也是Capital One正在投资的领域。
Kang说,但当这份报告出炉时,数据决策者最关心的还是在建立坚实的数据基础(包括数据工程和数据基础设施)方面缺乏进展。
“从某些方面来说,这令人失望。但从其他方面来说,这并不令人惊讶。因为要大规模利用数据,就需要持续关注思考和重新思考数据生态系统中的每一个能力——如何生产和消费,如何监控,如何以不同的方式管理数据。数据生态系统的转型旅程仍在进行中。这不是一件你只做一次就会忘记的事。它需要持续关注。”
Capital One的调查与最近其他研究的发现相似。这些研究发现,数据管理的问题减缓了机器学习和人工智能的采用速度和程度。其中包括9月份受Databricks委托发布的《麻省理工科技评述》(MIT Technology Review)报告,强调了数据管理不当对人工智能的危害;以及IDC 8月份受Collibra委托进行的一项研究,该研究发现,数据编目、传承、质量管理和治理等具有“数据智能”特征的公司与市场成功之间存在相关性。
如果说这些研究有一个共同的主题,那就是,尽管现有的机器学习和人工智能技术的复杂性正在迅速增长,但企业发现,他们还没有做好一些核心数据管理工作,而这些工作是实现这些技术进步所必须的。
企业可能会发现,ML或AI应用对有限的概念验证(POC)产生了积极的影响,但未能采取必要的步骤,以确保在更广泛的真实生产中顺利推出。
在你想要扩大规模的技术开始在市场上产生影响之前,可能需要等待一段时间。诱惑总是存在的,这些概念开始看到效果,然后突然就发现自己在某一个地方有一堆数据竖井和一堆其他数据工程基础设施的挑战。
数据科学仍然是一门相当新的学科,许多公司都在努力填补职位空缺。Capital One的报告发现,57%的受访者表示,他们打算利用合作关系来填补数据科学从业者之间的空白。Kang表示,缺乏内部专业知识也使得企业建立核心数据基础设施变得更加关键,从而使更先进的ML和AI用例更容易在此基础上构建,也更容易重复。
Capital One的调查也发现了减缓机器学习和人工智能采用的其他问题。该公司发现,36%的受访者认为“庞大、多样化、混乱的数据集”是主要障碍,38%的受访者认为人工智能风险是最大挑战。38%的人提到了跨组织和外部数据合作伙伴的数据竖井,称这对机器学习的成熟度构成了挑战。
数据管理的“小问题”似乎并没有减缓人工智能和机器学习的投资(至少目前还没有)。Capital One的调查发现,61%的决策者计划在未来三年增加新的机器学习能力和应用。超过一半(53%)的受访者目前正在优先考虑利用机器学习提高业务效率。
那么,公司用机器学习做什么呢?这是调查的另一个有趣的花絮,即自动异常检测是机器学习的最主要用例,40%的受访者报告这是他们的最主要用例。这引起了Kang的共鸣,他帮助Capital One建立了基于机器学习的异常检测系统。
ML和AI的其他主要用例包括: 自动应用程序和基础设施更新(39%),以及满足负责任和有道德AI的新监管和隐私要求(39%)。