审校 | 孙淑娟
众所周知,数据治理可以确保数据的可用性、一致性、可信性和安全性。这些都是任何一个组织努力的方向,当大数据、人工智能、机器语言接踵而至时,组织在数据治理的投入也在不断加码。大家很快意识到 AI/ML 系统的功能不同于传统系统。
AI/ML 的应用目标并不是处理单个事务,并返回结果与状态。相反,AI/ML 系统会对 PB 级别的数据进行筛选,从而找出对应的查询方式或者开放的算法。数据可以进行并行处理,也就是处理数据的线程可以同时输入到处理器中。海量高并发的数据会进行异步处理,此举可以让IT系统提取数据并加快数据的处理速度。
数据的来源多种多样,可以来自系统的内部或者外部。针对不同的来源会定制不同的收集、管理和存储方式——尽管这些方式与组织治理标准有所异同。面对人工智能本身的问题,你信任他们吗?这是公司及其审计师在 AI/ML 数据治理时,寻找有效工具时都会面临的问题。
一、数据治理如何应用到AI/ML 系统中
1.确保数据一致性和准确性
如果需要对系统内外的事务数据进行处理,首先要将其进行标准化处理,以便这些处理过的数据可以和其他来源的数据进行通信和整合。也可以在系统中预建的应用程序接口,可以保证与其他系统的数据进行交互。如果没有预建接口 API,也可以使用ETL 工具,将数据从一个系统传输到另一个系统,即进行系统之间的数据格式转换。
如果要添加照片、视频和声音等非结构化的对象,则可以使用对象链接工具通过引用的方式让对象相互链接和关联。对象链接器的典型案例就是GIS 系统,它结合了照片、示意图和其他类型的数据,为特定环境提供完整的地理环境。
2.确保数据的可用性
一般而言,我们会将可用数据等同于可访问数据——但不仅如此。如果保留的数据因为过时而失去价值,则应将其清除。IT 系统和最终用户必须就何时清除数据达成一致。然后通过数据保留政策将其固化。
在其他场景也需要考虑清除 AI/ML 数据,例如当 AI 的数据模型发生更改并且数据不再适合该模型时,就应该清除对应的数据。
在 AI/ML 治理审计中,审查员将期望看到以上两种数据清除的书面政策和程序。他们还将检查您的数据清除做法是否符合行业标准。市场上有许多数据清除工具和实用程序可以参考使用。
3.确保数据的可信性
一旦情况发生变化:曾经有效的 AI/ML 系统可能会失效。通过定期检查 AI/ML 结果以及系统历史表现,观察周围的环境就能发现一些蛛丝马迹。如果 AI/ML 系统的准确性产生了偏离,就必须修复它。
亚马逊招聘模式就是一个很好的例子。亚马逊的人工智能系统得出的结论是,最好雇用男性求职者,因为该系统正在研究过去的招聘做法,而且大多数被雇用的都是男性。由于历史数据的原因,该模型未能考虑未来有发展的,且具备高素质的女性申请人。从而AI/ML 系统偏离了真相,反而在系统中植入招聘偏见。从监管的角度来看,这样的人工智能系统是不合规的。
事实证明,亚马逊最终取消了该系统的实施——但其他公司可以避免类似错误的发生,如果能够定期监控系统性能,将预测结果与过去数据进行对比,并与外部环境进行比较,就可以发现AI/ML 模型不同步的情况,并可以进行调整。
数据科学家使用 AI/ML 工具来测量模型漂移,但业务专业人员检查漂移的最直接方法是将 AI/ML 系统性能数据与历史性能数据进行交叉比较。如果你突然发现天气预报的准确度降低了 30%,那是时候检查AI/ML 系统运行的数据和算法了。
原文链接:https://www.techrepublic.com/article/data-governance-ai-systems/
译者介绍
崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。