文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

数据治理如何服务于AL/ML系统

2024-12-01 13:39

关注

审校 | 孙淑娟

众所周知,数据治理可以确保数据的可用性、一致性、可信性和安全性。这些都是任何一个组织努力的方向,当大数据、人工智能、机器语言接踵而至时,组织在数据治理的投入也在不断加码。大家很快意识到 AI/ML 系统的功能不同于传统系统。

AI/ML 的应用目标并不是处理单个事务,并返回结果与状态。相反,AI/ML 系统会对 PB 级别的数据进行筛选,从而找出对应的查询方式或者开放的算法。数据可以进行并行处理,也就是处理数据的线程可以同时输入到处理器中。海量高并发的数据会进行异步处理,此举可以让IT系统提取数据并加快数据的处理速度。

数据的来源多种多样,可以来自系统的内部或者外部。针对不同的来源会定制不同的收集、管理和存储方式——尽管这些方式与组织治理标准有所异同。面对人工智能本身的问题,你信任他们吗?这是公司及其审计师在 AI/ML 数据治理时,寻找有效工具时都会面临的问题。

一、数据治理如何应用到AI/ML 系统中

1.确保数据一致性和准确性

如果需要对系统内外的事务数据进行处理,首先要将其进行标准化处理,以便这些处理过的数据可以和其他来源的数据进行通信和整合。也可以在系统中预建的应用程序接口,可以保证与其他系统的数据进行交互。如果没有预建接口 API,也可以使用ETL 工具,将数据从一个系统传输到另一个系统,即进行系统之间的数据格式转换。

如果要添加照片、视频和声音等非结构化的对象,则可以使用对象链接工具通过引用的方式让对象相互链接和关联。对象链接器的典型案例就是GIS 系统,它结合了照片、示意图和其他类型的数据,为特定环境提供完整的地理环境。

2.确保数据的可用性

一般而言,我们会将可用数据等同于可访问数据——但不仅如此。如果保留的数据因为过时而失去价值,则应将其清除。IT 系统和最终用户必须就何时清除数据达成一致。然后通过数据保留政策将其固化。

在其他场景也需要考虑清除 AI/ML 数据,例如当 AI 的数据模型发生更改并且数据不再适合该模型时,就应该清除对应的数据。

在 AI/ML 治理审计中,审查员将期望看到以上两种数据清除的书面政策和程序。他们还将检查您的数据清除做法是否符合行业标准。市场上有许多数据清除工具和实用程序可以参考使用。

3.确保数据的可信性

一旦情况发生变化:曾经有效的 AI/ML 系统可能会失效。通过定期检查 AI/ML 结果以及系统历史表现,观察周围的环境就能发现一些蛛丝马迹。如果 AI/ML 系统的准确性产生了偏离,就必须修复它。

亚马逊招聘模式就是一个很好的例子。亚马逊的人工智能系统得出的结论是,最好雇用男性求职者,因为该系统正在研究过去的招聘做法,而且大多数被雇用的都是男性。由于历史数据的原因,该模型未能考虑未来有发展的,且具备高素质的女性申请人。从而AI/ML 系统偏离了真相,反而在系统中植入招聘偏见。从监管的角度来看,这样的人工智能系统是不合规的。

事实证明,亚马逊最终取消了该系统的实施——但其他公司可以避免类似错误的发生,如果能够定期监控系统性能,将预测结果与过去数据进行对比,并与外部环境进行比较,就可以发现AI/ML 模型不同步的情况,并可以进行调整。

数据科学家使用 AI/ML 工具来测量模型漂移,但业务专业人员检查漂移的最直接方法是将 AI/ML 系统性能数据与历史性能数据进行交叉比较。如果你突然发现天气预报的准确度降低了 30%,那是时候检查AI/ML 系统运行的数据和算法了。

原文链接:https://www.techrepublic.com/article/data-governance-ai-systems/

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。​

来源:51CTO技术栈内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯