文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

清单管理?面向机器学习中的数据集

2024-12-02 13:40

关注

毋庸置疑的是,数据在机器学习中起着至关重要的作用。每个机器学习模型实例都是使用静态数据集的形式进行训练和评估,这些数据集的特性从根本上影响了模型的行为: 如果一个模型的部署环境与它的训练或评估数据集不匹配,或者这些数据集存在不必要的误差和偏见,那么它就不可能有良好的表现。当机器学习模型应用于高风险领域时,如招聘和金融等领域时,这种不匹配会产生特别严重的后果。即使在其他领域,不匹配也可能导致收益的损失。

虽然数据的可信来源已经在数据库领域得到了广泛的研究,但是在机器学习领域却不是这样的,记录数据集的创建和使用并没有得到足够的重视,目前还没有标准化的机器学习数据集记录流程。

有什么好的方法么?不妨尝试一下清单管理。

1. 关于清单管理

在电子工业中,每个部件,无论多么简单或复杂,都伴随着一份描述其操作特性、测试结果、推荐使用和其他信息的数据表。同样的,我们可以尝试使用清单管理,每个数据集都伴随着一个清单列表,记录其动机、组成、采集、用途等等。数据集的清单列表会增加机器学习的透明度和问责制,减少机器学习模型中不必要的误差和偏见。

用于数据集的清单需要满足两个关键群体的需求: 数据集创建者和数据集消费者。对于数据集的创建者来说,清单可以对创建、分发和维护数据集的过程进行反思,包括任何潜在的假设、风险或危害,以及使用的影响。对于数据集消费者来说,清单可以确保他们拥有所需的信息,以便在使用数据集时做出明智的决策。数据集创建者的透明度对于数据集消费者来说是必要的,这样可以充分了解选择适当的数据集,并避免无意中的误用。

同时,数据集的清单管理促进机器学习结果有更大的重用性,无法访问数据集的开发者可以利用清单中的信息创建具有类似特征的替代数据集。

2. 面向数据集生命周期的清单

数据集生命周期包括: 动机、组成、采集、预处理/清理/标记、使用、分发和维护。面向数据集的生命周期,可以尝试简历清单列表。需要注意的是,清单中的内容并非适用于所有数据集,那些不适用的选项可以跳过。

2.1 数据集的创建动机

创建数据集的理由是创建的动机,自检清单可能包括:

2.2 数据集的组成

数据集的创建者在数据采集之前明确的清单列表,要了解对数据集的消费者提供所需要的信息,以便在是否使用数据集时做出明智的决定。需要注意的是,如果涉及个人信息,要关注《个人信息保护法》,以及其他的法律法规的限定。

如果数据集与人有关,还可能包括:

2.3 采集

数据获取过程,可以人们创建具有类似特征的替代数据集,可能包括:

如果数据集与人员有关,还可能包括:

2.4 预处理/清洗/标记

数据集的消费者需要了解处理过程,以确定”原始”数据是否可以与其所选任务兼容的方式进行了处理。清单包括:

2.5 用途

数据集的应用边界是什么?通过明确这些任务,数据集的创建者可以帮助数据集消费者做出明智的决定,从而避免潜在的风险或危害。

2.6 分发

数据集的分发要么在数据集所代表的组织内部分发,要么在外部分发给第三方,清单可能包括:

2.7 维护

不要有人生,没人养。关于数据集的维护计划,清单可能包括:

3.数据集清单管理的作用与影响

数据集的清单管理不能提供一个完整的解决方案来减轻不必要的偏见或潜在的风险。创建者可能无法预测数据集的每一种可能的用途,当创建与人相关数据集的时候,可能需要与多领域的专家合作,才能较好地收集数据。

为数据集进行清单管理必然会增加数据集创建者的成本。尽管清单有较多一次性问题的选项,但创建清单的过程总是需要时间,组织的基础设施和工作流程需要修改,同样是开发成本。清单列表和工作流可能会对动态数据集造成问题,频繁更新数据集的清单可能会有较大的成本。 

尽管如此,数据集的清单管理促进了数据集创建者和数据集消费者之间更好的沟通,还使数据集创建者能够区分透明度和可靠性。总的来说,对数据集进行清单管理应该是利大于弊的。

 

来源:51CTO专栏内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯