文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

模型数据出现偏差怎么办?一文了解机器学习中的7种数据偏差类型

2024-12-03 17:53

关注

通常,机器学习项目的培训数据必须代表现实世界。这一点很重要,因为此数据是计算机学习完成工作的一种方法。数据偏差可能发生在一系列领域,从人类报告和选择偏差到算法和解释偏差。下图是仅出现在数据收集和注释阶段的各种偏差的一个很好的示例。

 

 

 

 

解决机器学习项目中的数据偏差问题意味着首先要确定数据偏差的所在位置。只有在知道存在偏差的地方后,才能采取必要的步骤来纠正,无论是解决缺少数据的问题还是改进注释过程。有鉴于此,对数据的范围、质量和处理保持警惕,尽可能避免偏差,这一点非常重要。这不仅影响模型的准确性,还可以影响道德、公平和包容问题。

本文列出了机器学习中最常见的七种数据偏差类型,可以帮助大家分析并了解偏差发生在哪里,以及我们可以对偏差做什么。

数据偏差的类型

这个列表虽然不是所有数据偏差类型都包括在内,但是常见的数据偏差示例,以及数据偏差发生的位置的示例已经包含其中。

示例偏差:当数据集不反映模型将运行的环境的现实时,就会出现示例偏差。例如某些面部识别系统主要训练对象是白人男子,因此这些模式对妇女和不同族裔的人的准确性要低得多。这种偏见的另一个名称是选择偏差。

排除偏差:排除偏差在数据预处理阶段最常见。最常见的情况是删除被认为不重要的有价值的数据。此外,系统在排除某些信息时,也有可能会发生偏差。例如,假设我们有一个北京和深圳的客户销售数据集。98% 的客户来自北京,因此我们选择删除位置数据,认为该位置数据无关紧要。但是,这就意味着我们的模型不会发现深圳客户增加了两倍的事情。

测量偏差:当为训练收集的数据与现实世界中收集的数据不同时,或者当测量错误导致数据失真时,将发生此类偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的摄像机采集的,而生产数据是用另一种摄像机采集的。在项目的数据标记阶段,由于注释不一致,也可能出现测量偏差。

召回偏差:这也是一种测量偏差,在项目的数据标记阶段很常见。当我们对相同类型的数据进行不一致标记时,就会出现召回偏差,导致精度降低。例如,假设我们的团队将手机图像标记为损坏、部分损坏或未损坏。如果有人将图像标为已损坏,但将类似的图像标为部分损坏,那么我们的数据就会不一致。

观察者偏见:也称为确认偏差,观察者偏差是指在数据中看到自己希望看到的结果。当研究人员带着对研究的主观想法(无论是有意识的还是无意识的)进入项目时,就可能发生这种情况。当贴标签的人让他们的主观想法控制其标签的习惯,就会导致数据不准确。

种族偏见:虽然不是传统意义上的数据偏见,但由于它最近在人工智能技术中的流行,该偏差还是值得一提的。当数据偏向于特定人口统计学时,就产生种族偏见。从面部识别和自动语音识别技术中看出,这种技术无法像白种人那样准确地识别其他有色人种。

关联偏差:当机器学习模型的数据强化和/或让文化偏差成倍增加时,将发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。然而,就机器学习模型而言,女医生和男护士并不存在。关联偏见最出名的是制造性别偏见,这一点在挖掘人工智能研究中可见一斑。

 

如何避免机器学习项目中的数据偏差?

在机器学习项目中防止数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时存在偏差,但我们可以采取许多步骤来帮助防止偏差或及早发现偏差。下面的内容就是机器学习项目出现数据偏差时的一些常规手段:

总结

了解任何数据项目的机器学习中的潜在偏差是非常重要的。通过尽早建立正确的系统并控制数据收集、标记和实现,我们可以在问题出现之前或在它出现之时做出反应,从而减少我们的成本,提高模型的准确率。

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯