文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

浅析半监督学习及其应用场景

2024-11-30 05:15

关注

Labs 导读

随着互联网的发展,企业可以获得越来越多的数据,这些数据可以用于帮助企业更好的了解用户,即客户画像,也可以用来改善用户的体验。但这些数据中可能存在大量没有标记的数据。如果所有数据均采用人工标记的方式则存在两方面的缺点,一是花费的时间成本较高,人工标记效率低,数据量越大需要雇佣的人越多,时间也会越长,成本越高,二是随着用户规模的增大,人工标记的速度很难赶上数据的增长。

Part 01、  什么是半监督学习  

半监督学习是指使用既有有标签的数据又有无标签的数据训练模型。半监督学习通常会基于有标签的数据构建属性空间,再从无标签的数据中提取有效信息填充(或重构)属性空间。因此,通常半监督学习的初始训练集会划分为有标签的数据集D1和无标签数据集D2,然后通过预处理、特征提取等基本步骤后训练半监督学习模型,然后将训练好的模型用于生产环境,为用户提供服务。

Part 02、半监督学习的假设 

为了实现标签数据有效补充有标签数据中的“有用”信息,对数据分部等方面做出一些假设。半监督学习的基础假设是p(x)中包含p(y|x)的信息,即无标签的数据应该包含对于标签预测有用的且与有标签的数据不相同的或者很难从有标签的数据中提取出来的信息。此外,还存在一些服务于算法的假设。例如,相似性假设(平滑假设)是指在数据样本构建的属性空间中,相近或相似的样本具有相同的标签;低密度分离假设是指在数据样本少的地方存在一个决策边界能区分不同标签的数据。

以上假设主要目的是为了表明有标签的数据与无标签的数据来源于相同的数据分布。

Part 03、  半监督学习算法分类 

半监督学习算法众多,可大致分为直推式学习(transductive learning) 归纳式学习(Inductive model),二者区别在于用于模型评估的测试数据集的选择。直推式的半监督学习是指需要预测标签的数据集就是用于训练的无标签数据集,学习的目的是为了进一步提高预测结果的准确性。归纳式学习则是为完全未知的数据集预测标签。

此外,常见的半监督学习算法的步骤为:第一步会在有标签的数据上训练模型,然后用这个模型给无标签的数据打上伪标签,然后将伪标签和有标签的数据组合成新的训练集,在这个训练集上训练一个新的模型,最后用这个模型给预测数据集打上标签。

Part 04、  总结 

半监督学习的最大的问题是在很多情况下,模型的性能依赖于有标签的数据集,并且对于有标签数据集的质量要求较高,甚至半监督学习模型预测准确度与基于有标签数据集的有监督模型的结果相差不大,反而半监督模型为了有效提取无标签数据中的有效信息,会消耗更多的资源。因此,半监督学习的发展方向是提高算法的鲁棒性以及数据提取的有效性。

目前半监督学习领域中比较热门的是PU-Learning(positive-unlabeled learning),这类算法的主要应用场景是只有正和无标签数据的数据集。其优点是在一些场景下,我们容易获得比较可靠的正标签数据集,并且数据量相对较大。例如,垃圾邮件检测中很容易获得正常邮件。

来源:移动Labs内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯