文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

强化学习的10个现实应用

2024-12-03 17:29

关注

在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。

本文我们将会聚焦于强化学习在现实生活中的实际应用。

无人驾驶中的应用

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。

有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。

比如,自动停车策略能够完成自动停车。变道能够使用q-learning来实现,超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。

AWS DeepRacer是一款设计用来测试强化学习算法在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道,并且可以使用强化学习模型来控制油门和方向。

Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。

强化学习在工业自动化中的应用

在工业自动化中,基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高,还可以执行危险任务。

Deepmind使用AI智能体来冷却Google数据中心是一个成功的应用案例。通过这种方式,节省了40%的能源支出。现在,这些数据中心完全由人工智能系统控制,除了很少数据中心的专家,几乎不再需要其他人工干预。该系统的工作方式如下:

当然,具体的措施还是由本地控制系统操作完成。

强化学习在金融贸易中的应用

有监督的时间序列模型可用来预测未来的销售额,还可以预测股票价格。然而,这些模型并不能决定在特定股价下应采取何种行动,强化学习(RL)正是为此问题而生。通过市场基准标准对RL模型进行评估,确保RL智能体正确做出持有、购买或是出售的决定,以保证最佳收益。

通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。

强化学习在自然语言处理NLP中的应用

RL可用于文本摘要、问答和机器翻译等NLP任务。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在论文中提出了一种基于RL的长文本问答方法。具体而言,首先从文档中选出几个与问题相关的句子,然后结合所选句子和问句通过RNN生成答案。

该论文结合监督学习与强化学习生成抽象文本摘要。论文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解决基于注意力的RNN编解码模型在摘要生成中面临的问题。论文提出了一种新的内注意力神经网络,通过该注意力可以关注输入并连续生成输出,监督学习和强化学习被用于模型训练。

至于机器翻译,科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型,该模型能够学习预测单词是否可信,并通过RL来决定是否需要输入更多信息来帮助翻译。

斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL,可用于对话生成任务。Deep-RL使用两个虚拟智能体模拟对话,并学习多轮对话中的未来奖励的建模,同时,应用策略梯度方法使高质量对话获得更高奖励,如连贯性、信息丰富度和简洁性等。

强化学习在医疗保健中的应用

医疗保健领域,RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。

基于RL的医疗保健动态治疗方案(DTRs)包括慢性病或重症监护、自动化医疗诊断及其他一些领域。

DTRs的输入是一组对患者的临床观察和评估数据,输出则是每个阶段的治疗方案。通过RL,DTRs能够确定患者在特定时间的最佳治疗方案,实现时间依赖性决策。

在医疗保健中,RL方法还可用于根据治疗的延迟效应改善长期结果。

对于慢性病,RL方法还可用于发现和生成最佳DTRs。

通过本文,您可以深入研究RL在医疗保健中的应用。

强化学习在工程中的应用

在工程领域,Facebook提出了开源强化学习平台 —— Horizon,该平台利用强化学习来优化大规模生产系统。在Facebook内部,Horizon被用于:

Horizon主要流程包括:

一个典型例子是,强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。

Horizon还能够处理以下问题:

强化学习在新闻推荐中的应用

在新闻推荐领域,用户的喜好不是一成不变的,仅仅基于评论和(历史)喜好向用户推荐新闻无法一劳永逸。基于强化学习的系统则可以动态跟踪读者反馈并更新推荐。

构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中,新闻特征包括但不限于内容、和发布者;读者特征是指读者与内容的交互方式,如点击和共享;上下文特征包括新闻的时间和新鲜度等。然后根据用户行为定义奖励函数,训练RL模型。

强化学习在游戏中的应用

RL在游戏领域中的应用备受关注,且极为成功,最典型的便是前些年人尽皆知的AlphaGoZero。通过强化学习,AlphaGoZero能够从头学习围棋游戏,并自我学习。经过40天的训练,AlphaGoZero的表现超过了世界排名第一的柯洁。该模型仅包含一个神经网络,且只将黑白棋子作为输入特征。由于网络单一,一个简单的树搜索算法被用来评估位置移动和样本移动,而无需任何蒙特卡罗展开。

实时竞价——强化学习在广告营销中的应用

该论文提出了一种基于多智能体强化学习的实时竞价策略。对大量广告商进行聚类,然后为每个聚类分配一个策略投标智能体实现竞标。同时,为了平衡广告主之间的竞争与合作,论文还提出了分布式协同多智能体竞价(DCMAB)。

在市场营销中,选择正确的目标全体才可带来高回报,因此个人精准定位至关重要的。论文以中国最大的电子商务平台淘宝网为研究对象,表明上述多智能体强化学习优于现有的单智能体强化学习方法。

强化学习在机器人控制中的应用

通过深度学习和强化学习方法训练机器人,可以使其能够抓取各种物体,甚至是训练中未出现过的物体。因此,可将其用于装配线上产品的制造。

上述想法是通过结合大规模分布式优化和QT-Opt(一种深度Q-Learning变体)实现的。其中,QT-Opt支持连续动作空间操作,这使其可以很好处理机器人问题。在实践中,先离线训练模型,然后在真实的机器人上进行部署和微调。

针对抓取任务,谷歌AI用了4个月时间,使用7个机器人运行了800机器人时。

实验表明,在700次实验中,QT-Opt方法有96%的概率成功抓取陌生的物体,而之前的方法仅有78%的成功率。

总结

强化学习是一个非常有趣且值得广泛研究的领域,RL技术的进步及其在现实各领域的应用势必将取得更大的成功。

在本文中,我们粗略介绍了强化学习的不同领域应用。希望这能激发起你的好奇心,并引起你对RL的热爱和研究。如果想了解更多,推荐查看这两个项目:https://github.com/aikorea/awesome-rl,https://github.com/dennybritz/reinforcement-learning。

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

来源:雷锋网内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯