文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

强化学习在应用中寻找策略“最优解”

2024-12-03 06:58

关注

[[392924]]

 

假定我们使用AI技术运营一家制造工厂。AI提供的模式识别功能可用于质量保证,包括通过扫描图像及最终产品以检测设计乃至制造层面的缺陷。另一方面,强化学习系统则可以对制造流程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品类型等)进行计算与执行,不断结合反馈信息发现现有策略中的改进空间,在保证一定产品质量水平的同时最大程度提升特定指标(例如产量)。以往,这类问题由于涉及大量影响因素而难以被常规AI系统所解决,但强化学习的出现无疑带来了希望的曙光。

在使用强化学习计算最佳策略或政策时,相关算法面临的主要挑战在于“时间信用分配”问题。具体来讲,在特定系统状态之下(例如「机器的当前输出水平,每条流水线的繁忙程度」等),行为(例如「星期三运行1号生产线」)对整体效能(例如「总产量」)产生的影响往往需要一段时间后才能确定。更让人头痛的是,总体效能还会受到具体操作方式的左右。总而言之,我们在预先制定策略与评估效果时,往往很难判断哪些是好选择、哪些是坏想法。在这类复杂问题中,大量潜在的系统状态还会引发恐怖的“维度诅咒”,进一步加剧结果的不确定性。但好消息是,强化学习近年来在实验室中的出色表现为解决这类难题带来了值得期待的希望。

之前,强化学习的卓越性能主要表现在棋类游戏与电子游戏领域。单凭对屏幕上图像及游戏得分这两项输入信息,强化学习系统就很快在各类雅达利游戏中横扫人类玩家,给整个AI社区留下了深刻印象。而这套出色的系统,是由伦敦AI研究实验室DeepMind于2013年所一手创造。后来,DeepMind又从AlphaGo代理起步构建起一系列强化学习系统(也称代理),能够在围棋对抗中轻松击败世界顶尖玩家。凭借着2015年至2017年之间的这一系列壮举,强化学习之名席卷全球。而在围棋这一拥有无数拥趸、且向来以高复杂度与中远期战略思考著称的脑力运动中拔得头筹,也让人们对于强化学习的未来应用充满好奇。

在此之后,DeepMind以与AI研究实验室OpenAI发布了面向《星际争霸》与《DOTA 2》游戏的系统,其同样与全球顶尖人类玩家打得有来有往。看起来,强化学习在这类要求严谨战略思考、资源管理与游戏内多单位操控/协调的场景下仍然拥有不俗的表现。

通过让强化学习算法完成数百万盘游戏,系统一步步摸索出哪些策略真实有效,而哪些策略更适用于针对不同类型的对手及玩家。以强大的算力为基础,强化学习算法往往会采用多种思路,并一一尝试不同策略的具体效果。该系统会尝试策略空间穷举、自我对抗、多策略联动以及学习人类玩家策略等多种方式,快速在策略空间探索与沿用现有良好策略之间取得平衡点。简单来讲,大量的试验使得系统得以探索出多种不同游戏状态,而复杂的评估方法则让AI系统摸索出在合理的游戏形势下、哪些策略或操作能够实现良好的中长期收益。

但在现实世界中使用这些算法的主要障碍,在于我们不太可能逐一完成这数百万次试验。好消息是,有新的解决方案能够解决这个难题:首先为应用场景创建起计算机模拟环境(制造工厂或市场模拟环境等),而后使用强化学习算法从中整理出最佳策略,最后再将总结出的最佳策略纳入实际场景、通过进一步调参反映现实世界。OpenAI就曾在2019年进行过一轮引人注目的演示,通过训练机器人手臂单手解开魔方来证明这种模拟训练方法的有效性。

但要让这种方法切实起效,模拟环境必须能够准确表达潜在问题。从某种意义上说,待解决的问题在模拟环境中就已经得到某种形式的“解决”,不可有任何影响系统性能的外部因素。例如,如果模拟的机器人手臂与真实机器人手臂相差太大,那么实际操作时手臂就没办法拿稳小小的魔方。在这种情况下,就算模型本身得到了正确训练、也拥有了良好的抗干扰能力,仍然不可能达到预期目标。

这种种限制给强化学习的实际应用带来了巨大的挑战,甚至有可能带来令人不快的意外。在早期制造工厂示例中,如果将其中某台设备替换为速度更快或更慢的机器,则可能改变厂内的整体生产动态,导致我们不得不重新训练强化学习模型。虽然同样的情况也会影响到一切强化控制系统,但人们对于强化学习方案的期望明显更高,所以必须想办法消除这些不符合预期的问题。

无论如何,强化学习在现实场景中的应用确实展现了光明的未来,也已经有众多初创企业在尝试使用强化学习技术控制制造机器人(Covariant、Osaro、Luffy)、管理生产规划(Instadeep)、企业决策(Secondmind)、物流(Dorabot)、电路设计(Instadeep)、控制自动驾驶汽车(Wayve、Waymo、Five AI)、控制无人机(Amazon)、运营对冲基金(Piit.ai)乃至更多模式识别型AI系统无法轻松应对的现实场景。

另外,各大高科技企业也已经在强化学习研究方面投入大量资金。谷歌就在2015年以4亿英镑(约合5.25亿美元)收购了DeepMind。但为了保持竞争优势,双方均未公布更多交易细节。

也许当前的强化学习应用还显得有些笨拙且步履蹒跚,但在强大算力与雄厚财力的双重加持之下,其很可能在不久的将来成为市场上不容忽视的核心技术成果。

 

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯