文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

掘力计划第21期 - 大模型的崛起:解析大语言模型的训练和应用

2024-11-30 09:37

关注

CodeGeeX:代码生成模型到编程助手的进化

首先,智谱AI的薛宇飞博士做了题为《CodeGeeX:从代码生成模型到AI编程助手》的技术分享。薛宇飞博士是智谱AI大模型事业部的副总裁,他拥有清华大学计算机系的博士学位和博士后经历,在人工智能领域有多年的研究和产品经验,曾任职于多家顶级科技公司。这次薛博士以自身团队在代码生成模型方面的研究为切入点,详细介绍了从训练一个大规模的通用代码生成模型,到落地产品化并开发 IDE 插件,最终使广大开发者能够享受到 AI 编程助手带来的便利。

薛博士分析了编程工作正在朝着更简单、更符合人的思维逻辑的方向发展的背景。他指出,AI 辅助的代码生成技术正在让自动编程成为可能。之后他详细介绍了 CodeGeeX 项目的模型训练过程,团队如何构建数据集,采用 GPT 结构训练出百亿参数的多语言模型,并在华为的支持下完成模型训练。训练完成后,对模型进行评测与优化,最终获得当时最优秀的开源多语言代码生成模型。在此基础上,团队开发出支持主流 IDE 的 CodeGeeX 插件,将模型应用于实际编程过程,为用户提供代码补全、注释生成等功能。插件已经累积十多万用户。最后,团队在今年推出了新版本模型 CodeGeeX2,效果显著提升,代表了代码生成模型发展的新方向。

Ray:构建 AI 系统的通用计算引擎

第二位分享嘉宾是蚂蚁集团 Ray 团队的宋顾杨,他的主题是《Ray: 大模型时代的AI计算基础设施》。宋顾杨讲师是 Ray 开源社区的核心贡献者之一,他首先概述了 Ray 框架的发展历程,从初期的强化学习框架逐步转型为面向 AI 的通用分布式计算框架。当前 Ray 通过任务调度、资源管理等功能,可以高效支持AI模型的训练与推理。许多知名企业如 OpenAI 都采用了 Ray。

宋顾杨讲师还重点介绍了 Ray 的一些核心设计,如跨语言的计算单元,自动故障恢复等。这使得 Ray 可以抽象出通用的分布式系统问题,减轻研发人员的工作量。Ray 已支持绝大多数AI框架,构建起完整的 AI pipeline。最后,宋顾杨讲师列举了一些 Ray 在大模型方面的应用案例,包括 GPT-4 在内的多种知名模型和公司,说明 Ray 正在成为大模型基础设施的重要选择。

轻量级 LLM Agent:大模型应用的新方向

第三位分享嘉宾是 CNCF WasmEdge 项目的 Michael Yuan 博士,他的主题是《轻量级运行时在构建 LLM Agent 中的作用》。Yuan 博士指出 LLM Agent 是连接 LLM 模型与外界的关键组件,目前主流的 Python Agent 在多方面存在局限。他建议可以使用轻量级运行时如 WebAssembly 来构建 LLM Agent。WebAssembly 使用系统级编程语言如 Rust 开发,可以生成更轻量和性能更好的程序。

Yuan 博士还分析了如何设计模块化、简单的 Agent 架构,避免过于复杂的功能。总体而言,轻量级 LLM Agent 可以降低应用 LLM 的门槛,使更多组织从中受益。Yuan 博士的观点为构建生产可用的 LLM 提供了新的思路。

有道子曰:专注教育场景的自研大模型

网易有道技术总监林辉进行了题为《有道子曰大模型及其在教育领域的应用》的分享,林辉讲师十余年来深耕算法研发,在智慧教育领域具有丰富的实践经验。他从大模型发展的历史切入,指出大模型的智能顶点决定了其发展的决定性因素。相较于10年前线性模型的有限效果,近年来卷积神经网络、Transformer 模型的出现使大模型智能能力指数级增长,应用范围也不断扩展。林辉讲师进一步解析了有道在大模型战略方向的考量,即追求实际教育场景驱动,以技术创新助力教育创新。

林辉讲师指出,与其他通用模型不同,有道子曰大模型专注于教育场景,以提高精准度。目前已在口语教练、作文与阅读教练等多个方向落地,为用户提供个性化的学习体验。具体来说,口语教练具有精准的发音和逼真的对话能力;作文教练可以评价语言表达、逻辑结构等多个维度,给出针对性建议。在部署上,有道智云提供开放的API接口,已累积服务上百万用户。

本次掘力计划第21期汇聚多位业内大模型专家,从模型训练、基础设施、应用落地等多个角度进行了技术分享,使与会开发者对大模型的发展现状及应用场景有了更为全面的了解。大模型正在快速发展变化,相信未来其应用范围还将不断扩大,为更多行业带来革命性的影响。掘力计划也将继续关注大模型等前沿技术,致力于推动技术交流。

关于掘力计划

掘力计划由稀土掘金技术社区发起,致力于打造一个高品质的技术分享和交流的系列品牌。聚集国内外顶尖的技术专家、开发者和实践者,通过线下沙龙、闭门会、公开课等多种形式分享最前沿的技术动态。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯