文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大格局!第四范式要在一年内开源95%核心技术

2024-12-03 03:03

关注

自动机器学习 AutoML 技术,可以把特征提取、模型选择、参数调节等机器学习的复杂过程实现自动化。这种能够大幅降低 AI 应用门槛的工具,是目前人工智能业界炙手可热的方向。

第四范式成立之初就开始投入力量研究 AutoML 技术,现在又把自动化 AI 的能力拓展到 AI 应用的大多数环节。

在 6 月 23 日的年度发布会上,第四范式的 AI 操作系统 AIOS 升级到了 2.0 版。更引人关注的是,这家公司还计划在一年内将 95% 核心技术开源出来。

「我们把最核心的数据和算力技术开源给技术社区,它们是开发者最需要的东西。」第四范式联合创始人、首席研究科学家陈雨强说道。

[[407195]]

第四范式技术副总裁郑曌等人在发布会上宣布了 AIOS 核心技术的开源。

从零开始,构建 AI 数据引擎

首先是机器学习数据库 OpenMLDB。在 AI 时代,机器学习模型不断高频次演进,这意味着数据供给的重要性不断提升。但即使是在大型科技公司里,我们仍然能看到 SQL 数据处理 10 小时,上线排查 6 个月这样的情况。 

「机器学习技术实现理性和瞬时高效的推理判断,但不论事务型数据库、分析型数据库还是传统数仓,在执行这类机器学习任务时都无法保障正确的数据供给,」在发布会当日的技术分论坛上,第四范式资深架构师王太泽说道,「由于不是面向机器学习的设计,传统的数据库无法完全覆盖从离线、在线到数据反馈的全流程,对于机器学习应用来说效率较低。」

第四范式帮助超过 120 个场景完成了数据的开发和矫正,这让他们的工程师总结出供给正确数据的解法。

与Hadoop、Oracle、MySQL 等目前流行的数据库相比,第四范式提出的OpenMLDB,定位是为AI 而生的机器学习数据库,而这也是目前行业内的空白。

OpenMLDB 解决了 3 个机器学习的核心数据问题:

首先是离线在线不一致,OpenMLDB 通过统一的数据存储引擎避免了跨数据库的信息交换。另一方面,通过统一的数据计算引擎,这套系统使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致。

其次是时序正确性:在超过一半的场景中,由于传统的数据库系统无区别对待历史经验和未知信息,数据科学家在数据开发过程中产生了时序泄露,在进行规律总结的时候使用到了不该使用、来自于未来的「穿越数据」。OpenMLDB 通过使用自动时序拼接语法和时序泄露检测模块,避免了错误的数据使用。 

最后是闭环完整性,机器学习需要将线索演算以及业务推理判断正确与否的反馈沉淀成经验和知识,这需要数据库系统能够具备 将线索推演,以及判断的反馈,进行正确关联的能力。OpenMLDB 通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。 

在从传统数据库系统切换到 OpenMLDB 后,开发过程的数据正确性得到了保障。除了性能强大,OpenMLDB 在使用上也很方便,它支持标准 JDBC、Restfull 和 SQL 接口。

「MLDB 是我们的核心能力。在机器学习数据库上,我们的技术是非常领先的,」陈雨强表示。在一些 AI 决策任务中,使用 OpenMLDB 的开发效率可以提升多达 8 倍,相比传统数据库进行线上实时特征计算时,使用 OpenMLDB 能够 3 到 10 倍的性能提升。

为 AI 而生的操作系统

在平台侧,第四范式推出了为 AI 而生的的操作系统内核——OpenAIOS。

AI 的应用深入来看要经历十几个步骤,不同的技术组件支撑了不同的步骤,而每一个步骤对资源的需求又有着较大的不同。第四范式将这些环节的能力面向计算、存储、通信三个方面进行了进一步的抽象和沉淀。

这是一套分布式的 AI 操作系统,它拥有较为完整的开发体验:支持 Visual Studio、Jupyter Notebook 等编译器,内置核心应用和商店,同时支持第三方应用,又使用了原生的 Kubernetes 环境,拥抱所有云原生应用。

所有这些都是为了解决智能化过程中面临的异构计算挑战。如今的计算设备内除了 CPU、GPU,还有很多不同的 AI 加速芯片。这些算力架构各不相同,在互相联络时还因为空间的距离存在一定延迟。

为了实现有效的算力,第四范式研究人员实现了异构 Kernel 深度优化、计算协同处理、资源调度等能力,优化了数据存储,又自研了异构硬件专用的通信协议。

多设备的情况下,OpenAIOS 可以高效率调动 GPU 算力,提升模型训练时的速度。在 GPU 虚拟化的工作中,第四范式系统率先实现了应用零改造的显存扩容。

第四范式技术副总裁郑曌在发布会上宣布开源机器学习操作系统内核 OpenAIOS,以及面向实时智能决策的分布式机器学习数据库 OpenMLDB,面向开发者提供开箱即用的技术能力。

开源地址:

基于OpenAIOS内核,『AIOS社区版』也已经正式上线,AIOS的核心技术都会以「社区版」的形式,免费向开源社区开放。

『AIOS社区版』:openaios.4paradigm.com

郑曌还宣布了 Knot「中国结」计划:在未来一年之内,公司将实现 95% 以上的核心技术开源开放,并为各家企业共计培养超过一万名 AI 应用开发工程师。

「我们相信 AI 决策是帮助企业转型的新范式,是能够带领企业走向质变的重要方法。第四范式希望能够帮助开发者做越来越多重要的工作」郑曌说道。

 

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯