文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

AI数据周期:适合大规模AI工作负载的最佳存储组合

2024-11-29 18:25

关注

审校 | 重楼

虽然AI彻底改变人们的生活,并激发各种全新的应用,但根本上说,核心是数据使用和数据生成。

随着AI行业扩建庞大新颖的基础设施来训练AI模型并提供AI服务推理,数据存储方面带来了重要影响。首先,存储技术在这种新基础设施各个阶段的成本和能效方面发挥着重要作用。当AI系统处理和分析现有数据时,生成新数据,其中大部分数据将因有用而被存储起来。新的AI用例和更复杂的模型使现有的存储库和额外的数据源对模型上下文和训练更有价值,从而带动这种循环:生成的数据增加推动了数据存储扩展,从而推动了进一步的数据生成,这是良性的AI数据循环。

对于企业数据中心规划者来说,了解AI和数据存储之间的动态关系很重要。AI数据周期概述了六个阶段中每个阶段大规模AI工作负载的存储优先事项。存储部件制造商正在调整产品路线图,认识到这些加速的AI推动的需求:尽量提升性能、最迟降低总体拥有成本(CTO)

不妨快速浏览一下AI数据周期的各个阶段

原始数据存档内容存储

从各种来源安全效地收集和存储原始数据。收集数据的质量和多样性至关重要,为随后的一切奠定了基础。

存储需求大容量企业硬盘驱动器(eHDD)仍然是低成本批量数据存储的首选技术,继续提供最高的每个驱动器容量和最低的每比特成本。

数据准备摄取

数据被处理、清理和转换,作为模型训练的输入。数据中心所有者正在实施经过升级的存储基础设施(比如快速数据湖,以支持数据准备和摄取。

存储需求整合容量企业固态硬盘(eSSD)的全闪存存储系统正在被部署,以增强基于HDD现有存储库,或者部署在新的全闪存存储层中。

AI模型训练

正是在这个阶段,AI模型被迭代训练,基于训练数据做出准确的预测。具体来说,模型在高性能超级计算机上进行训练,训练效率很大程度上依赖GPU利用率的最大化。

存储需求训练服务器附近的高带宽闪存存储对于确保利用率最大非常重要。高性能PCIe®Gen. 5针对低延迟计算优化的eSSD旨在满足这些严格要求。

推理提示

这个阶段为AI模型创建用户友好的界面,包括API、仪表板以及将上下文特定的数据与最终用户提示相结合的工具。AI模型集成到现有的互联网和客户端应用程序中,在不取代现有系统的情况下增强它们。这意味着维护当前的系统以及新的AI计算,推动进一步的存储需求。

存储需求当前的存储系统将升级,以便额外的数据中心eHDDeSSD容量适应AI集成到现有流程中。同样,若要利用AI增强现有的应用系统,将需要用于PC和笔记本电脑的更大容量、更高性能的客户端SSD(cSSD)以及用于移动电话、物联网系统和汽车的更大容量嵌入式闪存设备。

AI推理引擎

第五阶段是奇迹实时发生的地方。这个阶段包括将训练好的模型部署到生产环境中,模型可以分析新数据并提供实时预测或生成新内容。推理引擎的效率对于及时准确的AI响应至关重要。

存储需求用于将上下文或模型数据流式传输到推理服务器的大容量eSSD;视规模或响应时间目标而定,可以部署高性能计算eSSD用于缓存支持AI的边缘设备中的高容量cSSD和更大的嵌入式闪存模块。

新内容生成

最后一个阶段是创建新内容。AI模型获得的见解常常生成新的数据,这些数据被存储起来,因为它们被证明有价值或引人入胜。在这个阶段闭合循环的同时,也反馈到数据周期中,通过增加训练数据的价值或供未来模型分析,推动持续改进和创新。

存储需求生成的内容将返回到用于归档数据中心存储的大容量企业eHDD中,以及支持AI的边缘设备中的高容量cSSD和嵌入式闪存设备中。

数据生成增加的自我延续循环

这种数据生成和消费的持续循环正在加速对性能驱动可扩展的存储技术的需求,以管理大型AI数据集并有效地重构复杂数据,从而推动进一步的创新。

IDC研究总监Ed Burns特别指出:“随着存储的作用和数据访问影响AI模型的速度、效率和准确性,尤其是在更庞大、更高质量的数据集变得普遍的情况下,预计存储会带来重大的影响。

毫无疑问,AI是下一种变革性技术。随着AI技术融入到几乎所有行业领域,预计存储部件供应商将日益根据周期中每个阶段的需求定制产品。

原文The AI Data Cycle: Understanding the Optimal Storage Mix for AI Workloads at Scale,作者:Dan Steere

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯