文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何构建数据底座 助力生成式AI

2024-11-29 17:57

关注

传统上,存储被视为数据的仓库,但在AI大模型的背景下,存储系统已转变为数据处理和分析的积极参与者。存储设备不仅要提供足够的空间来容纳快速增长的数据量,还要具备高效的数据管理能力,以确保数据可以被迅速地访问、处理和利用。特别是在数据预处理、模型训练和实时应用等关键环节,存储性能直接影响到AI模型的训练速度和最终的业务效果。

长久以来,AI领域的焦点集中在算法模型的开发与训练上,企业投入大量资源构建复杂模型以提升预测准确率和任务执行能力。然而,随着模型的不断成熟和应用场景的多样化,如何高效地将这些模型应用于实际业务场景,即AI推理,成为了新的关注点。推理阶段涉及到模型在实时环境中处理数据、做出决策的过程,它直接影响到用户体验和业务效率。

存储性能差异:

存储容量与成本差异:

数据访问模式差异:

AI应用程序在处理大规模数据集和复杂模型训练时,往往展现出独特的IO模型,特别是当提到"数百万个小IO读写操作"时,AI工作负载,尤其是在深度学习训练阶段,经常涉及对大量小块数据的频繁读取和写入操作。

小IO请求相比大块连续读写更容易造成存储设备的随机访问压力,降低IOPS和吞吐量。AI训练对数据访问延迟非常敏感,频繁的小I/O可能会累积延迟,影响训练效率和模型收敛速度。大量并发的小I/O请求可能导致存储资源过度碎片化,影响存储空间的有效利用率。

为了优化训练效率,实践中可能采取以下策略:

根据相关预测,到2028年,四分之三拥有生成式 AI 训练数据的组织将部署单一存储平台来存储数据,这一比例高于 2024 年的 10%。大多数企业将不必为生成式AI构建新的存储基础设施,因为他们将微调现有的大型语言模型(LLMs),而不是训练新模型。

大规模生成式AI部署将需要独特的存储性能和数据管理功能,用于生成式AI工作流程的数据摄取、训练、推理和归档阶段。将数据直接引入现成的LLM或部署生成式AI时,获取“GenAI in a box”融合存储解决方案。

在使用少量数据进行训练或采用预训练模型时,使用现有的企业存储平台:存储区域网络 (SAN)、网络附加存储 (NAS)、对象存储或超融合基础设施 (HCI)。如果要运行大规模生成式AI应用程序,需要构建一个端到端存储基础设施平台,该平台可以支持生成式AI工作流程的所有应用阶段:数据摄取、训练和微调、推理和归档。它应该能够灵活地管理来自多个来源的数据,包括数据中心、边缘和公有云。

在大多数情况下,组织在架构生成式AI基础设施时,服务器可能需要进行重大更新,从基于 CPU 迁移到基于 GPU,以满足对计算能力的极端需求,特别是在语言模型具有许多参数的情况下。然而,虽然存储是生成式AI堆栈中的关键层,完成模型训练时很容易成为瓶颈,但存储经常被组织所忽视。如果选型不当,存储可能会减慢 GPU 的整体数据传输以及模型检查点和恢复过程,从而造成GPU速度的降低和关键计算资源的浪费。

没有一种存储部署类型适合所有企业,也没有一个单一的功能列表可以指出生成式AI 应用程序的最佳存储类型。如果选择错误的存储部署类型或忽略生成式AI所需的关键功能,那么可能会带来一个高昂的代价。

生成式AI使用的存储需要三组独特的功能:

大多数组织将采用现有的人工智能模型,或根据其现有业务数据重新训练现有模型,并可选择根据其业务需求添加特定的外部数据。对于在少量数据上使用现有 LLMs 的企业来说,一体化、全栈、生成式AI一体式融合存储解决方案很可能是最佳选择。

当主要使用现有数据进行微调时,有两种部署存储的方法:投资专用的生成式AI盒装解决方案。这些通常是超融合解决方案,由适当大小的存储、计算和网络以及预训练的 LLM(类似于 Nutanix 的 GPT-in-a-Box)组成。使用现有的存储基础设施,无论数据是存储在文件、对象或块存储、外部或直连存储还是超融合存储中。对于这种方法,如果组织拥有一个数据管理软件层,可以提供跨不同存储孤岛、本地、边缘和/或公共云中的数据访问,则会有所帮助。

大规模生成式AI部署需要先进的模型训练和推理能力以及全面的数据管理能力。一些 GenAI 工作负载以 PB 级数据量而闻名,这些数据量对于 GenAI 工作流程的各个阶段有不同的性能和操作要求。对于这些工作负载,通常使用数据湖或分布式存储系统(例如 Hadoop 或 Spark)来存储训练数据和中间输出。在训练、微调和推理方面,专门的 GPU 优化的高吞吐量基础设施堆栈至关重要。对于整个流程,具体实践者应该:

存储在此堆栈中发挥着重要作用,存储解决方案的选择取决于人工智能模型的大小。对于较小的型号,本地连接的磁盘存储可能就足够了。但较大的模型通常需要基于对象存储或并行文件系统的共享存储。对于大规模 GenAI 系统,可扩展、高容量和低延迟存储组件的集成对于处理非结构化数据操作时的最佳性能至关重要。

大规模 GenAI 部署将通过增加数据量、需要支持不同的数据类型以及需要高效的数据版本控制和生命周期管理来影响非结构化数据存储领域。网络和存储基础设施必须适应高吞吐量,同时将数据丢失降至最低。它还必须是可组合的,从而支持 GenAI 工作负载不断变化的需求。此外,GenAI 数据平台必须在 GenAI 工作负载的不同阶段之间实现混合数据管理,以实现数据管道的自动化。最后,GenAI数据平台必须支持高于平常的数据安全标准,以保护敏感数据。

传统的存储基础设施方法不适用于 GenAI 工作负载,因为其工作流程具有异构性。不仅应该关注用于训练 GenAI 模型的高性能存储,还应该构建端到端工作流程策略,包括跨边缘、公共云和本地存储解决方案提供数据管理功能的能力。上表概述了如何评估存储平台以满足大规模实施的要求。

目前,GenAI 的早期采用者正在与超大规模公共云提供商合作,因为这些提供商可以快速容纳任何规模的试点。为大规模 GenAI 部署构建基础设施,应该:

总而言之,AI市场正经历着快速的增长,这一增长动力来源于技术的进步、数据可用性的增加以及对自动化和智能决策的需求。各行各业的企业开始认识到AI在提升效率、改善客户体验以及获取竞争优势方面的价值。AI市场涵盖了广泛的产品和服务,包括AI软件平台、支持AI的硬件以及AI服务。随着算法的不断优化,尤其是深度学习和机器学习领域的突破,AI技术得以迅速发展,能够处理更复杂的问题。同时,互联网、物联网(IoT)设备和社交媒体等产生的海量数据为AI模型提供了丰富的学习素材,促进了AI解决方案的优化和创新,选择合理的数据存储方案,进一步加速AI落地。

来源:数字化助推器内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯