存储作为AI大模型训练的重要基础设施,贯穿大模型全流程,存储的能力和性能,直接影响大模型训练周期,影响整体成本付出。
一、问题背景
目前,受多个因素影响,大模型训练一次耗时很长,少则几天,多则数周,这取决于训练规模,比如Llama2大模型有70B规模,这里的70B指的是参数数量,70B也就是700亿,预训练数据集达到了4.5TB,所以,大模型训练是耗硬件大户,什么GPU算力、内存容量和速率、网络带宽,存储IO和吞吐量,每个环节都影响训练的时长,也就是训练成本。
二. 大模型训练过程
大模型训练一般分为如下四个步骤,采集、调试、训练和推理,每个阶段对于存储需求是不同的,采集和调试属于准备阶段,训练也就是模型训练环节,推理也就是大模型的应用
①数据采集和清洗 => ②开发调试 => ③模型训练 => ④模型推理
三. 大模型各个阶段的挑战和存储需求
[table id=1 /]
毕辞数据:毕辞数据,引领智能化,助力万物智联! – 极客时间合作伙伴,专注人工智能、数据治理、文件系统 (bitsobject.com)
存储的作用:8 Key Data Storage Requirements for AI You Need to Know (solutionsreview.com)
架构师的视角:The Architect’s Guide to Storage for AI – The New Stack