據(jù)湖_PC 通用.DndxqKgf.jpg)
據(jù)湖_移動端.DBk7hjff.jpg)



建以對象存儲為基座的 AI 數(shù)據(jù)湖_01.aaki-5Xn.png)
建以對象存儲為基座的 AI 數(shù)據(jù)湖_02.TpUMXylw.png)
建以對象存儲為基座的 AI 數(shù)據(jù)湖_01.aaki-5Xn.png)
建以對象存儲為基座的 AI 數(shù)據(jù)湖_02.TpUMXylw.png)












































挑戰(zhàn)
在進(jìn)行萬億參數(shù)模型訓(xùn)練時,頻繁的 Checkpoint 寫入耗時過長(超過 30 分鐘),導(dǎo)致訓(xùn)練中斷恢復(fù)成本高昂,且海量訓(xùn)練語料(數(shù)億小文件)的讀取效率低下,GPU 平均利用率不足 50%。
收益
采用本方案后,Checkpoint 寫入時間縮短至 3 分鐘內(nèi),GPU 平均利用率提升至 90%以上,整體模型訓(xùn)練周期縮短了 40%。

挑戰(zhàn)
國家級大模型實驗室,多個實驗組數(shù)據(jù)散落于不同 NFS,管理混亂。當(dāng)集群擴展至數(shù)百 GPU 時,傳統(tǒng) NFS 在處理海量小文件和 TB 級模型斷點時性能嚴(yán)重不足,導(dǎo)致 GPU 算力閑置。
收益
采用本方案后,所有科研數(shù)據(jù)統(tǒng)一到對象存儲數(shù)據(jù)湖。高性能 POSIX 接口將數(shù)據(jù)集加載速度提升 10 倍,TB 級斷點保存從"小時級"縮至"分鐘級",極大加速了大模型的研發(fā)迭代進(jìn)程。

挑戰(zhàn)
作為公共算力服務(wù)平臺,需要同時為眾多不同類型的租戶提供服務(wù),租戶應(yīng)用和數(shù)據(jù)類型多樣,對存儲的性能、成本和安全性要求各不相同。
收益
部署本方案后,以統(tǒng)一的對象存儲作為后端,通過邏輯隔離和緩存策略,為不同租戶提供了兼具高性能和經(jīng)濟性的"按需分配"的數(shù)據(jù)存儲服務(wù)。簡化了運維管理,提升了平臺的整體服務(wù)能力和商業(yè)競爭力。