shanghai security defense & alarm association 愛建網">
科大訊飛作為亞太地區赫赫有名的智能語音和人工智能企業,擁有語音及語言國家工程實驗室和認知智能全國重點實驗室。面對業界百模大戰,誰可以快速部署高性能大模型訓練平臺,快速訓練上線,誰就能先一步搶占市場有利位置。
為此科大訊飛與華為聯合打造存、算、網全棧國產化的AI大模型解決方案,共同建設國內首個支持萬億參數大模型訓練的萬卡算力平臺“飛星一號”。
華為AI數據湖解決方案,基于多套OceanStor專業存儲分級建設,依托智能數據分級與多集群故障隔離、高效數據治理的高性能存儲,為客戶提供TB級帶寬,端到端加速AI模型開發。
大模型建設中遇到了哪些問題?
星火認知大模型從海量數據和大規模知識中持續進化,實現了從提出、規劃到解決問題的全流程閉環。人工智能技術從感知理解世界的專用領域向生成創造世界的通用領域進行跨越式演進,這一過程產生了對數據存儲的新挑戰:
GPU利用率低:AI大模型訓練以多機多卡任務為主,故障頻率高,模型加載和斷點續訓CheckPoint讀寫時,對存儲系統IO和帶寬性能要求很高,千卡以上集群平均每天故障1次,斷點恢復時間高達15分鐘+,每次損失幾十萬。
集群分散不可靠:多家存儲“煙囪式”建設,總容量幾十PB,切分成幾十個PB級的分散小集群,極大地增加了管理復雜度,并采用軟硬分離的方式建設存儲集群,降低了存儲集群的可靠性同時也降低了帶寬能力。
數據治理困難:AI訓練集的文件數量有百億個,當前“煙囪式”存儲集群的建設模式,形成多個數據孤島,數據需要人工遷移,效率低。同時無全局數據可視能力,無法識別冷熱數據與高價值數據,數據難以治理。
綜上可以看到大模型廠商對存儲的核心訴求是:
1、 高性能的存儲底座,以便支撐多機多卡的AI集群極致的訓練時長和盡可能快的斷點續訓能力,降低錯誤回滾率。
2、 統一的AI存儲數據湖管理能力,高效可靠的數據治理能力。
優質存儲成為大模型時代的“黃金門票”
華為數據存儲與科大訊飛聯合打造中國首個萬卡算力平臺AI數據湖存儲底座,針對通用AI大模型訓練,科大訊飛采用算、存分離架構,計算側追求更加極致的算力釋放,存儲側部署多套華為OceanStor AI存儲,提供可靠高效的幾十PB可得容量。
AI數據湖方案架構圖
15min->1min,斷點續訓恢復速度提升15倍,日節省幾十萬¥
斷點續訓恢復速度提升15倍:集群最大提供TB級大帶寬,縮短CheckPoint讀寫耗時,斷點續訓恢復時長從15min縮短到1min,速度提升15倍。
集群管理,99.999%高可靠
存儲集群安全可靠:華為OceanStor AI存儲單集群多Storage Pool的方案,管理面合一,數據面分離,通過數據面隔離避免AI集群故障擴散;同時通過亞健康管理、大比例EC等進一步提升存儲可靠性,單集群可靠性達99.999%。
全生命周期管理TCO降低30%
數據治理成本低:統一數據湖管理,GFS全局文件系統,無損多協議互通,免除數據孤島,數據全局可視、可管,高效流動,跨域調度效率提升3倍,數據零拷貝,端到端加速AI模型開發;千億元數據秒級檢索,智能識別數據熱度,精準分級,實現存儲系統性能與容量均衡。
面向未來萬卡/十萬卡更大規模算力集群華為OceanStor AI存儲專為AI而生,與科大訊飛聯合打造中國首個萬卡算力平臺AI數據湖存儲底座,借助海量數據和知識加速星火認知大模型持續進化,共建“讓機器能聽會說,能理解會思考,用AI建設美好世界”的美好愿景!
滬公網安備 31011202001934號