近日,商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)率先完成全面適配,在功能與性能驗(yàn)證中均達(dá)到預(yù)期目標(biāo)。這一合作標(biāo)志著國產(chǎn)AI算力在系統(tǒng)級協(xié)同與工程化落地方面取得關(guān)鍵進(jìn)展,推動國產(chǎn)高性能計(jì)算架構(gòu)從“可用”真正走向“好用”,為大模型訓(xùn)練與推理提供了更穩(wěn)定、高效的算力基座。
超節(jié)點(diǎn)(SuperPod)作為當(dāng)前AI算力基礎(chǔ)設(shè)施的重要形態(tài),通過高速互聯(lián)將多個(gè)NPU/GPU整合為統(tǒng)一計(jì)算單元,旨在破解大規(guī)模模型訓(xùn)練中的算力協(xié)同與通信效率瓶頸。華為昇騰384超節(jié)點(diǎn)憑借其“全對等架構(gòu)”實(shí)現(xiàn)跨服務(wù)器、跨機(jī)柜的系統(tǒng)級資源池化,將CPU、NPU、DPU、存儲等組件高速互聯(lián),構(gòu)建出媲美超級計(jì)算機(jī)的算力密度與帶寬能力。
然而,此類大規(guī)模異構(gòu)算力系統(tǒng)也對軟件棧、調(diào)度能力和系統(tǒng)可靠性提出了極高要求。商湯SenseCore作為全棧AI云原生平臺,與華為昇騰團(tuán)隊(duì)聯(lián)合攻關(guān),在調(diào)度優(yōu)化、系統(tǒng)穩(wěn)定性與故障恢復(fù)等方面實(shí)現(xiàn)多項(xiàng)行業(yè)創(chuàng)新,顯著提升超節(jié)點(diǎn)在真實(shí)場景中的可用性與訓(xùn)練效率。
商湯聯(lián)合華為昇騰,實(shí)現(xiàn)超節(jié)點(diǎn)適配多項(xiàng)創(chuàng)新
華為昇騰推出的與此同時(shí),這一全新方案架構(gòu),也對軟件棧的升級和平臺調(diào)度優(yōu)化提出了更高要求,讓它能“跑得快、跑得穩(wěn)”。
作為AI云原生平臺,商湯大裝置SenseCore致力于為用戶提供敏捷、靈活、可靠的全棧AI基礎(chǔ)設(shè)施服務(wù),以極致性價(jià)比推動大模型技術(shù)的高效落地與規(guī)?;瘧?yīng)用。
基于商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)的特點(diǎn),雙方團(tuán)隊(duì)聯(lián)合攻關(guān),在調(diào)度優(yōu)化、系統(tǒng)穩(wěn)定性以及故障恢復(fù)等方面提出多項(xiàng)行業(yè)創(chuàng)新:
調(diào)度優(yōu)化:在調(diào)度能力上,除了支持POD內(nèi)單機(jī)和多機(jī)調(diào)度、跨POD多機(jī)調(diào)度、親和性調(diào)度等基礎(chǔ)能力,SenseCore平臺配合模型并行策略實(shí)現(xiàn)了邏輯超節(jié)點(diǎn)自動劃分,使EP/TP等大通信策略可以充分利用靈衢網(wǎng)絡(luò),提升模型訓(xùn)練效率。
跨POD訓(xùn)練穩(wěn)定性:另外SenseCore團(tuán)隊(duì)提交了多個(gè)MR修復(fù)多POD場景下master/work任務(wù)rank亂序問題,從根本上解決了跨POD訓(xùn)練任務(wù)概率性失敗的問題。
多維度故障檢測與恢復(fù):在故障檢測能力上覆蓋了從服務(wù)器硬件、高速互聯(lián)總線、RoCE網(wǎng)絡(luò)到任務(wù)、進(jìn)程軟硬件多維度檢測,結(jié)合檢測能力實(shí)現(xiàn)Job/Pod/進(jìn)程多級恢復(fù)機(jī)制,全面提升昇騰384超節(jié)點(diǎn)在訓(xùn)練場景下的可靠性與容錯(cuò)性。
此次商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)的成功適配,讓多租戶、大規(guī)模、彈性AI云服務(wù)成為可能。未來,雙方還將探索更多應(yīng)用場景,包括大模型推理加速、智能體應(yīng)用部署、面向垂直行業(yè)的大模型訓(xùn)練與推理優(yōu)化等,進(jìn)一步加速基于SenseCore的昇騰384超節(jié)點(diǎn)在各行各業(yè)的應(yīng)用落地。
商湯科技大裝置事業(yè)群CTO宣善明表示:“商湯大裝置非常重視并深度參與國產(chǎn)化算力生態(tài)建設(shè)。SenseCore成為首批完成昇騰384超節(jié)點(diǎn)適配的AI云平臺,不僅得益于SenseCore平臺的開放性、完善的功能和豐富的應(yīng)用實(shí)踐,更是國產(chǎn)AI基礎(chǔ)設(shè)施融合發(fā)展的重要里程碑。SenseCore通過與昇騰的深度融合,充分釋放昇騰算力潛能,為產(chǎn)業(yè)界提供更加敏捷、智能、可靠的算力底座,商湯也將在此基礎(chǔ)上打造面向各行業(yè)的AI解決方案,共同推動千行百業(yè)的智能化升級”。