華為云黃瑾：昇騰云CloudMatrix 384 超節(jié)點(diǎn)定義下一代AI基礎(chǔ)設(shè)施

作者：集小微 4小時(shí)前

來(lái)源：量子位 #華為云# #升騰AI#

1590

5月16日，華為云AI峰會(huì)在北京召開(kāi)，華為云副總裁黃瑾發(fā)表主題演講，介紹了更多CloudMatrix 384 超節(jié)點(diǎn)技術(shù)優(yōu)勢(shì)與細(xì)節(jié)。他指出，隨著大模型訓(xùn)練和推理對(duì)算力需求的爆炸式增長(zhǎng)，傳統(tǒng)計(jì)算架構(gòu)已難以支撐AI技術(shù)的代際躍遷，超節(jié)點(diǎn)架構(gòu)的誕生不僅是技術(shù)的突破，更是以工程化創(chuàng)新開(kāi)辟AI產(chǎn)業(yè)的新路徑。華為云CloudMatrix 384超節(jié)點(diǎn)具備MoE親和、以網(wǎng)強(qiáng)算、以存強(qiáng)算、長(zhǎng)穩(wěn)可靠、朝推夜訓(xùn)、即開(kāi)即用六大領(lǐng)先技術(shù)優(yōu)勢(shì)，以系統(tǒng)架構(gòu)創(chuàng)新重新定義新一代AI基礎(chǔ)設(shè)施。

華為云副總裁黃瑾

重新定義AI基礎(chǔ)設(shè)施架構(gòu)，開(kāi)辟算力新紀(jì)元

當(dāng)前，大模型訓(xùn)練經(jīng)歷了從早期小模型在單卡訓(xùn)練、小參數(shù)大模型在單機(jī)訓(xùn)練，到現(xiàn)在MoE、長(zhǎng)序列、多模態(tài)大模型都在AI集群上訓(xùn)練的演進(jìn)過(guò)程。AI算力的瓶頸，從單卡算力的瓶頸到單機(jī)內(nèi)總線(xiàn)帶寬的瓶頸，再到現(xiàn)在集群間通信帶寬的瓶頸，需求增長(zhǎng)了1萬(wàn)倍。

然而過(guò)去的8年里，單卡硬件的算力增長(zhǎng)了40倍，但是節(jié)點(diǎn)內(nèi)的總線(xiàn)帶寬只增長(zhǎng)了9倍，跨節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬只增長(zhǎng)了4倍，這使得集群網(wǎng)絡(luò)通信成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。

黃瑾表示，面對(duì)這些挑戰(zhàn)，華為云創(chuàng)新性的推出了采用全對(duì)等互聯(lián)架構(gòu)的CloudMatrix 384超節(jié)點(diǎn)。這項(xiàng)技術(shù)創(chuàng)新跳出單點(diǎn)技術(shù)限制走向系統(tǒng)性、工程性的創(chuàng)新算力架構(gòu)，直面通信效率瓶頸、內(nèi)存墻制約、可靠性短板三大技術(shù)挑戰(zhàn)。通過(guò)新型高速互聯(lián)總線(xiàn)實(shí)現(xiàn)384 張卡互聯(lián)成為一個(gè)超級(jí)云服務(wù)器，最高提供300Pflops的算力規(guī)模，比業(yè)界同類(lèi)產(chǎn)品領(lǐng)先67%。

解碼六大優(yōu)勢(shì)，CloudMatrix 384超節(jié)點(diǎn)重構(gòu)AI算力架構(gòu)

目前，基于CloudMatrix的超節(jié)點(diǎn)集群已經(jīng)在蕪湖、貴安、內(nèi)蒙規(guī)模上線(xiàn)，黃瑾進(jìn)一步深入解讀了六大技術(shù)創(chuàng)新點(diǎn)：

MoE親和架構(gòu)，從“小作坊”到“超級(jí)工廠”。在傳統(tǒng)架構(gòu)下，MoE模型訓(xùn)練容易因通信延遲導(dǎo)致算力浪費(fèi)，而CloudMatrix 384超節(jié)點(diǎn)的分布式推理平臺(tái)可以說(shuō)是專(zhuān)為MoE大模型而生。黃瑾指出，對(duì)比一卡多專(zhuān)家的“小作坊模式”，超節(jié)點(diǎn)更像“大工廠模式”，通過(guò)高速互聯(lián)總線(xiàn)，能夠?qū)崿F(xiàn)一卡一專(zhuān)家高效分布式推理，單卡的MoE計(jì)算和通信效率都大幅提升。這也是為什么有幾百個(gè)政務(wù)、零售、醫(yī)療、保險(xiǎn)、制造、礦山、旅游等各行各業(yè)的客戶(hù)，基于華為云昇騰AI云服務(wù)部署DeepSeek模型的創(chuàng)新應(yīng)用，例如在智能助手、智能客服、互聯(lián)網(wǎng)搜索、內(nèi)容創(chuàng)作等各種場(chǎng)景落地。

以網(wǎng)強(qiáng)算，雙層網(wǎng)絡(luò)破解“數(shù)據(jù)堵車(chē)”。當(dāng)AI算力走向規(guī)?；渴?，單點(diǎn)的芯片性能不再是制約算力發(fā)展的唯一變量，如何由點(diǎn)及面地激活算力矩陣的共振效應(yīng)，也是破解AI時(shí)代算力命題的關(guān)鍵一步。而釋放聯(lián)接力也正是超節(jié)點(diǎn)最大的創(chuàng)新突破之一，黃瑾介紹，傳統(tǒng)網(wǎng)絡(luò)像擁堵的城市道路，CloudMatrix 384則構(gòu)建了AI專(zhuān)屬高架橋，通過(guò)MatrixLink服務(wù)將單層網(wǎng)絡(luò)升級(jí)為兩層高速網(wǎng)絡(luò)，一層是超節(jié)點(diǎn)內(nèi)部的ScaleUp總線(xiàn)網(wǎng)絡(luò)，確保超節(jié)點(diǎn)內(nèi)384卡全對(duì)等高速無(wú)阻塞互聯(lián)，卡間超大帶寬2.8T，納秒級(jí)時(shí)延；另一層是跨超節(jié)點(diǎn)間的ScaleOut網(wǎng)絡(luò)，可支持微秒級(jí)時(shí)延，資源彈性擴(kuò)展；同時(shí)，基于全局拓?fù)涓兄闹悄苷{(diào)度算法，保障客戶(hù)任務(wù)長(zhǎng)穩(wěn)運(yùn)行。

以存強(qiáng)算，彈性?xún)?nèi)存改寫(xiě)“算存綁定”。華為云首創(chuàng)了EMS彈性?xún)?nèi)存存儲(chǔ)，打破傳統(tǒng)GPU算力與顯存綁定的關(guān)鍵障礙，通過(guò)內(nèi)存池化技術(shù)，實(shí)現(xiàn)顯存和算力解綁。一方面，用EMS替代NPU中的顯存，可使得首Token時(shí)延降低，最高降幅可達(dá) 80%；另一方面，當(dāng)NPU的顯存不足時(shí)，EMS獨(dú)立擴(kuò)容，不必再通過(guò)堆NPU以獲得更多內(nèi)存。同時(shí)，EMS還支持算力卸載，這也使得系統(tǒng)吞吐量提升，有的場(chǎng)景達(dá)100%的提升。總之，這一技術(shù)創(chuàng)新大幅提升了資源利用率、性能和吞吐量。

長(zhǎng)穩(wěn)可靠，故障自愈的“AI醫(yī)生”。隨著模型訓(xùn)練需求的不斷接入，大集群的運(yùn)維難度大、復(fù)雜性高的問(wèn)題日益凸顯。對(duì)此，華為云開(kāi)發(fā)了昇騰云腦運(yùn)維“1-3-10”標(biāo)準(zhǔn)，即 1 分鐘感知、3分鐘定界、10 分鐘內(nèi)恢復(fù)。通過(guò)5層壓測(cè)、靜默故障感知技術(shù)，昇騰云腦可將硬件故障感知率從40%提升至90%。同時(shí)，覆蓋計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件四大種類(lèi)故障模式庫(kù)也打通了全棧故障場(chǎng)景，這一全棧故障知識(shí)庫(kù)能夠覆蓋95%常見(jiàn)問(wèn)題以實(shí)現(xiàn)故障快速定界；在恢復(fù)機(jī)制上，3層快恢技術(shù)、快速建鏈技術(shù)、圖編譯緩存等技術(shù)能夠?qū)崿F(xiàn)萬(wàn)卡故障快速恢復(fù)。

朝推夜訓(xùn)，算力資源“錯(cuò)峰用電”。在大模型訓(xùn)練中，提升算力利用率，避免算力閑置也是企業(yè)關(guān)心的重點(diǎn)之一。CloudMatrix 384超節(jié)點(diǎn)通過(guò)“訓(xùn)推共池”“靈活調(diào)度”兩大關(guān)鍵技術(shù)實(shí)現(xiàn)朝推夜訓(xùn)，白天進(jìn)行模型推理，晚上閑時(shí)進(jìn)行模型訓(xùn)練，算力資源利用率可提升30%以上。

即開(kāi)即用，“算力水電”普惠模式。為助力客戶(hù)更好地專(zhuān)注業(yè)務(wù)模型開(kāi)發(fā)，華為云已經(jīng)在全國(guó)三大樞紐數(shù)據(jù)中心——烏蘭察布、貴安和蕪湖完成了超節(jié)點(diǎn)規(guī)模布局，支持百TB級(jí)的帶寬互聯(lián)，10毫秒時(shí)延圈覆蓋全國(guó)19個(gè)城市群，讓客戶(hù)能夠第一時(shí)間享受到即開(kāi)即用的AI算力資源。同時(shí)，華為云擁有專(zhuān)業(yè)的超節(jié)點(diǎn)運(yùn)維團(tuán)隊(duì)，在為客戶(hù)免去繁瑣的管理和維護(hù)的同時(shí)，保障資源的穩(wěn)定運(yùn)行。

做好智能世界云底座和使能器，加速行業(yè)智能躍遷

如今AI已經(jīng)成為最有影響力的通用技術(shù)，如何將技術(shù)價(jià)值轉(zhuǎn)化為應(yīng)用成果，成為千行百業(yè)面臨的核心課題。華為云超節(jié)點(diǎn)創(chuàng)新系統(tǒng)架構(gòu)的背后，是華為云堅(jiān)持“昇騰云服務(wù)支持百模千態(tài)，盤(pán)古大模型重塑千行萬(wàn)業(yè)”的戰(zhàn)略。

黃瑾強(qiáng)調(diào)，一直以來(lái)華為云持續(xù)推動(dòng)昇騰AI云服務(wù)全面升級(jí)，通過(guò)打磨昇騰云的訓(xùn)練、推理的性能、可靠性和性?xún)r(jià)比，為中國(guó)乃至全球客戶(hù)提供好用、易用的AI算力云服務(wù)。現(xiàn)已全面適配了DeepSeek在內(nèi)的160多個(gè)大模型，以云服務(wù)的方式，協(xié)助客戶(hù)進(jìn)行模型的開(kāi)發(fā)，訓(xùn)練，托管和應(yīng)用。昇騰AI云服務(wù)上線(xiàn)以來(lái)，面向政府、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè)已經(jīng)服務(wù)六百多家創(chuàng)新先鋒企業(yè)，加速行業(yè)智能化應(yīng)用的快速落地。

在充滿(mǎn)突破和創(chuàng)新的AI發(fā)展過(guò)程中，每一個(gè)階段都會(huì)產(chǎn)生大量的新技術(shù)、新模式，企業(yè)唯有抓住AI時(shí)代機(jī)遇，才能搶占發(fā)展先機(jī)。黃瑾表示，面向智能世界，華為云致力于做好行業(yè)數(shù)字化的“云底座”和“使能器”，堅(jiān)定打造AI算力底座，以安全、穩(wěn)定、高質(zhì)量、持續(xù)創(chuàng)新的AI云服務(wù)，賦能千行萬(wàn)業(yè)應(yīng)用創(chuàng)新，攜手伙伴、客戶(hù)加速行業(yè)智能躍遷。