日前,DeepSeek-V3.1宣布使用了UE8M0 FP8 Scale參數(shù)精度,并表示后者針對即將發(fā)布的下一代國產(chǎn)芯片而設(shè)計(jì)。周五資本市場芯片股大漲,國內(nèi)GPU企業(yè)摩爾線程對媒體表示,該公司目前已經(jīng)原生支持FP8,并支持DeepSeek的相應(yīng)功能。
此前,7月底上海舉行的世界人工智能大會期間,摩爾線程重磅披露其完整AI技術(shù)布局。據(jù)摩爾線程介紹,其支持從FP64至INT8的完整精度譜系,是國內(nèi)極少數(shù)具備FP8大模型訓(xùn)練平臺的廠商,通過FP8混合精度技術(shù),有效提升訓(xùn)推一體能力,在主流前沿大模型訓(xùn)練中實(shí)現(xiàn)20%~30%的性能躍升。
指數(shù)級增長的模型算力需求,宣告了大智算集群作為訓(xùn)練基礎(chǔ)設(shè)施的“剛需”時代已然來臨。? 面對動輒10^26 FLOPS級的計(jì)算量和長達(dá)數(shù)十天的萬卡訓(xùn)練周期,單純擴(kuò)充集群規(guī)模已非良策。破局的關(guān)鍵在于多管齊下:?深挖低精度訓(xùn)練(尤其是FP8)帶來的巨大潛力以提升單卡效率;同時,構(gòu)建高可靠、高可用的集群環(huán)境以保障大規(guī)模訓(xùn)練的持續(xù)穩(wěn)定運(yùn)行?。這不僅關(guān)乎成本,更決定著大模型研發(fā)的節(jié)奏與成敗。