據(jù)外媒近日?qǐng)?bào)道,人工智能公司DeepSeek因芯片問(wèn)題推遲了其R2模型的發(fā)布。據(jù)悉,DeepSeek在訓(xùn)練R2模型時(shí)使用了華為的昇騰芯片,但由于昇騰平臺(tái)的穩(wěn)定性欠佳、軟硬件支持不足以及芯片通信速度慢等問(wèn)題,導(dǎo)致訓(xùn)練過(guò)程受阻。為此,DeepSeek不得不在訓(xùn)練階段改用英偉達(dá)芯片,而在推理階段繼續(xù)使用華為芯片,這一調(diào)整使得R2模型的發(fā)布時(shí)間從原定的5月起被迫推遲。
為了解決這一問(wèn)題,華為派遣了一個(gè)工程師團(tuán)隊(duì)前往DeepSeek的辦公室,協(xié)助其使用昇騰芯片進(jìn)行R2模型的開(kāi)發(fā)。目前,DeepSeek仍在與華為合作,以確保推理階段的兼容性。盡管如此,DeepSeek的創(chuàng)始人梁文鋒對(duì)目前的進(jìn)展表示不滿(mǎn),并決定加碼研發(fā)投入,力爭(zhēng)在幾周內(nèi)完成R2模型的發(fā)布。
此外,數(shù)據(jù)標(biāo)注耗時(shí)超預(yù)期也是影響R2發(fā)布的重要因素之一。數(shù)據(jù)標(biāo)注是人工智能模型訓(xùn)練中的關(guān)鍵環(huán)節(jié),耗時(shí)過(guò)長(zhǎng)無(wú)疑增加了項(xiàng)目整體的時(shí)間成本。
DeepSeek作為一家專(zhuān)注于人工智能領(lǐng)域的創(chuàng)新企業(yè),其R2模型的發(fā)布備受業(yè)界關(guān)注。此次因芯片問(wèn)題導(dǎo)致的推遲,不僅反映了當(dāng)前芯片供應(yīng)鏈的復(fù)雜性和技術(shù)挑戰(zhàn),也凸顯了企業(yè)在技術(shù)研發(fā)過(guò)程中面臨的諸多不確定性。
值得關(guān)注的是,中國(guó)監(jiān)管層近月要求本土科技公司說(shuō)明采購(gòu)英偉達(dá) H20 芯片的必要性,意在推動(dòng)國(guó)產(chǎn)替代。但業(yè)內(nèi)普遍認(rèn)為,國(guó)產(chǎn)芯片在訓(xùn)練場(chǎng)景的成熟度、生態(tài)完整度仍落后英偉達(dá)一到兩代。伯克利 AI 研究員 Ritwik Gupta 指出,“模型同質(zhì)化趨勢(shì)明顯,開(kāi)發(fā)者隨時(shí)可以切換到阿里 Qwen3 等競(jìng)品”,這意味著留給 DeepSeek 的窗口期并不寬裕。