我院孫華軍/繆向水教授課題組在基于憶阻器的語言模型電路級實現(xiàn)與算法協(xié)同設(shè)計方面取得重要突破,相關(guān)研究成果以題為《Memristor-Based Circuit Implementation and Circuitry Optimized Algorithm for Mamba Language Network》的論文6月26日發(fā)表在國際電路與系統(tǒng)頂級期刊 IEEE Transactions on Circuits and Systems I: Regular Papers (IEEE TCAS-I) 上。我校為論文第一作者和通訊作者單位,我院張峻銘和南加州大學(xué)盛哲遠為共同第一作者,孫華軍教授為通訊作者。
01 問題闡述
近年來,Transformer模型成為主流語言模型架構(gòu),廣泛應(yīng)用于自然語言處理與視覺任務(wù),但其基于自注意力機制的計算復(fù)雜度呈二次增長,需要龐大的資源開銷,限制了其在邊緣和嵌入式場景下的應(yīng)用。新興的Mamba語言模型通過選擇性狀態(tài)空間模型(Selective SSM)有效降低計算復(fù)雜度與處理長序列時所需的資源開銷,逐漸展現(xiàn)出替代Transformer的潛力。
然而,Mamba模型因其計算結(jié)構(gòu)復(fù)雜、狀態(tài)變量耦合性強,尚未實現(xiàn)基于憶阻器電路級的完整部署。同時,缺乏面向電路級的并行掃描+硬件感知化推理算法。
為突破上述難點,團隊針對在電路層面實現(xiàn)Mamba模型的關(guān)鍵挑戰(zhàn)——復(fù)雜矩陣計算與狀態(tài)存儲以及并行推理與隱狀態(tài)跨周期遷移——展開研究。
02 解決問題
提出了一種基于憶阻器的Mamba語言模型完整電路實現(xiàn)方案,并首次設(shè)計了一套電路感知并行掃描推理算法(Computing-in-Memory Parallel-Aware Algorithm),在結(jié)構(gòu)與數(shù)據(jù)流上實現(xiàn)端到端加速:
全電路實現(xiàn)(Computing Architecture):設(shè)計標(biāo)準(zhǔn)1T1M憶阻交叉陣列與一維深度可分卷積憶阻陣列,覆蓋Mamba的投影,一維卷積等矩陣型運算,避免權(quán)重與計算分離引入額外的存儲與I/O開銷。
Implicit latent state “存內(nèi)計算”電路:提出CIM隱式潛態(tài)模塊,實現(xiàn)隱狀態(tài)計算,存儲與跨周期遷移,配合SiLU激活、RMS歸一化等功能電路,使推理過程全模擬化、顯著減少ADC/DAC與中間存儲。
計算-存內(nèi)并行感知算法:將Mamba原生并行掃描與硬件感知融合到電路級,實現(xiàn)順序輸入、并行輸出與隱式潛態(tài)的自遷移;突破了Mamba的隱式潛態(tài)無法并行的缺陷,進一步擴展并行度。
圖一:Mamba推理電路與hardware-aware parallel 算法示意圖
03 成果亮點與測試驗證
實現(xiàn)了端到端的電路級句子生成任務(wù),驗證模型電路從輸入詞嵌入到輸出序列的全鏈路正確性,同時所提出的電路級并行感知優(yōu)化算法使得計算總時間變?yōu)樵瓉淼?/3,驗證了其并行 輸出的能力。在精度與魯棒性方面:模擬計算與標(biāo)準(zhǔn)結(jié)果對比,平均準(zhǔn)確率可達95.98%;在9位權(quán)重量化下平均準(zhǔn)確率仍然可達約86.58%。在加入15%白噪聲干擾下仍保持輸出穩(wěn)定,具備良好魯棒性。單個token生成平均功耗約為585.32 mW,在當(dāng)前模擬電路體系下表現(xiàn)優(yōu)異,展現(xiàn)出向低功耗嵌入式系統(tǒng)遷移的潛力。與Transformer及RNN等傳統(tǒng)模型相比,該實現(xiàn)顯著降低了計算復(fù)雜度與推理時延,為大規(guī)模電路集成提供了新的方向。
結(jié)語
該工作展示了Mamba語言模型在硬件級特別是基于憶阻電路的可實現(xiàn)性與優(yōu)越性。未來,團隊后續(xù)將進一步優(yōu)化電路架構(gòu),拓展電路規(guī)模,引入相似度計算等模塊,推動Mamba模型在邊緣AI設(shè)備中的實際部署與應(yīng)用。