在人工智能與集成電路技術(shù)深度融合的浪潮下,存算一體(CIM)架構(gòu)因其高效能的數(shù)據(jù)處理能力成為突破傳統(tǒng)計(jì)算瓶頸的關(guān)鍵路徑。然而,面對大型語言模型(LLM)的復(fù)雜計(jì)算需求,現(xiàn)有CIM設(shè)計(jì)在精度、能效和離群值處理等方面仍面臨顯著挑戰(zhàn)。同時(shí),神經(jīng)網(wǎng)絡(luò)硬件的片上訓(xùn)練與微調(diào)功能也對存算一體技術(shù)提出了更高的要求。針對這些核心問題,復(fù)旦大學(xué)集成芯片與系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室劉琦/陳遲曉課題組近期研制了兩款存算一體AI芯片:LLM離群值適配的混合精度存算一體芯片OA-CIM和支持片上微調(diào)/訓(xùn)練的RRAM/SRAM協(xié)同存算一體芯片Hairuo。兩項(xiàng)科研成果近期發(fā)表于國際固態(tài)電路權(quán)威期刊 IEEE Journal of Solid-State Circuits (JSSC),論文第一作者分別為何斯琪(博士生)、朱浩哲(青年研究員)和穆琛(博士生)。
1、OA-CIM:LLM離群值適配的混合精度存算一體芯片
隨著大模型參數(shù)規(guī)模的急劇增長,其通信和計(jì)算開銷大幅增加,對處理器的能效和內(nèi)存占用提出了嚴(yán)峻挑戰(zhàn)。存算一體(CIM)架構(gòu)通過將計(jì)算邏輯直接集成到存儲單元中,有效緩解了數(shù)據(jù)搬運(yùn)帶來的帶寬限制,成為提升能效的潛在解決方案。但現(xiàn)有的CIM設(shè)計(jì)在應(yīng)用于LLMs時(shí),仍面臨精度與內(nèi)存需求之間的權(quán)衡問題,尤其是對權(quán)重中普遍存在的離群值(outliers)的高效處理能力不足。
針對這一挑戰(zhàn),全國重研究團(tuán)隊(duì)研制了OA-CIM,一款支持浮點(diǎn)/定點(diǎn)混合精度計(jì)算的存算一體芯片。該芯片結(jié)合了離群值感知量化技術(shù)與浮點(diǎn)/整數(shù)兼容的存內(nèi)計(jì)算架構(gòu),實(shí)現(xiàn)了BF16離群值與INT4常規(guī)值的高效能效混合處理。相關(guān)成果以“A 22-nm 109.3-to-249.5-TFLOPS/W Outlier-Aware Floating-Point SRAM Compute-in-Memory Macro for Large Language Models”為題,被集成電路設(shè)計(jì)領(lǐng)域頂級期刊IEEE Journal of Solid-State Circuits (JSSC)錄用。論文鏈接:https://ieeexplore.ieee.org/document/11016687。
OA-CIM原型芯片基于22nm工藝設(shè)計(jì)并流片,片上集成了512KB SRAM存算一體陣列。該工作的主要亮點(diǎn)包括:
提出了一種支持混合精度(BF16/INT4)的SRAM存算一體架構(gòu),通過創(chuàng)新的離群值感知量化技術(shù)和浮點(diǎn)/整數(shù)兼容的乘法累加電路,在保證模型精度的同時(shí)實(shí)現(xiàn)了高能效計(jì)算,峰值能效達(dá)到249.5 TFLOPS/W;
開發(fā)了XOR共享的非最大指數(shù)門控方案,通過共享XOR邏輯單元優(yōu)化浮點(diǎn)數(shù)據(jù)流中的指數(shù)比較和減法操作,將指數(shù)處理單元的延遲降低1.54倍,面積效率提升1.43倍;
提出了分布偏移權(quán)重編碼技術(shù),利用LLM權(quán)重的統(tǒng)計(jì)特性優(yōu)化位線充放電過程,結(jié)合動態(tài)范圍驅(qū)動的預(yù)充電門控,使讀操作功耗降低1.67倍。
芯片測試表明,OA-CIM在運(yùn)行OPT-6.7B/13B等大型語言模型推理任務(wù)時(shí),與全精度BF16基線相比僅增加0.5%的困惑度(perplexity),同時(shí)系統(tǒng)峰值能效達(dá)到109.3-249.5 TFLOPS/W,較現(xiàn)有混合精度存算一體設(shè)計(jì)提升2.7-3.1倍。
集成芯片與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室、復(fù)旦大學(xué)集成電路與微納電子創(chuàng)新學(xué)院為上述論文的第一完成單位,何斯琪博士生和朱浩哲青年研究員為共同第一作者,朱浩哲和陳遲曉副研究員為共同通訊作者。該工作得到了國家自然科學(xué)基金(62304047、62488101)和鵬城-中移動科技創(chuàng)新基金2024ZY2B0070的資助。
OA-CIM芯片的版圖照片
2、支持片上微調(diào)/訓(xùn)練的RRAM/SRAM協(xié)同存算一體芯片
在許多端側(cè)場景下,神經(jīng)網(wǎng)絡(luò)計(jì)算硬件需要對于新的任務(wù)具備學(xué)習(xí)、適應(yīng)能力,即支持片上訓(xùn)練/微調(diào)功能。相比于推理,片上微調(diào)需要更多的數(shù)據(jù)傳遞和計(jì)算開銷,對于計(jì)算硬件提出了更高的需求。CIM技術(shù)通過緊密集成存儲和計(jì)算,減少了數(shù)據(jù)移動的延遲和能耗。其中,高密度、高能效RRAM存算一體技術(shù)為大規(guī)模低功耗邊緣計(jì)算提供了更多機(jī)會。然而RRAM存在有限耐久性,寫開銷等問題,當(dāng)前RRAM CIM芯片主要側(cè)重于神經(jīng)網(wǎng)絡(luò)推理,很少涉及片上訓(xùn)練或微調(diào)。
針對這一挑戰(zhàn),全國重研究團(tuán)隊(duì)研制了Hairuo,一款支持片上微調(diào)/訓(xùn)練的RRAM/SRAM協(xié)同存算一體芯片。該芯片通過比特級細(xì)粒度優(yōu)化,實(shí)現(xiàn)了兼容主流CNN/Transformer網(wǎng)絡(luò)的邊緣高效微調(diào),單次微調(diào)過程僅需對RRAM進(jìn)行不超過10次寫翻轉(zhuǎn)。相關(guān)成果以“A 28-nm RRAM/SRAM Collaborative CIM Accelerator Supporting RRAM-Endurance-Latency Awareness for Edge Fine-Tuning”為題,被集成電路設(shè)計(jì)領(lǐng)域頂級期刊IEEE Journal of Solid-State Circuits (JSSC)錄用。論文鏈接:https://ieeexplore.ieee.org/document/11037778。
Hairuo原型芯片基于28nm工藝設(shè)計(jì)并流片,片上集成了144KB RRAM存算一體陣列和32KB SRAM存算一體陣列。該工作的主要亮點(diǎn)包括:
提出了一種RRAM-MSB-SRAM-LSB(RMSL)比特級協(xié)同存算一體宏單元。通過協(xié)同部署高精度微調(diào)權(quán)重和低精度推理權(quán)重,減少了RRAM單元的翻轉(zhuǎn)次數(shù),緩解了RRAM的耐久性問題,同時(shí)實(shí)現(xiàn)了高達(dá)76.25 TOPS/W的峰值能效;
提出了RRAM-Sparse-SRAM-Dense(RSSD)權(quán)重更新引擎。利用權(quán)重更新過程中的位翻轉(zhuǎn)差異,最大限度地減少了與 RRAM訪問相關(guān)的長讀寫延遲,使超過95%的RRAM訪問稀疏化。此外對于RRAM的訪問延時(shí),在推理階段,通過流水線權(quán)重靜止數(shù)據(jù)流實(shí)現(xiàn)了對于RRAM讀出延時(shí)的消除,實(shí)現(xiàn)了更高的系統(tǒng)吞吐率;
提出了基于softmax歸一化共享的噪聲注入(SOSNI)機(jī)制,實(shí)現(xiàn)了低權(quán)重更新硬件開銷。通過對權(quán)重梯度量化注入噪聲進(jìn)行近似計(jì)算,減少了計(jì)算延遲并提高了模型量化的魯棒性。
芯片測試表明,Hairuo芯片在ResNet18及ViT-Base網(wǎng)絡(luò)權(quán)值微調(diào)過程中,所需RRAM更新不超過10次,存算一體宏單元和系統(tǒng)能效分別為76.25 TOPS/W和22.07 TOPS/W。所提出的RRAM數(shù)字存算一體SoC實(shí)現(xiàn)了高達(dá)143倍RRAM耐久性提高、117倍和144倍RRAM寫入能耗(0.047 mJ)和延遲(0.047 ms)降低。
集成芯片與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室、復(fù)旦大學(xué)集成電路與微納電子學(xué)院為上述論文的第一完成單位,穆琛博士生為論文第一作者,劉琦教授與陳遲曉副研究員為共同通訊作者。該工作得到了國家自然科學(xué)基金(62495101)、上海市2024 年“科技創(chuàng)新行動計(jì)劃”集成電路基礎(chǔ)研究項(xiàng)目(24JD1400300)以及鵬城-中移動科技創(chuàng)新基金項(xiàng)目(2024ZY2B0070)的資助。
Hairuo芯片的版圖照片