最新人工智能(AI)驅(qū)動系統(tǒng)對算力和輸入輸出(IO)的需求,已遠超工藝節(jié)點升級所能承載的范疇。若一味追求更大尺寸的芯片(逼近掩模版尺寸極限),會導致良率下滑、成本攀升。此外,部分模擬電路和IO功能難以從先進工藝節(jié)點中獲得顯著收益。而遷移到新工藝節(jié)點,實則是讓這些功能運行在成本陡增的晶圓上,卻僅換來微乎其微的回報,可謂得不償失。同時,技術創(chuàng)新節(jié)奏日益加快,使得新一代片上系統(tǒng)(SoC)的迭代周期從傳統(tǒng)的3-4年縮短至1-2年。
據(jù)IDtechEx報道,到2035年,芯粒市場規(guī)模將達到4110億美元。芯粒技術通過將SoC功能分解為更小的異構或同質(zhì)芯片(即“芯?!保?,再將芯粒集成到單系統(tǒng)級封裝(SIP)中,可滿足持續(xù)增長的算力和IO帶寬需求,其總硅片面積可超過單個SoC的掩模版尺寸。SIP不僅包含傳統(tǒng)封裝基板,還可采用中介層實現(xiàn)更高布線密度,從而能夠在單個標準或先進封裝中顯著提升功能集成度。圖1展示了在高性能計算應用中,通過UCIe Die-to-Die接口互聯(lián)的芯粒的部分潛在應用場景。
圖1.采用UCIe IP實現(xiàn)Die-to-Die連接的HPC芯粒示例
芯粒市場的愿景是:開發(fā)者能夠通過混合搭配現(xiàn)成的芯粒快速構建系統(tǒng)。如此一來,設計團隊可專注于產(chǎn)品的差異化創(chuàng)新,而通用計算與IO功能則由芯粒承載。在其他領域,標準不統(tǒng)一和功能碎片化的問題仍阻礙著這一愿景的落地。盡管UCIe標準、ARM CSA規(guī)范及各類汽車聯(lián)盟都已取得一定進展,但尚不足以支撐行業(yè)所期待的芯粒市場格局。本文將深入探討系統(tǒng)開發(fā)者在芯粒設計與集成過程中面臨的部分關鍵問題及決策考量。
01系統(tǒng)劃分
設計團隊需要考慮的首要問題是:設計中應包含哪些功能模塊與功能,以及如何將這些功能劃分到不同的芯粒中。此外,開發(fā)者還需為每個模塊選擇高效的半導體工藝節(jié)點。一種常見的總體劃分方式是,將計算芯片、輸入輸出(IO)芯片和存儲功能分別部署在不同的芯粒上。接下來要做的是,在延遲、帶寬和功耗之間進行權衡,具體均取決于工藝節(jié)點的選擇和芯粒的劃分方式。
02工藝節(jié)點的選擇
AI加速器中的計算芯片可能適合采用最新的工藝節(jié)點,以優(yōu)化性能和功耗;但在最新工藝節(jié)點中實現(xiàn)緩存存儲器可能并非理想選擇。緩存或許可以集成在同一芯片上,但靜態(tài)隨機存取存儲器(SRAM)在最新工藝節(jié)點中的擴展性可能遠不及邏輯電路,因此在成本更低的節(jié)點上實現(xiàn)SRAM會更具效益。此外,通過2.5D Die-to-Die接口來滿足芯片外數(shù)據(jù)傳輸?shù)难舆t要求可能不太合適。一種可行方案是采用3D集成架構:計算芯片采用最新的N節(jié)點工藝,而SRAM和IO芯片則采用N-1或N-2節(jié)點工藝。
模擬功能或IO接口功能(PCIe、以太網(wǎng)等)對延遲的容忍度可能更高,因此適合在獨立的芯粒中實現(xiàn),并通過UCIe接口與主芯片連接。主芯粒則可采用較舊的工藝節(jié)點以節(jié)約成本。
03Die-to-Die連接考量因素
UCIe已成為芯粒間Die-to-Die連接的實際標準,但選擇UCIe配置時需考量諸多因素。開發(fā)者需根據(jù)芯粒的工作任務明確帶寬需求,其中既包括主頻段數(shù)據(jù)的帶寬,也涵蓋用于控制與管理的側信道數(shù)據(jù)帶寬。以AI服務器的IO芯粒應用為例,UCIe的帶寬需求與以太網(wǎng)、UALink或PCIe等接口IP息息相關。開發(fā)者需做出多項決策,比如每條通道的數(shù)據(jù)速率;是采用支持更長傳輸距離的有機基板(UCIe標準方案),還是采用超小前端布局與具有超小凸點間距的先進封裝(UCIe高級方案)。此外,還需在數(shù)據(jù)速率(范圍為16G至64G)與滿足芯片前端限制所需的通道數(shù)量之間進行權衡??捎玫那岸瞬季挚赡軙鶕?jù)接口IP的物理層(PHY)布局而變化。根據(jù)芯粒的目標尺寸和/或深寬比,開發(fā)者可選擇將PHY布置在芯片邊緣的單排中;另一種方案是將PHY按列雙層堆疊,以犧牲PHY區(qū)域深度為代價,將前端布局縮減一半。大多數(shù)UCIe應用采用串流接口,開發(fā)者必須確定從UCIe串流到接口IP的橋接方式,可選方案包括AXI、ARM CXS或即將推出的PXS等標準。此外,還需考慮如何在不浪費帶寬的前提下將數(shù)據(jù)封裝到可用資源中、執(zhí)行時鐘交叉功能,并決定數(shù)據(jù)是從UCIe直接點對點傳輸?shù)浇涌贗P,還是先傳輸至中間的片上網(wǎng)絡(NOC)以提升芯粒內(nèi)部連接的靈活性。
04先進封裝技術:新能力與新挑戰(zhàn)并存
如今,封裝技術受到了前所未有的關注。這些技術進步在帶來巨大機遇的同時,也為單個芯?;騇ulti-Die設計中多個芯粒的開發(fā)帶來了更多挑戰(zhàn)。
開發(fā)者需要確定在Multi-Die設計中芯粒的互聯(lián)方式。與包含中介層或帶硅橋中介層的2.5D架構相比,有機基板成本更低,設計周期也更短。對于更先進的應用場景,可能需要中間的中介層來滿足所需的互聯(lián)密度、電源/接地及信號路徑要求。一旦確定采用中介層,就必須選擇成熟的硅中介層、新型有機基板重布線層(RDL)中介層,或帶硅橋的RDL中介層,以根據(jù)需求提供更高密度的互聯(lián)。硅中介層為成熟技術,但尺寸越大成本越高,且受限于材質(zhì)脆性,尺寸存在局限。RDL中介層則旨在降低成本,并支持更大尺寸,以集成包含更大硅片面積的大型系統(tǒng)。無論選擇哪種方案,開發(fā)者都面臨新的挑戰(zhàn),包括機械外形尺寸、信號完整性與電源完整性分析、單個芯粒的熱分析及其間的相互作用。此外,凸點規(guī)劃和晶圓探針布局的復雜性也隨之增加,需要協(xié)調(diào)芯粒、封裝與測試要求之間的適配性。即便在同一類型的基板襯底或中介層中,凸點間距也可能存在差異,襯底的典型凸點間距范圍為110至150微米,而中介層上使用的微凸點間距為25至55微米。正如圖2所強調(diào)的,若加入3D芯片堆疊,差異會愈發(fā)顯著。
圖2.3.5D封裝示例:通過中介層連接3D芯片堆疊與另一顆2D芯片
封裝面臨的挑戰(zhàn)還包括測試規(guī)劃,例如通過晶圓探針實現(xiàn)芯粒的可訪問性,以確保產(chǎn)出已知合格的芯片(KGD);利用IEEE 1838協(xié)議和多芯粒測試服務器,對無法通過外部引腳直接訪問的芯片進行測試。
05設計與驗證:安全性考量
IP集成面臨諸多挑戰(zhàn),包括互操作性、驗證及安全性等方面的問題。
當開發(fā)者完成異構或同構芯粒的系統(tǒng)劃分后,接下來要面對的挑戰(zhàn)就是設計安全維度的考量。在Multi-Die設計中,需要防御的攻擊面范圍更廣。首要問題是提供認證功能,以驗證每個芯粒的合法性。其次,根據(jù)終端應用場景,開發(fā)者可能需要構建信任根,用于處理敏感數(shù)據(jù),還可能需要在系統(tǒng)間傳遞密鑰以提供數(shù)據(jù)加密服務。此外,開發(fā)者還可考慮采用安全啟動流程,從硬件和固件層面防止外部篡改。同時,必須考慮為關鍵接口上傳輸?shù)臄?shù)據(jù)提供保護,例如PCIe與CXL的完整性和數(shù)據(jù)加密(IDE)功能、DDR與LPDDR的內(nèi)嵌存儲加密(IME)功能、以太網(wǎng)的MACsec功能等。另一種可行方案是支持ARM的機密計算架構(CCA)。
系統(tǒng)級仿真、模擬與原型設計是開發(fā)過程中的關鍵步驟,可確保芯片的功能與性能達標,實現(xiàn)一次性交付成功。協(xié)同設計需涵蓋芯片、軟件與系統(tǒng)組件,以實現(xiàn)最佳的集成與效率,使開發(fā)者能在芯片可用前,提前開始軟件開發(fā)工作。
06結語
將概念和構想轉(zhuǎn)化為Multi-Die設計,需綜合考量諸多因素,且離不開深厚的經(jīng)驗積累。新思科技提供業(yè)界豐富且基于標準的接口IP產(chǎn)品組合及IP子系統(tǒng)集成服務,能夠交付可直接集成的芯粒子系統(tǒng)。開發(fā)者可使用新思科技的系統(tǒng)解決方案設計服務,并借助對新思科技EDA與IP產(chǎn)品有深入了解的生態(tài)合作伙伴的力量,從而加速開發(fā)進程,確保芯片、封裝與軟件產(chǎn)品的優(yōu)化集成。目前,開發(fā)者可與新思科技展開合作,探討從概念構想、架構設計、IP選擇、流程與方法,到RTL設計、IP集成、物理實現(xiàn)、封裝設計、晶圓廠管理等各個環(huán)節(jié),也可選擇與新思科技攜手,采用端到端全流程設計方案。依托新思科技的專業(yè)能力與技術服務,開發(fā)者能夠聚焦自身核心優(yōu)勢,將設計中的其他環(huán)節(jié)交由相關領域的專家,從而快速、可靠地推進產(chǎn)品上市。