UCIe封裝與異構(gòu)算力集成

本文來自“2023新型算力中心調(diào)研報告(2023)”。更多內(nèi)容參考“《海光CPU+DCU技術(shù)研究報告合集(上)》 ”,“《海光CPU+DCU技術(shù)研究報告合集(下)》 ”和“龍芯CPU技術(shù)研究報告合集”,“UCIe白皮書(終版)”。
UniversalChiplet Interconnect Express (UCIe)? 是一個開放的行業(yè)互連標準,可以實現(xiàn)小芯片之間的封裝級互連,具有高帶寬、低延遲、經(jīng)濟節(jié)能的優(yōu)點。能夠滿足整個計算領(lǐng)域,包括云端、邊緣端、企業(yè)、5G、汽車、高性能計算和移動設(shè)備等,對算力、內(nèi)存、存儲和互連不斷增長的需求。UCIe 具有封裝集成不同Die的能力,這些Die可以來自不同的晶圓廠、采用不同的設(shè)計和封裝方式。
實現(xiàn)Chiplets封裝集成的動機有很多。為了滿足不斷增長的性能需求,芯片面積不斷增加,有些設(shè)計甚至會超出掩模版面積的限制,比如具有數(shù)百個核心的多核 CPU,或扇出非常大的交換[曹1] 電路(Switch)。即使在設(shè)計不超過面積限制的情況下,改用多個小芯片集成封裝的方式也更有利于提升良率,實現(xiàn)芯片的跨市場復用。另外,多個相同Die的集成封裝能夠適用于大規(guī)模的應(yīng)用場景。

圖1:UCIe開啟開放式封裝級生態(tài)系統(tǒng)交付平臺
實現(xiàn)Chiplet封裝集成的另一個動機是為了從產(chǎn)品和項目的角度降低整體投資組合成本,并搶占產(chǎn)品市場。例如,圖 1 所示的處理器核心可以最先進的工藝節(jié)點,用更高的成本換取極致的節(jié)能性能,而內(nèi)存和 I/O 控制器功能可以復用已經(jīng)建立好的舊工藝節(jié)點(n -1 或 n-2)。采用這種劃分方式,可以減小Die的面積,從而提高產(chǎn)量。如圖 2 所示,跨工藝節(jié)點的 IP 移植成本很高,而且隨著工藝節(jié)點的進步,該成本增長非常迅速。若采用多Die集成模式,由于Die的功能不變,我們不必對其IP進行移植,便可在節(jié)省成本的同時實現(xiàn)搶占市場的可能。Chiplet封裝集成模式還可以使用戶能夠自主選擇Die的數(shù)量和類型,從而針對不同的產(chǎn)品類型做出不同的權(quán)衡。例如,用戶可以根據(jù)自己的具體需求挑選任意數(shù)量的計算、內(nèi)存和I/O Die,并無需針對具體需求進行Die的自主設(shè)計,這有利于降低產(chǎn)品的SKU成本。
Chiplet的封裝集成允許廠商能夠以快速且經(jīng)濟的方式提供定制解決方案。如圖 1 所示,不同的應(yīng)用場景可能需要不同的計算加速能力,但可以使用同一種核心、內(nèi)存和 I/O。Chiplet的封裝集成還允許廠商根據(jù)功能需求對不同的功能單元應(yīng)用不同的工藝節(jié)點,并實現(xiàn)共同封裝。例如,內(nèi)存、邏輯、模擬和光學器件可以被應(yīng)用不同的工藝技術(shù),然后和Chiplet封裝到一起。由于相比板級互連,封裝級互連具有線長更短、布線更緊密的優(yōu)點,因此,像內(nèi)存訪問這種需要高帶寬的應(yīng)用場景都可以以封裝級集成的方式實現(xiàn)(例如HBM,High Bandwidth Memory)。
UCIe是封裝互連的戰(zhàn)略性成果,它以前瞻性的方式滲入各種應(yīng)用模型,并蓄勢待發(fā),志在扭轉(zhuǎn)行業(yè)未來。
UCIe 的 In package 本質(zhì)就是將整個芯片封裝視作主板,在基板上組裝大量的芯粒,包括各種處理器、收發(fā)器,以及硬化的 IP。整體而言,UCIe 是一個基于并行連接的高性能系統(tǒng)接口,主要是面向 PCIe/CXL 設(shè)備(芯片)的“ 組 裝”,如 CPU、GPU、DSA、FPGA、ASIC 等的互聯(lián)。隨著人工智能時代的到來,異構(gòu)計算已經(jīng)是顯學,原則上,只要功率密度允許,這些異構(gòu)計算單元的高密度集成可以交給 UCIe 完成。

△ UCIe的In package 本質(zhì)就是將整個芯片封裝視作主板
除了集成度的考慮,標準化的 Chiplet 也帶來了功能和成本的靈活性,對于不需要的單元,在制造時不參與封裝即可——而對于傳統(tǒng)的處理器而言,對部分用戶無用的單元常常成為無用的“暗硅”,意味著成本的浪費。一個典型的例子就是 DSA,如英特爾第四代可擴展至強處理器中的若干加速器,用戶可以付費開啟,但是,如果用戶不付費呢?這些 DSA 其實已經(jīng)制造出來了。

UCIe 包括協(xié)議層(Protocol Layer)、適配層(Adapter Layer)和物理層(Physical Layer)。協(xié)議層支持 PCIe 6.0、CXL 2.0 和 CXL 3.0,也支持用戶自定義。根據(jù)不同的的封裝等級,UCIe 也有不同的 Package module。通過用 UCIe 的適配層和 PHY 來替換 PCIe/CXL 的 PHY 和數(shù)據(jù)包,就可以實現(xiàn)更低功耗和性能更優(yōu)的 Die-to-Die 互連接口。

△ UCIe 對兩種封裝的劃分
UCIe 考慮了兩種不同等級的封裝:標準封裝(Standard Package)和先進封裝(Advanced Package),凸塊間距、傳輸距離和能耗將有數(shù)量級的差異。譬如對于先進封裝,凸塊間距(Bump Pitch)為 25~55μm,對應(yīng)的是采用硅中介層為代表的 2.5D 封裝技術(shù)的特點。以英特爾的 EMIB 為例,當前的凸塊間距即為 50μm 左右,未來將向 25μm,甚至 10μm 演進。臺積電的 InFO、CoWoS 也會有類似的規(guī)格和演進。而標準封裝(2D)的規(guī)格對應(yīng)的是目前應(yīng)用最為廣泛的有機載板。

△ 英特爾先進封裝的凸塊間距演進
不同封裝的信號密度也是有本質(zhì)差異的,如標準封裝模塊對應(yīng)的是 16 對數(shù)據(jù)線(TX、RX),而高級封裝模塊包含 64 對數(shù)據(jù)線,每 32 個數(shù)據(jù)管腳還提供 2 個額外的管腳用于 Lane 修復。如果需要更大的帶寬,可以擴展更多的模塊,且模塊的頻率是可以獨立的。

△ UCIe 規(guī)劃了兩種等級封裝的性能目標
當然,UCIe 沒有必要急于跟進封裝技術(shù)的極限,更高密度的鍵合通常還是為私有(協(xié)議)接口準備的,典型的如存儲器(SRAM、HMB、3D NAND)的內(nèi)部。UCIe 能夠滿足通用總線的連接需求即可,如 PCIe、UPI、NVLink 等。值得一提的是,UCIe 對高速 PCIe 的深度捆綁,注定了它“嫌貧愛富”的格局。
3、數(shù)據(jù)中心綠色設(shè)計白皮書(2023)
4、新型數(shù)據(jù)中心高安全技術(shù)體系白皮書
數(shù)據(jù)中心綠色設(shè)計白皮書(2023)
精華:數(shù)據(jù)庫系統(tǒng)的分類和評測研究
集裝箱冷板式液冷數(shù)據(jù)中心技術(shù)規(guī)范
浸沒式液冷發(fā)展迅速,“巨芯冷卻液”實現(xiàn)國產(chǎn)突破
某液冷服務(wù)器性能測試臺的液冷系統(tǒng)設(shè)計
《內(nèi)存技術(shù)應(yīng)用研究及展望合集》

免責申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言刪除,謝謝。
溫馨提示:掃描二維碼關(guān)注“全棧云技術(shù)架構(gòu)”公眾號,點擊閱讀原文進入“全棧云技術(shù)知識”星球獲取10000+技術(shù)資料。

