<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          特斯拉造Dojo超算,AI Day再放大招

          共 4009字,需瀏覽 9分鐘

           ·

          2021-09-07 00:07



          為更高效、更經濟的實現針對神經網絡的訓練,特斯拉打造了Dojo超級計算機,并在上周五的AI Day上做了首秀。

          下載鏈接:

          干貨揭秘:特斯拉AI Day再放大招

          彼時,AI Day演講已經進行到最后一個環(huán)節(jié),Dojo超算項目負責人Ganesh Venkataramana正站在舞臺上滔滔不絕。如何在人工智能訓練芯片D1的基礎上,構建Dojo超算系統的基本單元——一種集成了25個D1芯片的訓練模塊(Training Tile)?

          特斯拉找到的一個關鍵答案是用臺積電的InFO_SoW整合扇出技術,這是一種芯片先進封裝技術。當Ganesh說著“這是真的”,并把一塊做好的訓練模塊展示給臺下觀眾時,他理所應當地得到了掌聲。


          但有趣的事情不止于此。據公開信息,上一個使用了這個先進封裝技術的公司是美國創(chuàng)企Cerebras。換言之,特斯拉是已知使用到該技術的第一家汽車公司(雖然現在的特斯拉已經越來越像是一家人工智能公司了)。

          Dante Tech曾判斷超算可能會成為自動駕駛下一個發(fā)展階段中的核心生產力工具,而新的需求同時也推動了相關先進技術的應用。汽車產業(yè)產業(yè)鏈的價值重構,正與其他的產業(yè)變革發(fā)生著奇妙的聯動。


          Dojo超算拆解


          我們從特斯拉那里拿到的資料中,對于Dojo超算有一個有趣的形容——“工程學的創(chuàng)舉”。這意味著Dojo超算上所做的創(chuàng)新更多屬于應用過程中的創(chuàng)新,對于這個說法,特斯拉應該是認的。這就類似于大家手里都有一本字典,學霸用起來效果更好,但就字典本身而言倒沒什么特別奇怪的。

          回到Dojo超算,特斯拉的具體目標是要做到:達到最佳的AI訓練性能、能夠支撐更大和更復雜的神經網絡模型、并能夠優(yōu)化能耗成本。

          而要實現目標,特斯拉認為最緊要的事是克服帶寬和延遲的問題。因為對于超算而言,算力擴展是“小事”,算力可以通過堆芯片堆上去,解決數據傳輸的帶寬和延遲瓶頸才是真正的難題。 

          如何解決這個難題?特斯拉的解題方法是在硬件(芯片、系統、計算集群)和軟件層面上同時入手,做優(yōu)化。


          關于Dojo超算的現有文章中提到軟件層的較少。但軟件層實際上很關鍵,因為并不是所有的工作都需要依靠巨大的計算集群來完成。在軟件層面上,特斯拉開發(fā)了一款虛擬化工具DPU(Dojo Processing Unit)。

          一個DPU可以由一個或者多個D1芯片構成,同時搭配接口處理器和主機,最重要的是它可以根據運行在上面的算法的大小進行擴展或者縮小,具有相當的靈活性。

          在整個軟件層面,特斯拉構建了一套由PyTorch(一個深度學習框架,特斯拉對其進行了擴展)、編譯器、驅動程序、分析器和調試器共同構成的軟件棧。

          Dojo超算的硬件設計,從內至外可以分為芯片、系統、計算集群三個層級。

          芯片上承載了最小的計算元素,這里被稱為「訓練節(jié)點」。訓練節(jié)點內置一個4線程的超標量CPU、1.25MB SRAM緩存、低延遲的數據交換結構、SIMD單元、多個8X8乘法矩陣等。同時,每個節(jié)點內部和四周都布滿了用于數據傳輸的線路。

          每個訓練節(jié)點的性能表現如下:算力在BF16/CFP8數據格式下,為1024GFLOPS(每秒執(zhí)行浮點運算次數超過了1萬億次),在精度更高的FP32格式下,浮點運算性能達到64GFLOS(每秒執(zhí)行浮點運算次數超過640億次)。

          354個這樣的訓練節(jié)點連接到一起,構成計算陣列(compute array)。演示為正方形的計算陣列,再配合圍繞在四條邊上的高帶寬結構(可提供4TB/s的片外帶寬),便在邏輯上構成了一個D1芯片——一個由特斯拉研發(fā)的人工智能訓練芯片。


          現在已經有了搭房子的磚瓦,接下來便要考慮如何建房子了?;贒1芯片,特斯拉在系統層面設計了「訓練模塊(Training Tile)」,訓練模塊就是Dojo超算的基本構成單位。

          一個完整的訓練模塊上集成了25個D1芯片,并進一步封裝了總帶寬為36TB/s的連接器、具備15kW散熱能力的水冷系統以及供電模塊。性能表現上,一個訓練模塊BF16/CFP8精度下的浮點算力總算力為9PFLOPS。

          然后120個訓練模塊共同構成ExaPOD,即特斯拉Dojo超算的最終硬件形態(tài),其總算力在BF16精度下達1.1EPlops。 

          拆解完Dojo的基本架構,現在請回憶一下特斯拉在打造Dojo超算時希望解決的核心問題,其核心目標是希望在各個層級上幫助拓展帶寬并減少延遲。


          當D1芯片本身已經擁有了極高的帶寬(10TB/s的片上帶寬、4TB/s的片外帶寬),那么緊接著的一個問題就是如何實現芯片之間的“無縫連接”,保留芯片之間的最大帶寬,在系統層面解決帶寬與延遲問題?因為通常來說,芯片間的連接方式和物理距離對帶寬和延遲有著決定性的影響。

          特斯拉在這一步上用到了臺積電的先進封裝技術InFO_SoW技術,這也是我們下一節(jié)的內容。


          什么是InFO技術?


          美國時間8月22日,在一年一度的集成電路產業(yè)盛會Hotchips上,臺積電Pathfinding for System Integration副總經理余振華就臺積電的先進封裝技術路線圖進行了分享。

          其中,面向超高性能計算系統,余振華給出了InFO_SoIS和InFO_SoW兩種技術,并在演示圖中“附贈”了一個有關特斯拉AI Day的博客鏈接。

          特斯拉在集成25個D1芯片時用了臺積電的InFO_SoW,有了官方實錘。


          一枚芯片的誕生,包括芯片設計和生產制造兩個環(huán)節(jié)。制造過程中,沙子進行提煉處理得到芯片的原材料硅,然后再通過純化、拉晶、切割等工藝得到硅晶圓(即晶圓,wafer),只是完成了第一步。

          從硅晶圓到做出一個能滿足功能需求的電路架構(芯片),還有成百上千道工序。其中,芯片本身是嬌貴的器件所以需要給它“保護殼”,而單顆芯片上的電極(被稱為pad或者是bump)又需要與外界電路連通后才能工作,簡單來說芯片廠商做的這部分工作就被稱為「封裝」。

          臺積電的InFO_SoW技術是一個整合了InFO技術、動力和散熱模塊的晶圓級系統,也是一種封裝技術。曾經臺積電打敗三星拿下蘋果代工訂單,憑借的就是更為成熟的InFO技術。

          InFO(Intergrated Fan-Out),整合扇出型封裝技術。

          下面簡化版的示意圖展示了用InFO技術封裝后器件的基本架構,從上到下是用于固化的環(huán)氧樹脂、晶片(Die)即單個的芯片、導線重布層(RDL)、外部金屬球、印刷電路板(PCB)。所謂的扇出區(qū)就是圖中黃色的部分,代表金屬球超出了晶片的大小,簡單去理解就是說把單個芯片上電極和外部的連接點,放到了芯片的外面。


          就制作過程而言,其大致流程是先準備一個載體(通常是玻璃),并在上方涂抹形成一個暫時貼合層。然后把導線重布層(RDL)做到暫時貼合層上方,接著將切割好的晶片放置于導線重布層上方。

          放置芯片的時候,單個芯片中間會留有間隔(形成扇出區(qū))。然后用環(huán)氧樹脂蓋住,再加上外部金屬球,形成一個封裝好的半導體。最后,再整個粘到印刷電路板上面。

          相比于傳統的打線封裝,InFO技術的基本優(yōu)勢是可以實現多個芯片集成封裝,加速信號傳遞,同時借助于結構優(yōu)勢可以實現較低的PDN(power delivery network,電源分配網絡)阻抗,進一步提升能效。


          臺積電面向高性能計算目前基于InFO提出了兩種方案,其中InFO_SoW,屬于業(yè)內首個全晶圓異質集成技術,在帶寬密度和PDN阻抗上都有不錯的表現。

          另外,在散熱處理上,InFO_SoW提供了可擴展的POC熱處理方案。如上圖所示,InFO晶圓上連連接器和分布式功率模塊,下面連接散熱模塊,而底下整體的冷盤(SoW)把散熱效率提高了。對于超算來說,除了帶寬和延遲,散熱也是個不容忽視的問題。


          寫在最后


          超算作為一種生產力工具,可能成為汽車行業(yè)尤其是自動駕駛發(fā)展中的新一個競爭焦點。而在變革過程中,這種變化也在推動著其他先進技術快速應用。特斯拉打造Dojo超算,不僅是特斯拉的“勝利”,也是臺積電的“勝利”。

          參考資料:
          1、臺積電最新先進封裝路線圖揭曉!2035年前實現1μm內SoIC互連
          https://mp.weixin.qq.com/s/eToF_MOOgrowVZsq_xY0xQ
          2、曲博: 臺積電與蘋果合作的關鍵 - FinFET, InFo 先進封裝技術!
          https://www.bilibili.com/video/BV1Ei4y14727/?spm_id_from=333.788.recommend_more_video.1
          3、特斯拉Dojo芯片深度揭秘
          https://mp.weixin.qq.com/s/AklOuYv58W8PjDFuTZVA9A
          4、https://ieeexplore.ieee.org/document/9159219

          下載鏈接:

          干貨揭秘:特斯拉AI Day再放大招

          中國數據處理器行業(yè)概覽(2021)

          DPU在數據中心和邊緣云上的應用

          英偉達DPU集數據中心于芯片


          本號資料全部上傳至知識星球,更多內容請登錄智能計算芯知識(知識星球)星球下載全部資料。





          免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均注明來源,發(fā)布文章若存在版權等問題,請留言聯系刪除,謝謝。



          電子書<服務器基礎知識全解(終極版)>更新完畢,知識點深度講解,提供182頁完整版下載。

          獲取方式:點擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。



          溫馨提示:

          請搜索“AI_Architect”或“掃碼”關注公眾號實時掌握深度技術分享,點擊“閱讀原文”獲取更多原創(chuàng)技術干貨。


          瀏覽 92
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男人天堂网av | 啪啪啪网站大全 | 成年人视频免费 | 日韩一级黄色电影 | 欧美色图中文字幕 |