<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超萬卡集群的新型智算技術(shù)

          共 8461字,需瀏覽 17分鐘

           ·

          2024-05-18 15:51

          隨著大模型從千億參數(shù)的自然語言模型向萬億參數(shù)的多模態(tài)模型升級(jí)演進(jìn),超萬卡集群亟需全面提升底層計(jì)算能力。具體而言,包括增強(qiáng)單芯片能力、提升超節(jié)點(diǎn)計(jì)算能力、基于DPU(Data Processing Unit)實(shí)現(xiàn)多計(jì)算能力融合以及追求極致算力能效比。這些系統(tǒng)性的提升將共同支持更大規(guī)模的模型訓(xùn)練和推理任務(wù),滿足迅速增長(zhǎng)的業(yè)務(wù)需求。

          下載鏈接
          面向超萬卡集群的新型智算技術(shù)白皮書(2024)
          《大模型與網(wǎng)絡(luò)通信技術(shù)合集》
          1、生成式大模型承載網(wǎng)絡(luò)技術(shù)探索 
          2、通信網(wǎng)絡(luò)與大模型的融合與協(xié)同
          《第三代化合物半導(dǎo)體技術(shù)研究合集(3)》
          1、第三代半導(dǎo)體報(bào)告:中國(guó)氮化鎵行業(yè)概覽 
          2、氮化鎵:第三代半導(dǎo)體后起之秀,下游滲透潛力巨大 
          3、國(guó)產(chǎn)第三代半導(dǎo)體公司的發(fā)展現(xiàn)狀研究 
          4、碳化硅(SiC)行業(yè)深度:市場(chǎng)空間、未來展望、產(chǎn)業(yè)鏈及公司深度梳理
          《第三代化合物半導(dǎo)體技術(shù)研究合集(2)》
          1、中國(guó)SiC碳化硅器件行業(yè)深度研究報(bào)告 
          2、八大維度解析:功率公司碳化硅、IGBT、分立器件哪家強(qiáng)? 
          3、半導(dǎo)體材料系列:第三代半導(dǎo)體碳化硅行業(yè)前瞻
          4、中國(guó)芯未來夢(mèng):2023半導(dǎo)體洞察報(bào)告
          《第三代化合物半導(dǎo)體技術(shù)研究合集(1)》
          1、第三代半導(dǎo)體行業(yè)深度報(bào)告 
          2、碳化硅行業(yè)深度:碳化硅,核心優(yōu)勢(shì)、產(chǎn)業(yè)鏈及相關(guān)公司深度梳理 
          3、III-V族化合物半導(dǎo)體研究框架
          《2024年大模型體系核心技術(shù)合集》
          1、大語言模型算法演進(jìn)綜述
          2、大模型訓(xùn)練技術(shù)綜述 
          3、大語言模型時(shí)代的智能運(yùn)維 
          4、大模型知識(shí)管理系統(tǒng) 
          5、大模型關(guān)鍵技術(shù)與應(yīng)用
          智能算力核心基礎(chǔ)系統(tǒng)軟件的現(xiàn)狀與展望


          1、單芯片能力

          超萬卡集群中,單芯片能力包括單個(gè)GPU的計(jì)算性能和GPU顯存的訪問性能。在單個(gè)GPU計(jì)算性能方面,首先需要設(shè)計(jì)先進(jìn)的GPU處理器,在功耗允許條件下,研發(fā)單GPU更多并行處理核心,努力提高運(yùn)行頻率。其次,通過優(yōu)化高速緩存設(shè)計(jì),減少GPU訪問內(nèi)存延遲,進(jìn)一步提升單GPU芯片運(yùn)行效率。第三,優(yōu)化浮點(diǎn)數(shù)表示格式,探索從FP16到FP8浮點(diǎn)數(shù)的表示格式,通過在芯片中引入新的存儲(chǔ)方式和精度,在保持一定精度條件下,大幅提升計(jì)算性能。最后,針對(duì)特定計(jì)算任務(wù),可在GPU芯片上集成定制化的硬件加速邏輯單元,這種基于DSA(DomainSpecificArchitecture)的并行計(jì)算設(shè)計(jì),可提升某些特定業(yè)務(wù)領(lǐng)域的計(jì)算速度。

          在GPU顯存訪問性能方面,為了將萬億模型的數(shù)據(jù)布放在數(shù)萬張GPU顯存上,要求顯存支持高帶寬、大容量的能力,確保計(jì)算單元能夠高效完成訪存任務(wù),維持系統(tǒng)的低能耗運(yùn)行。為便捷訪問顯存數(shù)據(jù),建議GPU顯存采用基于2.5D/3D堆疊的HBM技術(shù)[6],減少數(shù)據(jù)傳輸距離,降低訪存延遲,提升GPU計(jì)算單元與顯存之間的互聯(lián)效率。

          通過這些技術(shù)的實(shí)施,超萬卡集群不僅能夠?yàn)橹撬阒行奶峁?qiáng)大的單卡算力處理能力,還能為未來更大規(guī)模的模型訓(xùn)練和推理任務(wù)奠定堅(jiān)實(shí)的硬件基礎(chǔ)。

          2、超節(jié)點(diǎn)計(jì)算能力

          針對(duì)萬億模型的訓(xùn)練與推理任務(wù),特別是在超長(zhǎng)序列輸入和MoE架構(gòu)的應(yīng)用背景下,應(yīng)重點(diǎn)優(yōu)化巨量參數(shù)和龐大數(shù)據(jù)樣本的計(jì)算效率,滿足由此引發(fā)的All2All通信模式下的GPU卡間通信需求。為此,建議超萬卡集群的改進(jìn)策略集中在以下幾個(gè)關(guān)鍵領(lǐng)域:

          ●加速推進(jìn)超越單機(jī)8卡的超節(jié)點(diǎn)形態(tài)服務(wù)器

          為滿足萬億或更大參數(shù)量模型的部署需求,建議產(chǎn)業(yè)界致力于研制突破單機(jī)8卡限制的超節(jié)點(diǎn)形態(tài)服務(wù)器,通過利用提高GPU南向的Scale up互聯(lián)能力,提升張量并行或MoE并行對(duì)大模型訓(xùn)練任務(wù)的收益,實(shí)現(xiàn)性能躍升,縮短訓(xùn)練總時(shí)長(zhǎng),實(shí)現(xiàn)大模型訓(xùn)練整體性能的優(yōu)化。

          ●加快引入面向Scale up的Switch芯片

          建議在節(jié)點(diǎn)內(nèi)集成支持Scale up能力的Switch芯片,以優(yōu)化GPU南向的互聯(lián)效率和規(guī)模,增強(qiáng)張量并行或MoE并行的數(shù)據(jù)傳輸能力。如圖2所示,通過引入節(jié)點(diǎn)內(nèi)的Switch芯片,以增強(qiáng)GPU卡間的點(diǎn)對(duì)點(diǎn)(Point to Point,P2P)帶寬,有效提升節(jié)點(diǎn)內(nèi)的網(wǎng)絡(luò)傳輸效率,滿足大模型日益增長(zhǎng)的GPU互聯(lián)和帶寬需求為大規(guī)模并行計(jì)算任務(wù)提供強(qiáng)有力的硬件支持。

          ●優(yōu)化GPU卡間互聯(lián)協(xié)議

          以實(shí)現(xiàn)通信效率躍升建議對(duì)GPU卡間互聯(lián)協(xié)議進(jìn)行系統(tǒng)性優(yōu)化和重構(gòu),以提升All2All模式下的通信效率。通過重新設(shè)計(jì)卡間通信過程中的數(shù)據(jù)報(bào)文格式、引入CPO/NPO、提高和優(yōu)化SerDes傳輸速率、優(yōu)化擁塞控制和重傳機(jī)制以及多異構(gòu)芯片C2C(Chip-to-Chip)封裝等多種途徑,提高超萬卡集群的GPU卡間互聯(lián)的網(wǎng)絡(luò)利用率,減少通信時(shí)延,實(shí)現(xiàn)帶寬能力躍升,從而支持所需的更高頻次、更大帶寬和更低延遲通信特性。

          3、多計(jì)算能力融合

          面向超萬卡集群,考慮到智算中心內(nèi)部成倍增長(zhǎng)的數(shù)據(jù)交換需求,通過堆疊CPU資源來處理網(wǎng)絡(luò)數(shù)據(jù)的做法無疑是低效且昂貴的,對(duì)此,智算中心的計(jì)算架構(gòu)需要轉(zhuǎn)變方向,將原本運(yùn)行在CPU、GPU中的數(shù)據(jù)處理任務(wù)卸載至具有層級(jí)化可編程、低時(shí)延網(wǎng)絡(luò)、統(tǒng)一管控等特性的DPU上執(zhí)行,在大幅擴(kuò)展節(jié)點(diǎn)間算力連接能力的同時(shí),釋放CPU、GPU的算力,降低節(jié)點(diǎn)間的CPU、GPU協(xié)作成本,支撐集群發(fā)揮更大的效能。

          具體地,可以對(duì)智算中心進(jìn)行軟硬一體重構(gòu),打造計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全、管控五大引擎,定義標(biāo)準(zhǔn)化的DPU片上驅(qū)動(dòng)內(nèi)核:

          ●計(jì)算引擎卸載加速I/O設(shè)備的數(shù)據(jù)路徑與控制路徑,面向節(jié)點(diǎn)提供標(biāo)準(zhǔn)化的virtio-net(Virtual l/O Network)、virtio-blk(Virtiual l/O block)后端接口,屏蔽廠商專用驅(qū)動(dòng)。

          ●存儲(chǔ)引擎在DPU上實(shí)現(xiàn)存儲(chǔ)后端接口,可基于傳統(tǒng)TCP/IP網(wǎng)絡(luò)協(xié)議棧或RDMA(Remote Direct Memory Access)網(wǎng)絡(luò)功能連接塊存儲(chǔ)集群、對(duì)象存儲(chǔ)集群、文件存儲(chǔ)集群及文件存儲(chǔ)集群,將節(jié)點(diǎn)的全類型存儲(chǔ)任務(wù)卸載至DPU中完成。

          ●網(wǎng)絡(luò)引擎將虛擬交換機(jī)卸載至DPU上,采用標(biāo)準(zhǔn)的流表和卸載接口實(shí)現(xiàn)網(wǎng)絡(luò)流量的卸載,全線速釋放硬件性能;同時(shí)集成RDMA網(wǎng)絡(luò)功能,降低多機(jī)多卡間端到端通信時(shí)延,提升多機(jī)間端到端通信帶寬至400G級(jí)別,構(gòu)建節(jié)點(diǎn)間數(shù)據(jù)交換的“高速通道”。

          ●安全引擎通過信任根機(jī)制以及標(biāo)準(zhǔn)的IPsec等加密通訊協(xié)議對(duì)系統(tǒng)和多租戶網(wǎng)絡(luò)進(jìn)行安全防護(hù),并基于DPU提供有效的卸載方案。

          ●管控引擎屏蔽裸金屬、虛擬機(jī)和容器等算力單元的形態(tài)差異,實(shí)現(xiàn)DPU資源統(tǒng)一管理和全鏈路管控運(yùn)維。

          ●  以上述五大引擎為藍(lán)圖,中國(guó)移動(dòng)于2020開始打造具有自主知識(shí)產(chǎn)權(quán)的磐石DPU,并于2021年正式推出磐石DPU版本。經(jīng)過移動(dòng)云現(xiàn)網(wǎng)的打磨,中國(guó)移動(dòng)持續(xù)升級(jí)磐石DPU產(chǎn)品能力,并于2024年將磐石DPU的FPGA架構(gòu)全面升級(jí)為ASIC架構(gòu),旨在圍繞磐石DPU軟硬融合重構(gòu)算力基礎(chǔ)設(shè)施,重新定義算力時(shí)代云計(jì)算技術(shù)新標(biāo)準(zhǔn),構(gòu)建算力時(shí)代新技術(shù)曲線。

          將以磐石DPU為代表的DPU芯片融入現(xiàn)有智算中心技術(shù)體系,將算力集群由CPU+GPU雙平臺(tái)支撐擴(kuò)展至由CPU+GPU+DPU三平臺(tái)支撐,可以有效聯(lián)合集群節(jié)點(diǎn)間因數(shù)據(jù)I/O瓶頸而產(chǎn)生的算力孤島,突破現(xiàn)有技術(shù)架構(gòu)下的集群規(guī)模極限,使超萬卡集群成為可能。

          4、極致算力能效比

          在制程工藝相對(duì)固定的條件下,芯片的高性能無疑會(huì)增加芯片的功耗,從而影響整機(jī)的散熱。面對(duì)高性能計(jì)算芯片功率密度急劇上升的現(xiàn)狀,需要通過制冷系統(tǒng)和GPU芯片兩方面進(jìn)行優(yōu)化。

          在制冷系統(tǒng)方面,當(dāng)前單機(jī)8卡GPU  服務(wù)器功耗已經(jīng)數(shù)倍于通用服務(wù)器,由于GPU的散熱量大幅增加,為了增加計(jì)算密度,節(jié)省空間,超萬卡集群建議采用當(dāng)前較成熟的高密度冷板式液冷機(jī)柜,一個(gè)液冷機(jī)柜可容納多臺(tái)液冷GPU訓(xùn)練服務(wù)器,相比傳統(tǒng)風(fēng)冷機(jī)柜大幅提升空間利用率。

          在GPU芯片方面,為了提升GPU單芯片的能效比,應(yīng)采取多領(lǐng)域的優(yōu)化策略,實(shí)現(xiàn)高性能與低能耗之間的平衡。在芯片工藝領(lǐng)域,建議采用更加先進(jìn)的半導(dǎo)體制造工藝,如7nm或更小的特征尺寸,以此降低晶體管的功耗,同時(shí)提升單芯片集成度。此外,應(yīng)加強(qiáng)超萬卡集群內(nèi)GPU架構(gòu)的創(chuàng)新設(shè)計(jì),包括優(yōu)化片上總線設(shè)計(jì)、改進(jìn)流水線結(jié)構(gòu)、優(yōu)化電壓和頻率策略以及精確的時(shí)鐘門控技術(shù),從而在不同工作狀態(tài)下實(shí)現(xiàn)最優(yōu)的能耗效率。在軟件層面,超萬卡集群應(yīng)采用更加精細(xì)的監(jiān)控和分析,實(shí)時(shí)跟蹤GPU的運(yùn)行數(shù)據(jù),并不斷優(yōu)化算法和工作負(fù)載分配,以實(shí)現(xiàn)更加均衡和高效的算力利用。通過上述設(shè)計(jì)和優(yōu)化,不僅能提高用戶的計(jì)算體驗(yàn),降低成本,也為智算中心可持續(xù)發(fā)展和綠色環(huán)保提出了可行方案。

          5、高性能融合存儲(chǔ)技術(shù)

          為了實(shí)現(xiàn)存儲(chǔ)空間高效利用、數(shù)據(jù)高效流動(dòng),并支持智算集群大規(guī)模擴(kuò)展,超萬卡集群應(yīng)采用多協(xié)議融合和自動(dòng)分級(jí)存儲(chǔ)技術(shù),提升智算數(shù)據(jù)處理效率,助力超萬卡集群支撐千億乃至萬億大模型訓(xùn)練。

          6、多協(xié)議融合

          超萬卡集群融合存儲(chǔ)底座承載Al全流程業(yè)務(wù)數(shù)據(jù)處理,兼容Al全流程工具鏈所需的NFS(Network File System)、S3(Sample Storage Service)和并行客戶端POSIX(Portable Operating System Interface)等協(xié)議,支持各協(xié)議語義無損,達(dá)到與原生協(xié)議一樣的生態(tài)兼容性要求,在不同階段實(shí)現(xiàn)數(shù)據(jù)零拷貝和格式零轉(zhuǎn)換,確保前一階段的輸出可以作為后一階段的輸入,實(shí)現(xiàn)Al各階段協(xié)同業(yè)務(wù)的無縫對(duì)接,達(dá)到“零等待”效果,顯著提升大模型訓(xùn)練效率。

          7、集群高吞吐性能

          為滿足超萬卡集群大模型對(duì)于存儲(chǔ)高吞吐性能需求,基于全局文件系統(tǒng)技術(shù),可支持超3000節(jié)點(diǎn)擴(kuò)展規(guī)模,為大模型訓(xùn)練提供百PB級(jí)全閃存儲(chǔ)大集群能力,從閃存密度、數(shù)據(jù)面網(wǎng)絡(luò)、并行客戶端和對(duì)等通信機(jī)制等多個(gè)維度全面提升存儲(chǔ)系統(tǒng)性能,實(shí)現(xiàn)存儲(chǔ)集群10TB/s級(jí)聚合吞吐帶寬、億級(jí)IOPS,智能算力利用率提升20%以上,大模型checkpoint恢復(fù)時(shí)長(zhǎng)從分鐘級(jí)提升至秒級(jí),同時(shí)對(duì)高價(jià)值智算存儲(chǔ)數(shù)據(jù)提供強(qiáng)一致性訪問和99.9999%可靠性能力。

          8、大規(guī)模機(jī)間高可靠網(wǎng)絡(luò)技術(shù)

          超萬卡集群網(wǎng)絡(luò)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)。業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)一般采用傳統(tǒng)的TCP方式部署,參數(shù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)之間參數(shù)交換,要求具備高帶寬無損能力。數(shù)據(jù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)節(jié)點(diǎn),也有高帶寬無損網(wǎng)絡(luò)的訴求。超萬卡集群對(duì)參數(shù)面網(wǎng)絡(luò)要求最高,主要體現(xiàn)在四個(gè)方面:大規(guī)模,零丟包,高吞吐,高可靠。

          目前業(yè)界成熟的參數(shù)面主要包括IB(InfiniBand)和RoCE兩種技術(shù)。面向未來Al大模型演進(jìn)對(duì)網(wǎng)絡(luò)提出的大規(guī)模組網(wǎng)和高性能節(jié)點(diǎn)通信需求,業(yè)界也在探索基于以太網(wǎng)新一代智算中心網(wǎng)絡(luò)技術(shù),包括由中國(guó)移動(dòng)主導(dǎo)的全調(diào)度以太網(wǎng)(GlobalScheduled Ethernet,GSE)方案[6]和Linux Foundation成立的超以太網(wǎng)聯(lián)盟(UltraEthernet Consortium,UEC),兩者通過革新以太網(wǎng)現(xiàn)有通信棧,突破傳統(tǒng)以太網(wǎng)性能瓶頸,為后續(xù)人工智能和高性能計(jì)算提供高性能網(wǎng)絡(luò)。中國(guó)移動(dòng)也將加速推動(dòng)GSE技術(shù)方案和產(chǎn)業(yè)成熟,提升Al網(wǎng)絡(luò)性能,充分釋放GPU算力,助力Al產(chǎn)業(yè)發(fā)展。

          9、大規(guī)模組網(wǎng)

          根據(jù)不同的Al服務(wù)器規(guī)模,參數(shù)面網(wǎng)絡(luò)推薦采用Spine-Leaf兩層組網(wǎng)或胖樹(Fat-Tree)組網(wǎng)。

          Spine-Leaf兩層組網(wǎng)如圖3所示。每8臺(tái)Leaf交換機(jī)和下掛的Al服務(wù)器做為一個(gè)group,以group為單位進(jìn)行擴(kuò)展。在group內(nèi)部,推薦采用多軌方案將Al服務(wù)器連接至Leaf交換機(jī),即所有Al服務(wù)器的1號(hào)網(wǎng)口都上連至Leafl,所有2號(hào)網(wǎng)口上連至Leaf2,依此類推,所有8號(hào)網(wǎng)口上連至Leaf8。Spine交換機(jī)和Leaf交換機(jī)之間采用Fullmesh全連接。Leaf交換機(jī)上下行收斂比為1:1。

          胖樹(Fat-Tree)組網(wǎng)由Leaf交換機(jī)、Spine交換機(jī)和Core交換機(jī)組成,如圖4所示。每8臺(tái)Leaf交換機(jī)和下掛的Al服務(wù)器做為一個(gè)group,8臺(tái)Leaf交換機(jī)又和上面N臺(tái)Spine交換機(jī)組成一個(gè)pod,胖樹組網(wǎng)以pod為單位進(jìn)行擴(kuò)展。在胖樹組網(wǎng)中,Spine交換機(jī)和Leaf交換機(jī)之間采用Fullmesh全連接,所有Spinel都Full-Mesh連接至第一組Core,所有Spine2都Full-Mesh連接至第二組Core,依次類推。Spine交換機(jī)和Leaf交換機(jī)上下行收斂比都為1:1。

          10、高容錯(cuò)高效能平臺(tái)技術(shù)

          智算平臺(tái)是智算中心承載模型訓(xùn)練、推理和部署的綜合性平臺(tái)系統(tǒng),在智算中心技術(shù)體系架構(gòu)中承擔(dān)著重要的角色,對(duì)算力基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一納管、調(diào)度、分配和全生命周期管理,主要包含對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等laaS資源的云化管控,在此基礎(chǔ)上通過云原生的容器底座能力,實(shí)現(xiàn)智算資源納管分配、Al任務(wù)作業(yè)調(diào)度、拓?fù)涓兄{(diào)度、訓(xùn)練全鏈路監(jiān)控等滿足智算業(yè)務(wù)的核心需求。

          11、斷點(diǎn)續(xù)訓(xùn)高容錯(cuò)能力

          大模型訓(xùn)練面臨的困難在于確保訓(xùn)練任務(wù)能夠持續(xù)進(jìn)行而不中斷。在訓(xùn)練過程中,可能會(huì)遇到硬件故障、軟件故障、網(wǎng)絡(luò)故障以及其他故障。這種頻繁中斷導(dǎo)致的訓(xùn)練進(jìn)度的損失對(duì)于耗時(shí)又耗資源的大模型訓(xùn)練來說是難以承受的,需要具備自動(dòng)故障檢測(cè)和訓(xùn)練重啟。當(dāng)前業(yè)界大模型訓(xùn)練主要容錯(cuò)方案依賴于訓(xùn)練過程中周期性保存checkpoint,故障發(fā)生后從上一個(gè)周期性checkpoint重新啟動(dòng)訓(xùn)練。

          基于平臺(tái)的運(yùn)維監(jiān)控能力,可以實(shí)現(xiàn)對(duì)超萬卡集群的軟硬件故障檢測(cè)和預(yù)警,但是當(dāng)故障發(fā)生且導(dǎo)致模型訓(xùn)練中斷或停止時(shí),通常需要人工介入排查故障信息,隔離故障并重新觸發(fā)容器pod資源調(diào)度,重新完成并行訓(xùn)練中集合通信的初始化,重新加載基于中斷前最近一次保存的checkpoint信息,最后經(jīng)歷算子庫的重新編譯,完成訓(xùn)練任務(wù)的繼續(xù)。

          在斷點(diǎn)續(xù)訓(xùn)過程中,checkpoint是模型中斷訓(xùn)練后恢復(fù)的關(guān)鍵點(diǎn),因此checkpoint密集程度、保存和恢復(fù)的性能尤為重要,checkpoint本身的耗時(shí)與模型的大小成正比,當(dāng)模型參數(shù)達(dá)到百億甚至千億時(shí),checkpoint的時(shí)間開銷通常在幾分鐘到十幾分鐘之間。此時(shí),訓(xùn)練任務(wù)需要暫停,使得用戶難以頻繁進(jìn)行checkpoint操作,因此為保證訓(xùn)練效率,會(huì)適當(dāng)拉長(zhǎng)checkpoint保存周期。然而,一旦發(fā)生中斷,之前損失的迭代次數(shù)在恢復(fù)時(shí)需要重新計(jì)算,需要花費(fèi)更長(zhǎng)的時(shí)間。

          為解決該問題,需要盡量降低checkpoint流程的開銷,既能大幅降低訓(xùn)練暫停時(shí)間,也能支持高頻的checkpoint來減少容錯(cuò)時(shí)浪費(fèi)的迭代步數(shù)。業(yè)界通常采用checkpoint多級(jí)存儲(chǔ)的方式,構(gòu)建基于更高10性能的內(nèi)存介質(zhì)構(gòu)建存儲(chǔ)系統(tǒng),相比于磁盤或者網(wǎng)絡(luò)文件存儲(chǔ)系統(tǒng),checkpoint在內(nèi)存空間的保存可以大幅縮短訓(xùn)練暫停等待時(shí)間。同時(shí),結(jié)合業(yè)務(wù)需求定期地將checkpoint異步寫入到持久化的存儲(chǔ)系統(tǒng)中,異步流程不干擾正常的訓(xùn)練。當(dāng)發(fā)生故障導(dǎo)致訓(xùn)練任務(wù)重啟時(shí),由于內(nèi)存系統(tǒng)中的checkpoint數(shù)據(jù)并未丟失,新啟動(dòng)的訓(xùn)練進(jìn)程可以直接讀取內(nèi)存系統(tǒng)中的checkpoint數(shù)據(jù)來加載模型和優(yōu)化器狀態(tài),從而省去了讀取網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)的IO開銷。

          下載鏈接:
          計(jì)算機(jī)行業(yè)專題報(bào)告:大模型進(jìn)展2.0
          2024電源管理芯片產(chǎn)業(yè)分析報(bào)告

          量子計(jì)算:打破傳統(tǒng)范式,通用計(jì)算應(yīng)用可期

          面向超萬卡集群的新型智算技術(shù)白皮書(2024)

          《NVIDIA BlueField系列合集》

          1、NVIDIA BlueField:BlueField產(chǎn)品更新介紹 2、NVIDIA BlueField:BlueField硬件系統(tǒng)介紹
          3、NVIDIA BlueField:BlueField DPU NVQual Overview
          《AI Agent技術(shù)應(yīng)用合集》
          1、面向辦公自動(dòng)化領(lǐng)域的 AI Agent 建設(shè)思考與分享 2、AI Agent 在企業(yè)經(jīng)營(yíng)分析場(chǎng)景的落地 3、LLM和Multi-Agent在運(yùn)維領(lǐng)域的實(shí)驗(yàn)探索
          《大模型技術(shù)在行業(yè)應(yīng)用實(shí)踐合集(1)》
          1、基于多模態(tài)智能引擎大模型知識(shí)庫技術(shù)應(yīng)用 2、餓了么垂域大模型EGPT訓(xùn)練與C端應(yīng)用實(shí)踐 3、金山云:大模型推動(dòng)知識(shí)工作領(lǐng)域的創(chuàng)新與變革 4、超大規(guī)模集群下大語言模型訓(xùn)練的最佳實(shí)踐 5、螞蟻大模型存儲(chǔ)加速實(shí)踐
          《大模型技術(shù)在行業(yè)應(yīng)用實(shí)踐合集(2)》
          1、大模型數(shù)據(jù)安全:從測(cè)評(píng)到實(shí)時(shí)檢測(cè)的全流程實(shí)踐 2、大模型原生應(yīng)用產(chǎn)品設(shè)計(jì)的前沿探索 3、海天瑞聲在大模型數(shù)據(jù)的探索與實(shí)踐 4、類 Sora 開源架構(gòu)模型訓(xùn)練實(shí)踐 5、大模型 AI 訓(xùn)練的數(shù)據(jù)存儲(chǔ)加速
          《大模型技術(shù)在行業(yè)應(yīng)用實(shí)踐合集(3)》
          1、基于 AI 大模型生成微信小程序的探索與實(shí)踐 2、教育大模型,說你行你才行 3、大模型賦能的數(shù)據(jù)資產(chǎn)平臺(tái)構(gòu)建實(shí)踐 4、大規(guī)模微服務(wù)破局之道:合并編譯 5、大規(guī)模工程及領(lǐng)域架構(gòu)治理與服務(wù)架構(gòu)合理性的度量
          《大模型技術(shù)在行業(yè)應(yīng)用實(shí)踐合集(4)》
          1、MoonBit 月兔:大語言模型時(shí)代的軟件開發(fā)起點(diǎn) 2、AI 大模型技術(shù)在數(shù)據(jù)庫 DevOps 的實(shí)踐 3、大模型應(yīng)用開發(fā)新范式 4、大模型賦能 DevOps,研發(fā)全環(huán)節(jié)提速 5、大模型技術(shù)在快手搜索的應(yīng)用 6、快意大模型在短視頻互動(dòng)場(chǎng)景的應(yīng)用探索
          《超大模型訓(xùn)練技術(shù)合集》
          1、超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型M6的關(guān)鍵技術(shù)突破及產(chǎn)業(yè)應(yīng)用 2、高效訓(xùn)練百萬億參數(shù)預(yù)訓(xùn)練模型的系統(tǒng)挑戰(zhàn)和對(duì)策
          量子科技專題系列一:逐夢(mèng)量子,星辰大海(2024)
          《2024年AI及大模型報(bào)告合集》
          1、2024人形機(jī)器人行業(yè)研究報(bào)告 2、2024中國(guó)AI Agent行業(yè)研究報(bào)告 3、2024人工智能與職場(chǎng)研究報(bào)告 4、2024大型語言模型行業(yè)圖譜研究報(bào)告 5、2024大模型驅(qū)動(dòng)的汽車行業(yè)群體智能技術(shù)白皮書 6、2024大語言模型綜合能力測(cè)評(píng)報(bào)告
          2024洞悉AI人群新范式:AI機(jī)會(huì)人群社媒研究報(bào)告暨人群工廠系列白皮書
          2024中國(guó)空間計(jì)算行業(yè)概覽:空間計(jì)算先行,軟硬件內(nèi)容生態(tài)共振(摘要版)
          企業(yè)競(jìng)爭(zhēng)圖譜:2024年AIPC(人工智能個(gè)人電腦)

          500+份重磅ChatGPT專業(yè)報(bào)告(合集)

          AI服務(wù)器催化HBM需求爆發(fā),核心工藝變化帶來供給端增量(2024)
          2024計(jì)算機(jī)行業(yè)策略:落地為王
          2023年度全球十大技術(shù)關(guān)鍵詞報(bào)告
          多樣性算力技術(shù)愿景白皮書
          《AI算力芯片產(chǎn)業(yè)鏈及全景圖》
          1、AI算力產(chǎn)業(yè)鏈?zhǔn)崂恚?023) 2、國(guó)產(chǎn)AI算力芯片全景圖
          芯片未來可期:數(shù)據(jù)中心、國(guó)產(chǎn)化浪潮和先進(jìn)封裝(精華)


          本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。




          免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請(qǐng)留言聯(lián)系刪除,謝謝。


          溫馨提示:

          請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

          瀏覽 211
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产久久婷婷 | 欧美久久免费 | 亚州国产色婷婷 | 国产刺激高潮 | xxx国产在线免费观看 |