異構(gòu)算力統(tǒng)一標(biāo)識(shí)與服務(wù)白皮書(shū)(附下載)


文章參考“異構(gòu)算力統(tǒng)一標(biāo)識(shí)與服務(wù)白皮書(shū)”,白皮書(shū)內(nèi)容覆蓋 異構(gòu)算力產(chǎn)業(yè)發(fā)展現(xiàn)狀、 異構(gòu)算力發(fā)展需求、異構(gòu)算力統(tǒng)一標(biāo)識(shí)和資源抽象等。
下載鏈接:異構(gòu)算力統(tǒng)一標(biāo)識(shí)與服務(wù)白皮書(shū)
當(dāng)前算力網(wǎng)絡(luò)架構(gòu)中的算力可以由不同的硬件架構(gòu)組成,一般包括 CPU、GPU、FPGA 和 AISC 等類型;CPU 主要有 X86 和 ARM,雖然 ARM 設(shè)計(jì)之初作為面向低功耗等場(chǎng)景推出的定制化的 ASIC 芯片,但是隨著 ARM 在服務(wù)器和嵌入式終端的廣泛應(yīng)用,目前也是作為通用芯片來(lái)應(yīng)用和部署;GPU 主要是快速實(shí)現(xiàn)矢量的圖形化數(shù)據(jù)處理的專有架構(gòu);FPGA 作為可編程邏輯門(mén)電路在硬件加速等方面具有優(yōu)勢(shì);而面向特定場(chǎng)景的處理需求需定制專用芯片來(lái)進(jìn)行處理,比如當(dāng)前針對(duì)深度學(xué)習(xí)設(shè)計(jì)的各種 TPU、NPU 屬于領(lǐng)域的定制的 ASIC。

CPU 采用馮諾依曼架構(gòu),將計(jì)算分為取指、譯碼、發(fā)射、執(zhí)行、寫(xiě)回等幾個(gè)階段,通過(guò)軟件調(diào)度,可以完成任意特點(diǎn)計(jì)算。當(dāng)前 CPU 的架構(gòu)已經(jīng)相當(dāng)復(fù)雜,并且真正有效計(jì)算在 CPU 整體功耗比例中不到 10%,所以 CPU 適合控制復(fù)雜,而計(jì)算密度不高的應(yīng)用場(chǎng)景。X86 CPU 在數(shù)據(jù)中心和云計(jì)算領(lǐng)域具有統(tǒng)治地位,而ARM CPU 由于其低功耗、低成本的特點(diǎn)占據(jù)絕大部分終端市場(chǎng)。另一方面,隨著國(guó)內(nèi)在推動(dòng)國(guó)產(chǎn)化服務(wù)器的布局,ARM 服務(wù)器也已經(jīng)逐漸進(jìn)入數(shù)據(jù)中心作為異構(gòu)算力的組成部分。
GPU 采用的是 SIMD/SIMT 架構(gòu),雖然本質(zhì)上還是馮諾依曼架構(gòu),但減少了取值、譯碼開(kāi)銷(xiāo),GPU 同樣具有很強(qiáng)的通用性,以 NVIDIA 為代表的 GPU 廠商,培養(yǎng)了非常好的 GPU 生態(tài)系統(tǒng),為用戶提供了非常方便的開(kāi)發(fā)環(huán)境,所以 GPU 在高性能計(jì)算、圖像處理和 AI 領(lǐng)域都有非常廣泛的應(yīng)用。
FPGA 為現(xiàn)場(chǎng)可編程門(mén)電路,可以認(rèn)為是細(xì)粒度可重構(gòu)芯片,F(xiàn)PGA 非常適合數(shù)據(jù)流驅(qū)動(dòng)的計(jì)算架構(gòu),具有高空間并發(fā)和低時(shí)延的特點(diǎn),理論上 FPGA 可以實(shí)現(xiàn)任意功能,但 FPGA 開(kāi)發(fā)周期比較長(zhǎng),同時(shí)對(duì)開(kāi)發(fā)人員的專業(yè)技能要求也比較高,這些都影響了 FPGA 的應(yīng)用場(chǎng)景。
ASIC 是一種專用芯片,與傳統(tǒng)的通用芯片有一定的差異,是為了某種特定的需求而專門(mén)定制的芯片。ASIC 芯片的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,所以 ASIC 與通用芯片相比,具有以下幾個(gè)方面的優(yōu)越性:體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低。但是缺點(diǎn)也很明顯,只能針對(duì)特定的某個(gè)或某幾個(gè)應(yīng)用場(chǎng)景,一旦算法和流程變更可能導(dǎo)致 ASIC無(wú)法滿足業(yè)務(wù)需求。
高性能計(jì)算 HPC,主要應(yīng)用在氣象、地震、勘探等科學(xué)計(jì)算領(lǐng)域,一般是建設(shè)一定規(guī)模的計(jì)算集群通過(guò)高速網(wǎng)絡(luò)互聯(lián)。高性能計(jì)算項(xiàng)目中的算力一般使用X86 CPU 和中高端 GPU,近期 ARM 處理器的集群逐漸增多,在某些專用領(lǐng)域也可使用 FPGA 和 ASIC 來(lái)加速計(jì)算。
另外一種 HPC 的方案是分布式計(jì)算,利用分散的計(jì)算機(jī)和其它終端的閑置處理能力來(lái)解決大型計(jì)算問(wèn)題,如生物病理研究、藥物研究、尋找地外文明的信號(hào)等項(xiàng)目。主要利用的是 X86 CPU、消費(fèi)級(jí)的顯卡等算力資源。

物聯(lián)網(wǎng)(IOT)通過(guò)各種信息傳感器設(shè)備,實(shí)時(shí)采集任何需要監(jiān)控、連接、互動(dòng)的物體或過(guò)程,采集其聲、光、熱等各種需要的信息,通過(guò)各類網(wǎng)絡(luò)接入,實(shí)現(xiàn)物與物、物與人的泛在連接,實(shí)現(xiàn)對(duì)物品和過(guò)程的智能化感知、識(shí)別和管理。
物聯(lián)網(wǎng)的應(yīng)用場(chǎng)景包括工業(yè)物聯(lián)網(wǎng)、家庭物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等各種應(yīng)用場(chǎng)景。物聯(lián)網(wǎng)網(wǎng)關(guān)通過(guò)支持各種協(xié)議將數(shù)據(jù)收集、轉(zhuǎn)換、傳送到云端進(jìn)行處理,不同應(yīng)用場(chǎng)景對(duì)物聯(lián)網(wǎng)網(wǎng)關(guān)的性能要求差別較大,傳統(tǒng)的物聯(lián)網(wǎng)網(wǎng)關(guān)采用配置低功耗 X86 或者 ARM 處理器的小型計(jì)算設(shè)備。物聯(lián)網(wǎng)網(wǎng)關(guān)的趨勢(shì)是承擔(dān)更多的數(shù)據(jù)處理的任務(wù),對(duì)算力的要求越來(lái)越高。
IOT 從傳感器收集數(shù)據(jù),網(wǎng)關(guān)做初步計(jì)算分析,在邊緣云處做本地分析和處理,然后匯聚到數(shù)據(jù)中心,進(jìn)行大數(shù)據(jù)處理和分析。

邊緣計(jì)算和 5G 的大帶寬、低延時(shí)相輔相成,邊緣計(jì)算是在網(wǎng)絡(luò)邊緣為應(yīng)用開(kāi)發(fā)者和內(nèi)容服務(wù)商提供所需的云端計(jì)算功能、互聯(lián)網(wǎng)技術(shù)服務(wù)環(huán)境等。邊緣計(jì)算在靠近數(shù)據(jù)源、終端設(shè)備的位置對(duì)數(shù)據(jù)進(jìn)行處理。邊緣計(jì)算對(duì)算力的要求較高,在視頻和圖像識(shí)別、語(yǔ)音識(shí)別等場(chǎng)景需要較大算力,需配置 SoC、GPU、ASIC 或FPGA 等加速處理芯片。邊緣計(jì)算所需算力分布廣泛,可分布于智能裝備、工業(yè)控制器、傳感器、ICT 融合網(wǎng)關(guān)和邊緣云等處。

人工智能研究的主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。人工智能的研究領(lǐng)域包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。人工智能的三要素是算力、算法和數(shù)據(jù)。人工智能的算力主要是 GPU、ASIC、FPGA、TPU 等。人工智能在不同層面使用不同算力水平的 GPU,如手機(jī)終端上的 GPU、邊緣計(jì)算中的推理 GPU、數(shù)據(jù)中心的訓(xùn)練 GPU。

異構(gòu)算力的統(tǒng)一標(biāo)識(shí)是實(shí)現(xiàn)在算力網(wǎng)絡(luò)連接范圍內(nèi)異構(gòu)芯片的統(tǒng)一標(biāo)識(shí)。實(shí)現(xiàn)異廠家和多數(shù)據(jù)中心算力資源接入算力網(wǎng)絡(luò)內(nèi)部以期能夠共同打造算力流通,算力溯源以及確保數(shù)據(jù)在可信算力環(huán)境中可管可控提供切實(shí)有效的保障機(jī)制。建立異構(gòu)算力統(tǒng)一標(biāo)識(shí),其出發(fā)點(diǎn)主要基于以下三個(gè)方面:
可信算力:基于統(tǒng)一標(biāo)識(shí),實(shí)現(xiàn)算力可信接入、安全認(rèn)證和鑒權(quán),打造算力安全有效的計(jì)算環(huán)境,切實(shí)保障算力網(wǎng)絡(luò)安全有效的生態(tài)環(huán)境;
算力溯源:基于統(tǒng)一標(biāo)識(shí),可以實(shí)現(xiàn)算力溯源,實(shí)現(xiàn)算力在云、邊、端側(cè)的溯源和安全等級(jí);
算力度量:基于統(tǒng)一標(biāo)識(shí),構(gòu)建算力度量,實(shí)現(xiàn)算力在分場(chǎng)景下的算力匹配和專家推薦,從而實(shí)現(xiàn)算力在聯(lián)盟范圍內(nèi)的流通。
異構(gòu)算力統(tǒng)一標(biāo)識(shí)和認(rèn)證體系架構(gòu)保障在一個(gè)算力聯(lián)盟內(nèi)部接入的算力資源提供切實(shí)可信的計(jì)算環(huán)境和算力溯源機(jī)制,從而讓上層用戶應(yīng)用程序能夠在保證數(shù)據(jù)安全、穩(wěn)定、有效的計(jì)算環(huán)境中正常運(yùn)行和處理;同時(shí),結(jié)合不同應(yīng)用場(chǎng)景提供算力度量機(jī)制,為算力流通提供可度量、可推薦的算力評(píng)價(jià)機(jī)制。

依據(jù)上述架構(gòu)圖,異構(gòu)算力統(tǒng)一標(biāo)識(shí)在原有多云接入方式下,通過(guò)各家廠商的云系統(tǒng)的 PIM 接口上報(bào)異構(gòu)算力的具體信息,對(duì)于非云系統(tǒng)采用其他適配層的方式納管算力資源。
在算力接入過(guò)程中需要通過(guò)第三方認(rèn)證中心進(jìn)行算力認(rèn)證并且發(fā)放簽名證書(shū)并通過(guò)操作系統(tǒng)保存在可信區(qū)中。當(dāng)算力經(jīng)過(guò)自有云系統(tǒng)或者第三方接口上報(bào)至統(tǒng)一資源模型時(shí),需要憑借授權(quán)的證書(shū)進(jìn)行認(rèn)證鑒權(quán),只有經(jīng)過(guò)認(rèn)證合法的算力才能夠作為可信算力納入到算力管理中,并且經(jīng)過(guò)統(tǒng)一資源模型成為算力資源。
為了給上層用戶提供安全可靠的異構(gòu)算力使用生態(tài)環(huán)境,包括中國(guó)聯(lián)通在內(nèi)的整個(gè)行業(yè)實(shí)現(xiàn)異構(gòu)算力公平可靠的流通,數(shù)據(jù)能夠在可管可控的可信計(jì)算環(huán)境下安全有效的進(jìn)行處理。需要具有公立的第三方安全可靠的鑒權(quán)認(rèn)證中心實(shí)現(xiàn)可信算力的認(rèn)證鑒權(quán),并且為了能夠降低算力使用者的使用門(mén)檻,需要構(gòu)建統(tǒng)一的資源模型,進(jìn)行有效的管理,并且能夠建立標(biāo)準(zhǔn)的算力度量機(jī)制,從而保障算力公平、可靠的流通。
異構(gòu)算力的統(tǒng)一調(diào)度系統(tǒng)框架,按照分層結(jié)構(gòu),其總體技術(shù)架構(gòu)如下圖所示:

面向異構(gòu)計(jì)算節(jié)點(diǎn)資源實(shí)現(xiàn)統(tǒng)一的資源實(shí)時(shí)感知,并且對(duì)上層提供資源抽象和應(yīng)用調(diào)度抽象,以滿足上層多場(chǎng)景需求的使用,具體如下:
該層銜接應(yīng)用業(yè)務(wù)對(duì)資源的需求與系統(tǒng)資源的統(tǒng)一調(diào)度,以用戶友好的應(yīng)用資源需求表示方式和交互界面屏蔽異構(gòu)算力的資源調(diào)度復(fù)雜性,實(shí)現(xiàn)調(diào)度器使用者與統(tǒng)一調(diào)度系統(tǒng)之間對(duì)作業(yè)的聯(lián)動(dòng)控制和實(shí)時(shí)反饋。
該引擎根據(jù)應(yīng)用的資源需求匹配最佳的異構(gòu)算力資源分配,作業(yè)調(diào)度流程和策略具有高度模塊化、靈活組合、可插件式擴(kuò)展等能力。一方面滿足調(diào)度器管理者對(duì)系統(tǒng)資源分配目標(biāo)的統(tǒng)一控制,如控制不同場(chǎng)景任務(wù)的資源分配額度、優(yōu)化系統(tǒng)特定維度資源的使用效率等;另一方面滿足調(diào)度器使用者的應(yīng)用個(gè)性化資源和業(yè)務(wù)模型需求,如控制多個(gè)應(yīng)用間的運(yùn)行依賴行為、資源競(jìng)爭(zhēng)關(guān)系等。應(yīng)用獲取可使用資源的調(diào)度過(guò)程主要分為作業(yè)排隊(duì)和資源分配兩個(gè)階段,其中作業(yè)排隊(duì)用于決定當(dāng)前優(yōu)先獲得調(diào)度資格的作業(yè)序列順序,影響作業(yè)調(diào)度順序的因素多種多樣,如當(dāng)前用戶或所在組織的資源配額限制、作業(yè)之間的啟動(dòng)依賴關(guān)系、作業(yè)所在排隊(duì)序列的資源分配策略及可調(diào)度份額等。
提供對(duì)插件式調(diào)度策略的控制面管理能力,根據(jù)調(diào)度器系統(tǒng)所服務(wù)的應(yīng)用場(chǎng)景配置作業(yè)調(diào)度各階段的策略啟用行為,滿足目標(biāo)應(yīng)用的異構(gòu)算力資源調(diào)度需求;提供對(duì)租戶面的資源配額、運(yùn)行限制等多維度層次化管理配置能力。
該層實(shí)時(shí)收集系統(tǒng)內(nèi)各節(jié)點(diǎn)的異構(gòu)算力資源數(shù)量,感知硬件拓?fù)浼斑\(yùn)行健康變化,反饋到調(diào)度引擎用于匹配作業(yè)的資源需求。資源信息感知的反饋及時(shí)性對(duì)調(diào)度引擎的決策實(shí)時(shí)性和準(zhǔn)確性至關(guān)重要。
統(tǒng)一調(diào)度核心流程滿足多租戶場(chǎng)景下的算力配額、多用戶優(yōu)先級(jí)(作業(yè)選擇策略框架)、多任務(wù)CPU、NPU、GPU、ARM、TPU(資源調(diào)度策略框架)算力需求。

作業(yè)調(diào)度流程主要分為作業(yè)選擇和資源分配兩個(gè)階段,其中作業(yè)選擇階段決定了作業(yè)調(diào)度的優(yōu)先級(jí),資源分配階段決定了作業(yè)需求資源的最終分配方式。以批處理類作業(yè)和長(zhǎng)時(shí)服務(wù)類作業(yè)為例,不同負(fù)載類型對(duì)應(yīng)不同的核心調(diào)度流程和策略。
下載鏈接:異構(gòu)算力統(tǒng)一標(biāo)識(shí)與服務(wù)白皮書(shū)
云網(wǎng)融合向算網(wǎng)一體技術(shù)演進(jìn)白皮書(shū)(2021)
1、行業(yè)深度報(bào)告:GPU研究框架
2、信創(chuàng)產(chǎn)業(yè)研究框架
3、ARM行業(yè)研究框架
4、CPU研究框架
5、國(guó)產(chǎn)CPU研究框架
6、行業(yè)深度報(bào)告:GPU研究框架

免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來(lái)源,發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系刪除,謝謝。
電子書(shū)<服務(wù)器基礎(chǔ)知識(shí)全解(終極版)>更新完畢,知識(shí)點(diǎn)深度講解,提供182頁(yè)完整版下載。
獲取方式:點(diǎn)擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

