<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深入剖析NVMe Over Fabrics

          共 4563字,需瀏覽 10分鐘

           ·

          2021-07-27 16:08



          一、NVMe Over Fabrics是什么?


          NVMe over Fabrics簡(jiǎn)稱為NVMe-oF。它是NVM Express工作組在2016年發(fā)布的規(guī)范,通過網(wǎng)絡(luò)將主機(jī)(如服務(wù)器)連接到存儲(chǔ)。


          備注: 上圖來自nvmexpress.org


          NVMe Over Fabrics之于NVMe,類似早先的光纖SAN存儲(chǔ)中FC SAN之于Fibre Channel


          NVMe over PCIe 局限在主機(jī)的本地盤使用。通過Fabrics(如RDMA或光纖通道)代替PCIe,可幫助主機(jī)訪問節(jié)點(diǎn)外的NVMe SSD資源,NVMe-oF極大地增強(qiáng)了靈活性和擴(kuò)展性,將NVMe低延時(shí)、高并發(fā)等特性,從服務(wù)器級(jí)別,擴(kuò)展到整個(gè)數(shù)據(jù)中心級(jí)別


          下圖NVMe Transport可以看到,左邊是over PCIe,右邊是over Fabrics的幾種類型。


          備注: 上圖來自micron.com


          構(gòu)建NVMe-oF的Fabrics網(wǎng)絡(luò),也即主機(jī)和外地盤的連接通道,有多種方式,over RDMA (NVMe /RDMA),over Fibre Channel (FC-NVMe) 、over TCP (NVMe/TCP)各自適用不同領(lǐng)域,如下圖,NVMe/RDMA性能高、成本也較高,用于HPC、分布式數(shù)據(jù)庫、AI機(jī)器學(xué)習(xí)等場(chǎng)景。



          備注: 上圖來自 Youtube: 2021-2-3, Use Cases For NVMe oF

          https://www.youtube.com/watch?v=VWq13NmwOhI


          分類的具體闡述如下,這部分內(nèi)容轉(zhuǎn)載自 微信公眾號(hào) Marvell美滿 在2019-09-25發(fā)表的題為《如何選擇最優(yōu)的NVMe-over-Fabrics方案?》的文章。


          1、使用RDMA (NVMe/RDMA)的NVMe-over-Ethernet 


          這種RDMA兼容型以太網(wǎng)適配器現(xiàn)已獲得授權(quán)。RDMA有兩種不同的部署方式,名稱分別為RoCE(v1/v2)和iWARP。然而非常遺憾,以上兩種協(xié)議無法實(shí)現(xiàn)交互操作。下面簡(jiǎn)要說明兩種協(xié)議各自的優(yōu)劣勢(shì):  


          1)NVMe-over-RoCE (NVMe/RoCE):如果您使用的是只有以太網(wǎng)的網(wǎng)絡(luò),NVMe-over-RoCE是共享存儲(chǔ)或超融合基礎(chǔ)設(shè)施(HCI)連接的最佳方案。正因如此,目前已有多家存儲(chǔ)陣列供應(yīng)商公布了他們的計(jì)劃,及表示支持NVMe-over-RoCE連接。RoCE能夠提供最低的以太網(wǎng)絡(luò)延遲,并且對(duì)于跳數(shù)不超過 2 個(gè)的小規(guī)模存儲(chǔ)網(wǎng)絡(luò),能達(dá)到非常優(yōu)異的運(yùn)行效果。顧名思義,RoCE需要聚合或無損的以太網(wǎng)絡(luò)才能正常運(yùn)行。此外,該方案還需啟用實(shí)現(xiàn)額外的網(wǎng)絡(luò)功能,包括數(shù)據(jù)中心橋接(DCB)、優(yōu)先流控制(PFC),以及其他一些更復(fù)雜的組織架構(gòu)和網(wǎng)絡(luò)擁塞管理機(jī)制。如果低延遲是您的首要目標(biāo),那么NVMe-over-RoCE很可能是您的最優(yōu)選擇,盡管其網(wǎng)絡(luò)復(fù)雜性也相對(duì)較高。


          2)NVMe-over-iWARP (NVMe/iWARP):iWARP RDMA協(xié)議運(yùn)行于標(biāo)準(zhǔn)TCP/IP網(wǎng)絡(luò)之中,因此其部署操作也更加簡(jiǎn)單。盡管該協(xié)議的延遲性能不及RoCE,但更加易用的特性以及更低的管理難度依然具有巨大的吸引力。在現(xiàn)階段,存儲(chǔ)陣列供應(yīng)商尚未設(shè)計(jì)出支持 iWARP的陣列,因此目前的iWARP最適合軟件定義或者基于Microsoft Azure Stack HCI / Storage Spaces Direct (S2D) 等HCI解決方案。


          2、NVMe-over-FC(FC-NVMe)


          對(duì)于已經(jīng)部署了光纖通道存儲(chǔ)網(wǎng)絡(luò)(SAN)基礎(chǔ)設(shè)施的用戶而言,F(xiàn)C-NVMe當(dāng)屬最優(yōu)方案。使用16Gb FC或32Gb FC主機(jī)總線適配器(HBA)和SAN交換機(jī),即可將NVMe協(xié)議封入FC框架內(nèi)部。通過升級(jí)至最新的HBA固件和驅(qū)動(dòng)程序則能獲取Linux服務(wù)器上的FC-NVMe支持。因此,投資新型16Gb或32Gb FC HBA和SAN基礎(chǔ)設(shè)施,能夠?yàn)閼?yīng)用今后推出的FC-NVMe存儲(chǔ)陣列做好提前準(zhǔn)備。另外值得注意的是,SCSI (FCP) 和 NVMe (FC-NVMe) 可以共存于相同的FC光纖網(wǎng)絡(luò)中,因此,基于FC-SCSI的老存儲(chǔ)可以與全新的NVMe存儲(chǔ)同時(shí)運(yùn)行。


          3、NVMe-over-TCP (NVMe/TCP)


          NVMe-over-TCP于2018年11月獲批,在不進(jìn)行任何必要調(diào)整工作的情況下即可在現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施中運(yùn)行(這一點(diǎn)利用了TCP/IP廣泛的普遍性)。NVMe-over-TCP發(fā)揮的性能表現(xiàn)可能在速度上不及NVMe-over-RDMA或FC-NVMe,但在標(biāo)準(zhǔn)以太網(wǎng)卡和以太網(wǎng)網(wǎng)絡(luò)交換機(jī)上就可以輕松實(shí)現(xiàn)部署。無需大量的硬件投資,即可享受NVMe SSD存儲(chǔ)的主要優(yōu)勢(shì)。


          二、為什么出現(xiàn)NVMe Over Fabrics?


          1)更快的存儲(chǔ),需要更快的網(wǎng)絡(luò)


          如下圖,從HDD到SSD,再發(fā)展到PM (Persistent Memory),性能的改善(延時(shí)縮短)甚至比最初提升到數(shù)千倍!


          上圖來自 OCP 2018 SUMMIT, Rob Davis (時(shí)任Mellanox VP)


          為什么需要網(wǎng)絡(luò)呢? 主機(jī)直接在本地盤使用不行嗎?


          當(dāng)然可以,確實(shí)有些要求延時(shí)低且冗余要求不高的場(chǎng)景,如AI訓(xùn)練、NoSQL(數(shù)據(jù)冗余在應(yīng)用軟件層實(shí)現(xiàn))等。


          2)更快更大容量的存儲(chǔ),需要給多個(gè)主機(jī)共享


          不過,考慮到效率、彈性可靠性、可用性、可運(yùn)維性等需求,開始出現(xiàn)了JBOF、EBOF等新型架構(gòu)


          現(xiàn)在很多品牌的SSD在4KB隨機(jī)讀下,都在60萬,甚至80萬IOPS以上,如下圖浪潮ZNS SSD。


          上圖來自 浪潮存儲(chǔ) 胡文鋒


          通常一個(gè)閃存盤箱(JBOF或EBOF)的SSD個(gè)數(shù)在20以上,也即能提供的總IOPS高達(dá)1600萬!

          常規(guī)的主機(jī)(服務(wù)器)很難吸收或全部利用這么高的磁盤性能。合理的架構(gòu)應(yīng)該是一些主機(jī)構(gòu)成的集群,通過Fabrics共享使用一個(gè)或多個(gè)全閃存盤箱


          當(dāng)網(wǎng)絡(luò)或說是傳輸通道延時(shí)超低,帶寬也高時(shí),主機(jī)可不配置本地盤。只留少數(shù)啟動(dòng)盤,甚至通過使用NVMe Server Boot Cards,連啟動(dòng)盤都不需要。例如,Marvell推出了RAID 1 Accelerator來提高NVMe啟動(dòng)盤的冗余保護(hù)。


          3)NVMe Over Fabrics與軟件定義


          這其實(shí)就是Disaggregation of Compute and Storage(計(jì)算和存儲(chǔ)的解耦),大家近年來經(jīng)常聽到的存算分離。



          仔細(xì)一想,其實(shí)它和SDS(Software Defined Storage)的理念是一致的:硬件解耦、池化、共享。Disaggregation的好處是:

          1)故障隔離;

          2)通過共享降低成本;

          3)提高資源的使用效率;

          4)方便管理、易于運(yùn)維;

          5)避免浪費(fèi),計(jì)算或存儲(chǔ)按需分配、按需擴(kuò)展;


          下圖是2020年OCP Global Summit,浪潮信息與三星合作推出的開放存儲(chǔ)平臺(tái):



          Disaggregation帶來了Composable(可組合性),除了按需各自獨(dú)立的擴(kuò)展之外,不用的存儲(chǔ)資源,也可以釋放,再行分配。



          這種解耦再進(jìn)一步深入,就是CPU doesn't 'own' the GPU or the Memory,這句我欣賞的話來自WD在OCP某次會(huì)議的分享,如下圖:



          其實(shí),它可能預(yù)示如除存儲(chǔ)之外,其他資源如GPU、內(nèi)存、FPGA等的演變可能。


          另外,從下圖可以看出OCP的首倡者FaceBook在思考下一代數(shù)據(jù)中心,超大規(guī)模,高密度,靈活擴(kuò)展(Flexible CPU/Flash Ratios,也即計(jì)算存儲(chǔ)靈活配比),可維護(hù)性等,都是應(yīng)有之義。



          不過需要注意的是,大型數(shù)據(jù)中心所思考或所追求的,未必是當(dāng)下中等規(guī)模,或者行業(yè)用戶(非互聯(lián)網(wǎng),非云計(jì)算廠商)必須馬上去實(shí)踐的,因?yàn)?strong>各自的訴求、環(huán)境、應(yīng)用場(chǎng)景、使用習(xí)慣、采購流程等都不一樣。但做為潛在的長(zhǎng)期趨勢(shì),需要保持關(guān)注。


          4)存算分離? 存算一體?


          我們經(jīng)常看到存算分離、存算一體(比如HDFS),到底哪個(gè)是趨勢(shì)??jī)烧呤遣皇窍嗷ッ埽科鋵?shí),并不矛盾,這和業(yè)務(wù)需求、組件特質(zhì)有著密切的關(guān)聯(lián),此一時(shí)彼一時(shí)。HDFS誕生于集中式存儲(chǔ)、機(jī)械硬盤大行其道的時(shí)期,通過存算一體縮短延遲,并降低成本(不用購買昂貴的集中式存儲(chǔ))、方便海量存儲(chǔ)擴(kuò)展。


          5)JBOF和EBOF的區(qū)別

          和JBOD(包括采用NVMe over PCIe)不一樣,EBOF或JBOF都可通過NVMe-oF進(jìn)行存儲(chǔ)的靈活擴(kuò)展。


          JBOF是Just a Bunch of Flash的縮寫,使用PCIe交換機(jī)fan out(可理解為扇出、或連接)到SSD,而EBOF使用以太網(wǎng)交換機(jī)fan out到SSD。JBOF和EBOF通過NVMe-oF連接到主機(jī)服務(wù)器。


          三、端到端的NVMe Over Fabrics


          做到真正的端到端NVMe-oF,其實(shí)是很難的,全球沒有幾家。如下圖所示,除了硬件之外,存儲(chǔ)軟件也要有所優(yōu)化;此外在主機(jī)端還要有所處理,方能充分發(fā)揮性能優(yōu)勢(shì)。


          上圖來自前同事 李華偉的分享,略有修改


          四、未來的發(fā)展


          個(gè)人以為,借助NVMe Over Fabrics,未來集中式存儲(chǔ)和分布式存儲(chǔ)會(huì)殊途同歸,都發(fā)展成為基于NVMe Over Fabrics的分布式全閃。近年來,還出現(xiàn)了Nvidia DPU,以及Scalable HCI的架構(gòu),后者是指超融合中某些節(jié)點(diǎn)不提供存儲(chǔ)資源,但可共享其他節(jié)點(diǎn)的存儲(chǔ)資源。這些都值得關(guān)注。





          轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者來源,本號(hào)發(fā)布文章若存在版權(quán)等問題,請(qǐng)留言聯(lián)系處理,謝謝。


          推薦閱讀

          更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(37本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。

          全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。



          溫馨提示:

          掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取架構(gòu)師技術(shù)全店資料打包匯總(全)電子書資料詳情


          瀏覽 399
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情爱爱网站 | 影音先锋成人在线 | 草草青视频在线 | 国产精品午夜福利电影 | 欧美精品性mav |