自NVM Express工作組發(fā)布第一個(gè)版本的NVMe標(biāo)準(zhǔn)以來,已經(jīng)過去了將近十年,NVMe也越來越多地應(yīng)用到固態(tài)存儲(chǔ)中。但是,NVMe本身有一定的局限性,它最適合的是服務(wù)器內(nèi)或直接連接存儲(chǔ)的設(shè)備連接。而企業(yè)需要的是通過網(wǎng)絡(luò)無縫連接閃存,釋放性能優(yōu)勢,并取代傳統(tǒng)的以磁盤為中心的SAN技術(shù),例如iSCSI和光纖通道。NVMe-over-Fabrics(NVMe-oF)的出現(xiàn)就是為了做到這一點(diǎn)。1、小芯片(Chiplet)接口標(biāo)準(zhǔn).pdf2、為什么chiplet需要標(biāo)準(zhǔn).pdf《OCP全球峰會(huì):CXL Memory(1)》
《OCP全球峰會(huì):CXL Memory(2)》
《CXL技術(shù)合集(2022)(1)》
《CXL技術(shù)合集(2022)(2)》
什么是NVMe over Fabrics?
NVMe over Fabrics也稱為NVMe-oF,它是一個(gè)相對較新的協(xié)議規(guī)范,旨在使用NVMe通過網(wǎng)絡(luò)結(jié)構(gòu)將主機(jī)連接到存儲(chǔ)。NVMe over Fabrics協(xié)議定義了使用各種通用的傳輸層協(xié)議來實(shí)現(xiàn)NVMe功能的方式。在NVMe誕生之前,數(shù)據(jù)存儲(chǔ)協(xié)議可以分為三種:- iSCSI:iSCSI是基于Internet的存儲(chǔ)網(wǎng)絡(luò)標(biāo)準(zhǔn),用于使用標(biāo)準(zhǔn)以太網(wǎng)電纜傳輸小型計(jì)算機(jī)系統(tǒng)接口(也稱為SCCI)。速度大約在1GB/s,不過使用高帶寬以太網(wǎng)卡可能可以達(dá)到10GB/s或更高。
- SAS:SAS是一種點(diǎn)對點(diǎn)串行協(xié)議,通過SAS線纜傳輸數(shù)據(jù)。通過主機(jī)總線適配器可以最多連接128個(gè)驅(qū)動(dòng)器,速度范圍從3GB/s,6GB/s,12GB/s到22.5GB/s。
- 光纖通道協(xié)議(FCP):FCP是一種使用光纖(或銅纜)電纜傳輸命令的協(xié)議。在這種情況下,網(wǎng)絡(luò)結(jié)構(gòu)就像一個(gè)巨大的交換機(jī),避免了電磁干擾(EMI)問題,速度通常在1到128GB/s。
鑒于上述存儲(chǔ)協(xié)議存在性能等各方面的瓶頸,以及出于對未來NVM存儲(chǔ)功能要求的需要,NVMe over Fabrics協(xié)議應(yīng)運(yùn)而生。NVMe over Fabrics把NVMe協(xié)議在單系統(tǒng)時(shí)代提供的高性能、低延遲和低協(xié)議負(fù)擔(dān)的優(yōu)勢進(jìn)一步發(fā)揮到了NVMe存儲(chǔ)系統(tǒng)互連結(jié)構(gòu)中。NVMe over Fabrics的優(yōu)勢
NVMe-oF在性能、擴(kuò)展能力、易用性方面都具備優(yōu)勢,包括:- 提高和優(yōu)化性能,包括存儲(chǔ)陣列性能
- 支持NVMe主機(jī)啟動(dòng)器與存儲(chǔ)系統(tǒng)之間同時(shí)存在多條路徑
能夠一次從許多主機(jī)和存儲(chǔ)子系統(tǒng)發(fā)送和接收命令。NVMe over Fabrics與NVMe
NVMe是運(yùn)行在某種接口上的通信協(xié)議,用于規(guī)范計(jì)算機(jī)與存儲(chǔ)設(shè)備的數(shù)據(jù)傳輸。與SCSI和SATA協(xié)議相比,NVMe標(biāo)準(zhǔn)將訪問時(shí)間縮短了幾個(gè)數(shù)量級。NVMe支持64,000個(gè)隊(duì)列,每個(gè)隊(duì)列深度最多為64,000個(gè)命令。所有I/O命令以及隨后的響應(yīng)均在同一處理器內(nèi)核上運(yùn)行,從而將多核處理器置于高度并行狀態(tài)。不需要I/O鎖定,因?yàn)槊總€(gè)應(yīng)用程序線程都有一個(gè)專用隊(duì)列。基于NVMe的設(shè)備使用PCIe串行擴(kuò)展插槽進(jìn)行數(shù)據(jù)傳輸,這意味著不需要專門的硬件控制器來路由網(wǎng)絡(luò)存儲(chǔ)流量。使用NVMe,基于主機(jī)的PCIe SSD可以更有效地將數(shù)據(jù)傳輸?shù)酱鎯?chǔ)目標(biāo)或子系統(tǒng)。NVMe和NVMe over Fabrics之間的主要區(qū)別之一是用于發(fā)送和接收命令或響應(yīng)的傳輸映射機(jī)制。NVMe-oF使用基于消息的模型在主機(jī)和目標(biāo)存儲(chǔ)設(shè)備之間進(jìn)行通信。NVMe將通過PCIe接口協(xié)議將命令和響應(yīng)映射到主機(jī)中的共享內(nèi)存。NVMe over Fabric支持把NVMe映射到多個(gè)Fabrics傳輸選項(xiàng),主要包括FC、InfiniBand、RoCE v2、iWARP和TCP。其中InfiniBand、RoCE v2(可路由的RoCE)、iWARP是理想的Fabric,原因在于它們支持RDMA。- InfiniBand(IB):從一開始就支持RDMA的新一代網(wǎng)絡(luò)協(xié)議。由于這是一種新的網(wǎng)絡(luò)技術(shù),因此需要支持該技術(shù)的網(wǎng)卡和交換機(jī)。
- RDMA融合以太網(wǎng)(RoCE):一種允許通過以太網(wǎng)進(jìn)行RDMA的網(wǎng)絡(luò)協(xié)議。其較低的網(wǎng)絡(luò)頭是以太網(wǎng)頭,其上網(wǎng)絡(luò)頭(包括數(shù)據(jù))是InfiniBand頭。這允許在標(biāo)準(zhǔn)以太網(wǎng)基礎(chǔ)架構(gòu)(交換機(jī))上使用RDMA。只有NIC應(yīng)該是特殊的,并支持RoCE。
- 互聯(lián)網(wǎng)廣域RDMA協(xié)議(iWARP):允許通過TCP執(zhí)行RDMA的網(wǎng)絡(luò)協(xié)議。在IB和RoCE中存在功能,iWARP不支持這些功能。這允許在標(biāo)準(zhǔn)以太網(wǎng)基礎(chǔ)架構(gòu)(交換機(jī))上使用RDMA。只有NIC應(yīng)該是特殊的,并支持iWARP(如果使用CPU卸載),否則所有iWARP堆棧都可以在SW中實(shí)現(xiàn),并且丟失了大部分的RDMA性能優(yōu)勢。
那么為什么支持RDMA在選擇NVMe over Fabric時(shí)就具有先天優(yōu)勢?支持RDMA的NVMe over Fabrics
RDMA是兩臺(tái)計(jì)算機(jī)之間的內(nèi)存到內(nèi)存的傳輸機(jī)制。數(shù)據(jù)從一個(gè)內(nèi)存地址空間發(fā)送到另一個(gè)內(nèi)存地址空間,無需調(diào)用操作系統(tǒng)或處理器。這樣的優(yōu)勢是開銷低、查詢訪問快、響應(yīng)時(shí)間短,延遲通常以微秒(μs)為單位。RDMA對于NVMe over Fabrics協(xié)議的便利性體現(xiàn)在下面幾個(gè)方面:- 提供了低延遲、低抖動(dòng)和低CPU使用率的傳輸層協(xié)議;
- 最大限度利用硬件加速,避免軟件協(xié)議棧的開銷;
- 依賴于開放互聯(lián)聯(lián)盟組織維護(hù)的Verbs和代碼庫,RDMA定義了豐富的可異步訪問的接口機(jī)制,這對于提高IO性能是至關(guān)重要的。
FC-NVMe(NVMe over Fabrics using Fibre Channel)
光纖通道實(shí)現(xiàn)的NVMe(FC-NVMe標(biāo)準(zhǔn)實(shí)現(xiàn))是由國際信息技術(shù)標(biāo)準(zhǔn)委員會(huì)(INCITS)的T11委員會(huì)開發(fā)的。FC支持在其之上映射其他協(xié)議,例如NVMe、SCSI和IBM專有的光纖連接(FICON),以便在主機(jī)和目標(biāo)存儲(chǔ)設(shè)備之間發(fā)送數(shù)據(jù)和命令。FC-NVMe和第六代FC可以共存于同一基礎(chǔ)設(shè)施中,避免了數(shù)據(jù)中心的叉車升級。客戶可以使用固件升級現(xiàn)有的FC網(wǎng)絡(luò)交換機(jī),前提是主機(jī)總線適配器(HBA)支持16 Gbps或32 Gbps FC和具有NVMe-oF-capable存儲(chǔ)目標(biāo)。FC協(xié)議支持對共享NVMe閃存的訪問,但是將封裝的SCSI命令轉(zhuǎn)換為NVMe命令會(huì)對性能造成影響。光纖通道行業(yè)協(xié)會(huì)(FCIA)正在推動(dòng)向后兼容的FC-NVMe實(shí)施標(biāo)準(zhǔn),使單個(gè)FC-NVMe適配器支持基于SCSI的磁盤,傳統(tǒng)的SSD和與PCIe連接的NVMe閃存卡。支持TCP/IP的NVMe over Fabrics
NVM Express在2019年發(fā)布了NVMe-oF 1.1規(guī)范,增加了對TCP傳輸綁定的支持?;赥CP的NVMe使得通過標(biāo)準(zhǔn)以太網(wǎng)網(wǎng)絡(luò)使用NVMe-oF成為可能,同時(shí)無需進(jìn)行配置更改或任何特殊設(shè)備。NVMe/TCP傳輸綁定定義了主機(jī)和非易失性內(nèi)存子系統(tǒng)之間的數(shù)據(jù)是如何封裝和傳遞的。TCP綁定還將定義隊(duì)列、封裝和數(shù)據(jù)的映射方式,從而支持NVMe-oF主機(jī)和控制器之間通過IP網(wǎng)絡(luò)進(jìn)行TCP通信。對于希望利用其以太網(wǎng)基礎(chǔ)設(shè)施的企業(yè)而言,支持TCP/IP的NVMe-oF是一個(gè)不錯(cuò)的選擇。《全球OCP峰會(huì)Chiplet資料匯總》
40張圖表解析中國“芯”勢力
光刻膠研究框架2.0:行業(yè)深度報(bào)告
半導(dǎo)體研究框架:詳解八大芯片材料(2022)
半導(dǎo)體2022年策略:國產(chǎn)化4.0+電動(dòng)化 2.0
本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。

免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。
電子書<服務(wù)器基礎(chǔ)知識(shí)全解(終極版)>更新完畢。
獲取方式:點(diǎn)擊“閱讀原文”即可查看182頁 PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。
