NVMe over RoCEv2網(wǎng)絡(luò)技術(shù)要求和測(cè)試規(guī)范


長(zhǎng)久以來(lái)存儲(chǔ)的關(guān)鍵應(yīng)用和高性能訴求場(chǎng)景主要是基于 FC 網(wǎng)絡(luò),隨著傳輸速率的提升,介質(zhì)從機(jī)械硬盤(pán)發(fā)展到固態(tài)存儲(chǔ),協(xié)議從 SCSI 演進(jìn)到 NVMe,而新 的 NVMe 技術(shù)的出現(xiàn)帶來(lái)了新的機(jī)會(huì)。NVMe over RoCEv2 是 NVMe over Fabric最契合 NVMe 語(yǔ)義的一種實(shí)現(xiàn),在性能、成本、網(wǎng)絡(luò)管理等方面超越 FC,是未來(lái)高速存儲(chǔ)網(wǎng)絡(luò)的發(fā)展趨勢(shì)。
NVMe over RoCEv2 在 NVM express 組織中已經(jīng)有標(biāo)準(zhǔn)定義,本規(guī)范在網(wǎng)絡(luò)控制如易用性、易維護(hù)性和可靠性方面進(jìn)行優(yōu)化,使得NVMe over RoCEv2 更適宜關(guān)鍵應(yīng)用對(duì)高可靠性要求的訴求,提升系統(tǒng)易用性和易維護(hù)性。
NVMe over RoCEv2網(wǎng)絡(luò)中主要包括三類(lèi)角色:?jiǎn)?dòng)器(后續(xù)簡(jiǎn)稱(chēng)為主機(jī))、交換機(jī)、目標(biāo)器(后續(xù)簡(jiǎn)稱(chēng)為存儲(chǔ)),啟動(dòng)器和目標(biāo)器也稱(chēng)為端點(diǎn)設(shè)備。主機(jī)與存儲(chǔ)通過(guò)NVMe over RoCEv2協(xié)議在網(wǎng)絡(luò)中傳輸數(shù)據(jù),提供高性能存儲(chǔ)服務(wù)。

網(wǎng)絡(luò)控制優(yōu)化需要主機(jī)、交換機(jī)、存儲(chǔ)聯(lián)合實(shí)現(xiàn),達(dá)成即插即用和故障快速感知;即插即用功能要求設(shè)備接入網(wǎng)絡(luò)時(shí),交換機(jī)能夠自動(dòng)發(fā)現(xiàn)設(shè)備,同步給網(wǎng)絡(luò)中的其他交換機(jī)并通知IP業(yè)務(wù)域內(nèi)訂閱通知消息的主機(jī),主機(jī)識(shí)別接入設(shè)備并自動(dòng)建立與存儲(chǔ)的連接。即插即用功能主要應(yīng)用于開(kāi)局、擴(kuò)容和維護(hù)(故障更換)。
故障快速感知要求網(wǎng)絡(luò)故障時(shí),交換機(jī)能夠快速檢測(cè)到故障狀態(tài),同步給網(wǎng)絡(luò)中的其他交換機(jī)并通知到 IP 業(yè)務(wù)域內(nèi)訂閱通知消息的主機(jī),主機(jī)識(shí)別網(wǎng)絡(luò)故障影響的是否是存儲(chǔ)設(shè)備,如果是則快速斷開(kāi)與存儲(chǔ)的連接,觸發(fā)多路徑軟件快速切換業(yè)務(wù)到冗余路徑。
網(wǎng)絡(luò)控制優(yōu)化技術(shù)要求
一、業(yè)務(wù)功能和流程

交換機(jī)實(shí)現(xiàn) IP 業(yè)務(wù)域管理功能,由用戶根據(jù)業(yè)務(wù)規(guī)劃配置 IP 業(yè)務(wù)域,交換機(jī)需要將 IP 業(yè)務(wù)域同步給網(wǎng)絡(luò)中的其他交換機(jī)。IP 業(yè)務(wù)域管理符合以下技術(shù)能力:
a) 應(yīng)支持 IP 業(yè)務(wù)域配置功能,提供添加、刪除、修改、查詢(xún)功能,宜支持配置導(dǎo)入(或批量配置)功能;
b) 宜支持默認(rèn) IP 業(yè)務(wù)域,沒(méi)有配置的 IP 歸屬默認(rèn) IP 業(yè)務(wù)域。
c) IP 業(yè)務(wù)域配置時(shí)宜支持 IP 別名,宜支持配置 IP 地址段。
d) 應(yīng)支持交換機(jī)之間的 IP 業(yè)務(wù)域信息同步,應(yīng)保障 IP 業(yè)務(wù)域信息在交換機(jī)間的一致性。
主機(jī)、存儲(chǔ)與交換機(jī)信息通告的協(xié)議采用 LLDP 擴(kuò)展 TLV 實(shí)現(xiàn),同時(shí)為了與其余的 LLDP TLV 兼容和隔離,通過(guò) LLDP 通告的關(guān)鍵索引信息區(qū)分。
LLDP 關(guān)鍵索引信息由 2 個(gè)構(gòu)成:chassis ID 和 portID。chassis ID 采用端口的 MAC 地址。portID 構(gòu)成采用 2 部分:前綴+IP 對(duì)應(yīng)的端口名稱(chēng),前綴采用特定字符:snsd_,表示用于設(shè)備自動(dòng)發(fā)現(xiàn)的名稱(chēng)。交換機(jī) LLDP 老化時(shí)間定義為 120 秒,端點(diǎn)設(shè)備發(fā)送 LLDP 報(bào)文周期為 30 秒(默認(rèn)采用網(wǎng)絡(luò)字節(jié)序)。
主機(jī)和存儲(chǔ)作為 LLDP 通告的發(fā)送端,應(yīng)具備以下技術(shù)能力:
a) 應(yīng)按照協(xié)議定義周期性(每隔 30 秒)發(fā)送 LLDP 通告;
b) 每個(gè)提供服務(wù)的 IP 均應(yīng)發(fā)送 LLDP 通告;
c) 網(wǎng)絡(luò)端口信息變更后應(yīng)按照更新的信息發(fā)送 LLDP 通告;
d) 網(wǎng)絡(luò)故障后不需要發(fā)送 LLDP 通告,故障恢復(fù)后應(yīng)重新發(fā)送 LLDP 通告;
e) IP 地址刪除或 VLAN 配置刪除時(shí)應(yīng)停止發(fā)送 LLDP 通告;
f) 聚合端口的每個(gè)成員端口都應(yīng)發(fā)送 LLDP 通告。
交換機(jī)作為 LLDP 通告消息的接收端,應(yīng)具備以下技術(shù)能力:
a) 應(yīng)支持接收并解析 LLDP 消息,LLDP 消息不轉(zhuǎn)發(fā);
b) 應(yīng)同步設(shè)備接入信息到網(wǎng)絡(luò)中其他交換機(jī);
c) 接入交換機(jī)應(yīng)根據(jù) LLDP 接入信息通知 IP 業(yè)務(wù)域內(nèi)設(shè)備有設(shè)備接入;
d) LLDP 通告中設(shè)備信息更新時(shí)應(yīng)更新設(shè)備信息;
e) 超過(guò)老化周期(120 秒)未接收 LLDP 消息,應(yīng)刪除該設(shè)備,并同步刪除信息到網(wǎng)絡(luò)中其他交換機(jī);應(yīng)通知 IP 業(yè)務(wù)域內(nèi)端點(diǎn)設(shè)備,有設(shè)備離線;
f) 交換機(jī)每個(gè)端口支持的 LLDP 通告鄰居數(shù)宜不小于 64。
網(wǎng)絡(luò)狀態(tài)變化通知消息由多條 TLV 組成,一個(gè)狀態(tài)通知消息可以有 1 條或多條狀態(tài)通知。狀態(tài)通知消息僅能由接入交換機(jī)產(chǎn)生,交換機(jī)之間不轉(zhuǎn)發(fā)此消息。訂閱消息的主機(jī)或存儲(chǔ)在收到狀態(tài)通知消息后應(yīng)回復(fù) ACK。說(shuō)下:消息格式所有的字段均按網(wǎng)絡(luò)節(jié)節(jié)序。

狀態(tài)消息通知分為上線和離線2類(lèi),只在接入交換機(jī)產(chǎn)生,并發(fā)送給端點(diǎn)設(shè)備;交換機(jī)作為網(wǎng)絡(luò)狀態(tài)管理和狀態(tài)通知的發(fā)送端,應(yīng)具備以下技術(shù)能力:
a) 交換機(jī)狀態(tài)通知消息應(yīng)只發(fā)送給訂閱消息的設(shè)備;
b) 交換機(jī)應(yīng)支持檢測(cè)網(wǎng)絡(luò)故障和配置變更,將設(shè)備狀態(tài)變化信息同步給網(wǎng)絡(luò)中的所有交換機(jī),然后再由接入交換機(jī)發(fā)送狀態(tài)通知消息給域內(nèi)的其他訂閱設(shè)備。
c) 交換機(jī)收到新設(shè)備 LLDP 通告后,應(yīng)將域內(nèi)所有設(shè)備信息狀態(tài)通告給新接入設(shè)備,同時(shí)將新接入設(shè)備信息同步給其他交換機(jī),再由接入交換機(jī)根據(jù) IP業(yè)務(wù)域配置通知訂閱消息的設(shè)備。
d) 狀態(tài)通知消息發(fā)送后需要等待端點(diǎn)設(shè)備回復(fù)確認(rèn)消息;交換機(jī)在未收到確認(rèn)消息時(shí),應(yīng)支持重試發(fā)送通知消息;建議重試次數(shù)為 3 次,重試間隔建議為 100ms、1s、10s;
e) 交換機(jī)在網(wǎng)絡(luò)故障后,應(yīng)在 500ms 以?xún)?nèi)將網(wǎng)絡(luò)狀態(tài)消息通知到訂閱消息的設(shè)備。
主機(jī)作為存儲(chǔ)服務(wù)使用方,應(yīng)具備以下技術(shù)能力:
a) 應(yīng)在 LLDP 通告報(bào)文中訂閱狀態(tài)通知消息;
b) 收到狀態(tài)通知后應(yīng)回復(fù) ACK;
c) 應(yīng)支持對(duì)通知消息去重,避免對(duì)重復(fù)消息進(jìn)行處理;
d) 收到存儲(chǔ)設(shè)備接入消息后,應(yīng)向存儲(chǔ)設(shè)備建立 NVMe-oF 業(yè)務(wù)連接;
e) 收到存儲(chǔ)設(shè)備離線消息后,應(yīng)斷開(kāi)存儲(chǔ)設(shè)備 NOF 業(yè)務(wù)連接;宜在 500ms 內(nèi)斷開(kāi)業(yè)務(wù)連接。
存儲(chǔ)作為服務(wù)提供方,應(yīng)具備以下技術(shù)能力:
a) 宜通過(guò) LLDP 通告報(bào)文訂閱狀態(tài)通知消息;
b) 如果訂閱,收到狀態(tài)通知后應(yīng)回復(fù) ACK;
c) 如果訂閱,應(yīng)對(duì)通知消息去重,避免對(duì)重復(fù)消息進(jìn)行處理。
交換機(jī)間的信息同步保證全網(wǎng)統(tǒng)一管理,包括 IP 業(yè)務(wù)域配置信息,接入設(shè)備信息和狀態(tài),信息同步應(yīng)滿足如下技術(shù)要求:
a) 同步的信息應(yīng)包括 IP 業(yè)務(wù)域配置、設(shè)備狀態(tài)信息;
b) IP 業(yè)務(wù)域信息和設(shè)備狀態(tài)信息應(yīng)保障及時(shí)性和一致性。
交換機(jī)應(yīng)符合如下安全技術(shù)要求:
a) 應(yīng)支持有效性檢查,避免異常報(bào)文攻擊;
b) 應(yīng)支持DDOS攻擊防護(hù),避免影響正常的端口工作,避免交換機(jī)功能受影響;
c) 應(yīng)防止LLDP仿冒攻擊,端口發(fā)送不屬于本端口IP的LLDP報(bào)文,避免影響正常運(yùn)行的業(yè)務(wù)端口,避免交換機(jī)功能受影響;
d) 交換機(jī)間信息同步應(yīng)防止仿冒、篡改、DDOS攻擊,避免信息同步異常,導(dǎo)致功能異常;
e) 檢測(cè)到網(wǎng)絡(luò)異常后應(yīng)記錄日志或告警。
主機(jī)和存儲(chǔ)應(yīng)滿足如下安全技術(shù)要求:
a) 應(yīng)支持有效性檢查,避免異常報(bào)文攻擊;
b) 應(yīng)支持DDOS攻擊防護(hù),避免影響業(yè)務(wù)正常功能;
c) 防止網(wǎng)絡(luò)通知消息仿冒攻擊,收到的網(wǎng)絡(luò)通知消息應(yīng)只影響本端口配置的業(yè)務(wù)IP,不能影響其他端口;
d) 檢測(cè)到網(wǎng)絡(luò)異常后要記錄日志或告警。
e) 存儲(chǔ)端如果訂閱網(wǎng)絡(luò)通知消息,應(yīng)支持網(wǎng)絡(luò)安全防護(hù);
針對(duì)網(wǎng)絡(luò)控制器優(yōu)化技術(shù),主要涉及場(chǎng)景如下:

上面四個(gè)場(chǎng)景可以歸為兩個(gè)大的場(chǎng)景,即插即用場(chǎng)景和快速感知場(chǎng)景除了客戶應(yīng)用場(chǎng)景的測(cè)試覆蓋外,還需要針對(duì)網(wǎng)絡(luò)安全場(chǎng)景進(jìn)行驗(yàn)收,主要覆蓋異常報(bào)文攻擊場(chǎng)景、

網(wǎng)絡(luò)快速感知應(yīng)用場(chǎng)景:網(wǎng)絡(luò)在:設(shè)備接入場(chǎng)景、網(wǎng)絡(luò)故障、配置變化、組網(wǎng)變更四大場(chǎng)景下的業(yè)務(wù)快速感知或業(yè)務(wù)切換。
測(cè)試場(chǎng)景 1:主機(jī)和存儲(chǔ)已經(jīng)在前端網(wǎng)絡(luò)中,且已經(jīng)完成了與交換機(jī)的注冊(cè),之后存儲(chǔ)節(jié)點(diǎn)被移除或其他無(wú)法進(jìn)行業(yè)務(wù)連續(xù)的通信故障(包括鏈路擁塞,被交換機(jī)隔離),主機(jī)節(jié)點(diǎn)能夠自動(dòng)發(fā)現(xiàn)存儲(chǔ)退出,并通知多路徑軟件該路徑斷開(kāi);
測(cè)試場(chǎng)景 2:主機(jī)和存儲(chǔ)已經(jīng)在前端網(wǎng)絡(luò)中,且已經(jīng)完成了與交換機(jī)的注冊(cè),之后主機(jī)節(jié)點(diǎn)被移除或其他無(wú)法進(jìn)行業(yè)務(wù)連續(xù)的通信故障(包括鏈路擁塞,被交換機(jī)隔離),主機(jī)節(jié)點(diǎn)能夠識(shí)別端口物理和邏輯鏈路 LinkDown,并通知多路徑軟件該路徑斷開(kāi);
測(cè)試場(chǎng)景 3:主機(jī)和存儲(chǔ)已經(jīng)處于前端網(wǎng)絡(luò)中,交換機(jī)與交換機(jī)級(jí)聯(lián)網(wǎng)絡(luò)之間的鏈路故障(所有通路都故障),交換機(jī)網(wǎng)絡(luò)分裂為兩個(gè)獨(dú)立網(wǎng)絡(luò),主機(jī)能夠自動(dòng)感知到自己所歸屬的獨(dú)立網(wǎng)絡(luò)已經(jīng)無(wú)法訪問(wèn)的存儲(chǔ)節(jié)點(diǎn)(可能存在部分節(jié)點(diǎn)可以訪問(wèn),部分節(jié)點(diǎn)不能訪問(wèn),取決于存儲(chǔ)與交換機(jī)是否共物理實(shí)體交換機(jī)),并通知多路徑軟件該路徑斷開(kāi)。
測(cè)試場(chǎng)景 4:用戶更新了 IP 配置域信息,原配置 IP 域內(nèi)刪除了某些主機(jī)或存儲(chǔ),被刪除的主機(jī)能夠快速斷開(kāi)與該存儲(chǔ)的路徑,并通知多路徑軟件該路徑不可用。
下載鏈接:NVMe over RoCEv2 網(wǎng)絡(luò)優(yōu)化要求和測(cè)試規(guī)范

轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者和來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(shū)(35本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。
全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收188元(原總價(jià)290元)。
溫馨提示:
掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書(shū)資料詳情。

