幾張圖徹底搞懂 Kubernetes 的底層網(wǎng)絡(luò)

如果大家已經(jīng)使用了 kubernetes技術(shù),并運(yùn)行了一些測試或生產(chǎn)的服務(wù),可能已經(jīng)能體會到 K8s 技術(shù)帶來的革命性變化,如果還沒有用過的小伙伴,我建議盡快入坑,畢竟這是技術(shù)趨勢。
目前盡管已經(jīng)有很多工具可以用來設(shè)置和管理集群,但我們?nèi)匀恍枰涝趉8s底層發(fā)生了什么,尤其在碰到問題時,只有知道到底層原理才有可能從某個現(xiàn)象去分析到底是哪里出了問題,才能去解決實(shí)際問題。
從技術(shù)上說 Kubernetes 其實(shí)在底層它是非常復(fù)雜的,它有很多組件,因此,必須了解它們?nèi)绾蜗嗷ヅ浜喜f(xié)同工作,才能實(shí)際去理解實(shí)際中的問題,那說到這里,不得不說K8s的網(wǎng)絡(luò)是最復(fù)雜且最關(guān)鍵之一。
因此,這篇我們通過圖文來深入理解 Kubernetes 中的網(wǎng)絡(luò)如何工作。
Kubernetes網(wǎng)絡(luò)模型
Kubernetes Networking 的核心是一種重要的基本設(shè)計(jì)理念:
每個Pod都有唯一的IP。
有了這個,Kubernetes 唯一的要求就是,這些Pod IP可以從其他所有Pod進(jìn)行路由/訪問,而不管它們位于哪個節(jié)點(diǎn)上。
節(jié)點(diǎn)內(nèi)通信
第一步是確保同一節(jié)點(diǎn)上的Pod能夠互相通信。然后將該思想擴(kuò)展到跨節(jié)點(diǎn),到Internet等的通信。
在每個Kubernetes節(jié)點(diǎn)(在本例中為Linux機(jī)器)上,都有一個根網(wǎng)絡(luò)名稱空間(根為基礎(chǔ),而不是超級用戶)-root netns。
主網(wǎng)絡(luò)接口eth0在此根netns中。

同樣,每個Pod都有其自己的網(wǎng)絡(luò),并且有一個虛擬以太網(wǎng)對將其連接到根網(wǎng)絡(luò)。這基本上是一個管道對,一端在根網(wǎng)中,另一端在pod網(wǎng)中。
我們將Pod-end命名為eth0,因此Pod不了解底層主機(jī),并認(rèn)為它具有自己的根網(wǎng)絡(luò)設(shè)置。另一端的名稱類似于vethxxx。
可以使用ifconfig或ip a命令在節(jié)點(diǎn)上列出所有這些接口。

對節(jié)點(diǎn)上的所有Pod完成此操作。為了使這些Pod相互通信,使用了Linux以太網(wǎng)橋cbr0。Docker使用了一個類似的橋,名為docker0。
可以使用brctl show命令列出網(wǎng)橋。

假設(shè)一個數(shù)據(jù)包從pod1到pod2。
它將pod1的網(wǎng)絡(luò)保留在eth0處,并將根網(wǎng)絡(luò)保留在vethxxx。
將其傳遞給cbr0,后者使用ARP請求發(fā)現(xiàn)目的地,并說“誰擁有此IP?”
vethyyy說它具有該IP,因此網(wǎng)橋知道將數(shù)據(jù)包轉(zhuǎn)發(fā)到何處。
數(shù)據(jù)包到達(dá)vethyyy,穿過管道對并到達(dá)pod2的網(wǎng)絡(luò)。

這就是節(jié)點(diǎn)上的容器相互通信的方式。顯然還有其他方法,但這可能是最簡單的方法.
節(jié)點(diǎn)間通訊
正如之前提到的,pod也必須在節(jié)點(diǎn)之間可訪問。Kubernetes并不關(guān)心它是如何完成的。我們可以使用L2(跨節(jié)點(diǎn)的ARP),L3(跨節(jié)點(diǎn)的IP路由-如云提供商路由表)覆蓋網(wǎng)絡(luò)。只要流量可以到達(dá)另一個節(jié)點(diǎn)上所需的Pod,這都沒有關(guān)系。每個節(jié)點(diǎn)都為Pod IP分配了唯一的CIDR塊(一系列IP地址),因此每個Pod具有一個唯一的IP,該IP與另一個節(jié)點(diǎn)上的Pod不沖突。
在大多數(shù)情況下,尤其是在云環(huán)境中,云提供商路由表可確保數(shù)據(jù)包到達(dá)正確的目的地。通過在每個節(jié)點(diǎn)上設(shè)置正確的路由,可以完成同一件事。還有許多其他的網(wǎng)絡(luò)插件也可以發(fā)揮自己的作用。
在這里,我們有兩個節(jié)點(diǎn),類似于我們之前看到的。每個節(jié)點(diǎn)都有各種網(wǎng)絡(luò)名稱空間,網(wǎng)絡(luò)接口和網(wǎng)橋。

假設(shè)一個數(shù)據(jù)包從pod1到pod4(在另一個節(jié)點(diǎn)上)。
它將pod1的網(wǎng)絡(luò)保留在eth0處,并將根網(wǎng)絡(luò)保留在vethxxx。
它傳遞給cbr0,后者發(fā)出ARP請求以查找目的地。
它從cbr0傳到主網(wǎng)絡(luò)接口eth0,因?yàn)榇斯?jié)點(diǎn)上沒有人具有pod4的IP地址。
它將離開node1,這時候src = pod1和dst = pod4。
路由表具有為每個節(jié)點(diǎn)CIDR塊設(shè)置的路由,并且將數(shù)據(jù)包路由到其CIDR塊包含pod4 IP的節(jié)點(diǎn)。
因此,數(shù)據(jù)包到達(dá)主網(wǎng)絡(luò)接口eth0的node2?,F(xiàn)在,即使pod4不是eth0的IP,由于已將節(jié)點(diǎn)配置為啟用IP轉(zhuǎn)發(fā),因此數(shù)據(jù)包仍轉(zhuǎn)發(fā)到cbr0。在節(jié)點(diǎn)的路由表中查找與pod4 IP匹配的所有路由。它找到cbr0作為此節(jié)點(diǎn)的CIDR塊的目標(biāo)??梢允褂胷oute -n命令列出節(jié)點(diǎn)路由表.
橋接器接收數(shù)據(jù)包,發(fā)出ARP請求,然后發(fā)現(xiàn)IP屬于vethyyy。
數(shù)據(jù)包穿過管道對并到達(dá)pod4
以上就是Kubernetes網(wǎng)絡(luò)的基礎(chǔ)內(nèi)容,歡迎大家留言討論。
本文源自網(wǎng)絡(luò),侵刪
有收獲,點(diǎn)個在看?


