<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Docker 網(wǎng)絡(luò)基礎(chǔ) | 虛擬網(wǎng)絡(luò)設(shè)備對(duì)(veth)原理

          共 6425字,需瀏覽 13分鐘

           ·

          2021-06-03 13:58

          在容器化大行其道的今天,Docker 可謂是容器界的寵兒。比起笨重的虛擬機(jī),Docker 可謂是身輕如燕。當(dāng)然,本文不是介紹虛擬機(jī)與 Docker 之間的優(yōu)缺點(diǎn),而是介紹 Docker 網(wǎng)絡(luò)中重要的組成部分之一:

          虛擬網(wǎng)絡(luò)設(shè)備對(duì):veth

          在介紹 veth 前,我們先來(lái)介紹一下 網(wǎng)絡(luò)命名空間(network namespace)

          網(wǎng)絡(luò)命名空間

          網(wǎng)絡(luò)命名空間 是 Linux 內(nèi)核用來(lái)隔離不同容器間的網(wǎng)絡(luò)資源(每個(gè) Docker 容器都擁有一個(gè)獨(dú)立的網(wǎng)絡(luò)命名空間),網(wǎng)絡(luò)命名空間主要隔離的資源包括:

          • iptables規(guī)則表
          • 路由規(guī)則表
          • 網(wǎng)絡(luò)設(shè)備列表

          如下圖所示,當(dāng)系統(tǒng)中擁有 3 個(gè)網(wǎng)絡(luò)命名空間:

          由于不同的網(wǎng)絡(luò)命名空間之間是相互隔離的,所以不同的網(wǎng)絡(luò)命名空間之間并不能直接通信。比如在 網(wǎng)絡(luò)命名空間A 配置了一個(gè) IP 地址為 172.17.42.1 的設(shè)備,但在 網(wǎng)絡(luò)命名空間B 里卻不能訪問(wèn),如下圖所示:

          就好比兩臺(tái)電腦,如果沒(méi)有任何網(wǎng)線連接,它們之間是不能通信的。所以,Linux 內(nèi)核提供了 虛擬網(wǎng)絡(luò)設(shè)備對(duì)(veth) 這個(gè)功能,用于解決不同網(wǎng)絡(luò)命名空間之間的通信。

          虛擬網(wǎng)絡(luò)設(shè)備對(duì)(veth)

          虛擬網(wǎng)絡(luò)設(shè)備對(duì) 用于解決不同網(wǎng)絡(luò)命名空間之間的通信,可以將其看成是兩塊有網(wǎng)線連接的網(wǎng)卡。只要將其中一塊網(wǎng)卡放置到網(wǎng)絡(luò)命名空間A,另外一塊網(wǎng)卡放置到網(wǎng)絡(luò)命名空間B,那么兩個(gè)不同的網(wǎng)絡(luò)命名空間就能夠通信,如下圖所示:


          如上圖所示,veth0 與 veth1 組成一個(gè)虛擬網(wǎng)絡(luò)設(shè)備對(duì)。虛擬網(wǎng)絡(luò)設(shè)備對(duì) 就像管道一樣,只要向其中一端發(fā)送數(shù)據(jù),就可以從另外一端接收到數(shù)據(jù)。

          Docker 就是使用 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 來(lái)實(shí)現(xiàn)不同容器之間的通信,其原理如下圖:

          從上圖可以看出,每個(gè)容器之間并不是直接通過(guò) 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 來(lái)進(jìn)行連接的,而是在主機(jī)上創(chuàng)建一個(gè)名為 docker0 的 網(wǎng)橋,然后通過(guò) 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 來(lái)將各個(gè)容器連接到 網(wǎng)橋 上。網(wǎng)橋 有將多個(gè) 網(wǎng)絡(luò)設(shè)備 連接起來(lái)的能力,就如現(xiàn)實(shí)中的 交換機(jī) 一樣。

          當(dāng)然,本文的主題是 veth 的實(shí)現(xiàn),而不是 網(wǎng)橋 的現(xiàn)實(shí),所以對(duì) 網(wǎng)橋 的介紹就此結(jié)束,有興趣可以參考《Linux網(wǎng)橋工作原理與實(shí)現(xiàn)》一文。

          虛擬網(wǎng)絡(luò)設(shè)備對(duì)實(shí)現(xiàn)

          在 Linux 內(nèi)核中,使用 net_device 對(duì)象來(lái)表示一個(gè)網(wǎng)絡(luò)設(shè)備。由于 veth 提供雙向通信的功能,所以需要使用兩個(gè) net_device 對(duì)象來(lái)實(shí)現(xiàn)。由于 net_device 對(duì)象比較龐大,所以這里只列出本文相關(guān)的字段:

          struct net_device
          {

              char name[IFNAMSIZ];
              ...
              const struct net_device_ops *netdev_ops;
              ...
          }

          下面介紹一下這兩個(gè)字段的作用:

          • name:用來(lái)存儲(chǔ)設(shè)備的名稱,如 eth0
          • netdev_ops:設(shè)備相關(guān)的操作接口列表,如初始化設(shè)備的接口、關(guān)閉設(shè)備的接口和發(fā)送數(shù)據(jù)的接口等。

          由于 veth 由兩個(gè) net_device 對(duì)象組成的,所以這兩個(gè) net_device 對(duì)象應(yīng)該有指向?qū)Ψ降闹羔槨5ㄟ^(guò)查閱代碼,并沒(méi)發(fā)現(xiàn)有指向?qū)Ψ降闹羔槪敲磧?nèi)核是怎么實(shí)現(xiàn) veth 的呢?

          雖然 Linux 內(nèi)核使用 net_device 對(duì)象來(lái)表示一個(gè)網(wǎng)絡(luò)設(shè)備,但由于不同廠商的網(wǎng)絡(luò)設(shè)備可能存在各種差異,所以為了讓 Linux 內(nèi)核能夠適應(yīng)各種網(wǎng)絡(luò)設(shè)備,故為不同的網(wǎng)絡(luò)設(shè)備提供私有數(shù)據(jù)的存儲(chǔ)空間。

          也就是說(shuō),一個(gè)網(wǎng)絡(luò)設(shè)備除了擁有 net_device 部分外,還有其私有數(shù)據(jù)部分。不同的網(wǎng)絡(luò)設(shè)備其私有數(shù)據(jù)部分不同,而網(wǎng)絡(luò)設(shè)備的私有數(shù)據(jù)部分存一般放在 net_device 對(duì)象的結(jié)束位置,如下圖所示:

          上圖展示了 PCMCIA網(wǎng)卡 和 RTL-8139網(wǎng)卡 對(duì)應(yīng)的私有數(shù)據(jù)部分存儲(chǔ)的位置,PCMCIA網(wǎng)卡 的私有數(shù)據(jù)部分對(duì)應(yīng)的是 pcnet_dev_t 結(jié)構(gòu),而 RTL-8139網(wǎng)卡 的私有數(shù)據(jù)部分對(duì)應(yīng)的是 rtl8139_private 結(jié)構(gòu)。

          回到我們的主題,虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的私有數(shù)據(jù)部分由 veth_priv 結(jié)構(gòu)表示,其定義如下:

          struct veth_priv {
              struct net_device *peer;
              struct veth_net_stats *stats;
              ...
          };

          下面介紹一下 veth_priv 結(jié)構(gòu)各個(gè)字段的作用:

          • peer:由于 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 是由一對(duì)網(wǎng)絡(luò)設(shè)備組成,所以此字段用于指向設(shè)備對(duì)的另外一個(gè)設(shè)備。
          • stats:用于保存統(tǒng)計(jì)信息。

          從 veth_priv 結(jié)構(gòu)可以看出,虛擬網(wǎng)絡(luò)設(shè)備對(duì) 所屬的兩個(gè)設(shè)備對(duì)象是由 peer 字段來(lái)關(guān)聯(lián)起來(lái)的,如下圖所示:

          1. 創(chuàng)建虛擬網(wǎng)絡(luò)設(shè)備對(duì)

          當(dāng)使用 ip 命令創(chuàng)建一對(duì) 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 時(shí),會(huì)觸發(fā)調(diào)用 veth_newlink 函數(shù)來(lái)完成創(chuàng)建工作,其實(shí)現(xiàn)如下:

          static int
          veth_newlink(struct net_device *dev, struct nlattr *tb[], struct nlattr *data[])
          {
              int err;
              struct net_device *peer;
              struct veth_priv *priv;
              char ifname[IFNAMSIZ];
              ...

              // 由于虛擬網(wǎng)絡(luò)設(shè)備對(duì)是由兩個(gè)網(wǎng)絡(luò)設(shè)備組成,
              // dev 是虛擬網(wǎng)絡(luò)設(shè)備對(duì)的其中一個(gè)網(wǎng)絡(luò)設(shè)備,
              // 所以需要調(diào)用 rtnl_create_link() 函數(shù)創(chuàng)建的另外一個(gè)網(wǎng)絡(luò)設(shè)備并保存到 peer 變量中.
              peer = rtnl_create_link(dev_net(dev), ifname, &veth_link_ops, tbp);
              ...

              priv = netdev_priv(dev);  // 獲取 dev 的私有數(shù)據(jù)部分
              priv->peer = peer;        // 將其 peer 字段指向 peer

              priv = netdev_priv(peer); // 獲取 peer 的私有數(shù)據(jù)部分
              priv->peer = dev;         // 將其 peer 字段指向 dev

              return 0;
          }

          上面代碼經(jīng)過(guò)精簡(jiǎn)后,保留了主要邏輯,所以 veth_newlink 主要完成以下工作:

          • 由于虛擬網(wǎng)絡(luò)設(shè)備對(duì)是由兩個(gè)網(wǎng)絡(luò)設(shè)備組成,而 dev 是虛擬網(wǎng)絡(luò)設(shè)備對(duì)的其中一個(gè)網(wǎng)絡(luò)設(shè)備,所以需要調(diào)用 rtnl_create_link 函數(shù)創(chuàng)建的另外一個(gè)網(wǎng)絡(luò)設(shè)備,并保存到 peer 變量中。
          • 將其 dev 設(shè)備對(duì)象的 peer 字段指向 peer 設(shè)備對(duì)象。
          • 將其 peer 設(shè)備對(duì)象的 peer 字段指向 dev 設(shè)備對(duì)象。

          就這樣,一對(duì) 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的創(chuàng)建就完成了。

          2. 初始化虛擬網(wǎng)絡(luò)設(shè)備對(duì)

          當(dāng)然,在創(chuàng)建 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 時(shí)還需要對(duì)其進(jìn)行初始化,初始化過(guò)程由 veth_setup 函數(shù)完成,其實(shí)現(xiàn)如下:

          static const struct net_device_ops veth_netdev_ops = {
              ...
              .ndo_start_xmit = veth_xmit,
              ...
          };

          static void veth_setup(struct net_device *dev)
          {
              ...
              dev->netdev_ops = &veth_netdev_ops;
              ...
          }

          在初始化 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 時(shí),最重要的是設(shè)置其操作函數(shù)集。而 net_device_ops 結(jié)構(gòu)是網(wǎng)絡(luò)設(shè)備的操作函數(shù)集結(jié)構(gòu),當(dāng)向設(shè)備發(fā)送數(shù)據(jù)時(shí),將會(huì)觸發(fā)調(diào)用設(shè)備操作函數(shù)集的 ndo_start_xmit 方法。

          而 veth_setup 函數(shù)將此方法設(shè)置為 veth_xmit,也就是說(shuō),當(dāng)向 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的其中一端發(fā)送數(shù)據(jù)時(shí),將會(huì)調(diào)用 veth_xmit 函數(shù)來(lái)發(fā)送數(shù)據(jù)。

          3. 向虛擬網(wǎng)絡(luò)設(shè)備對(duì)發(fā)送數(shù)據(jù)

          當(dāng)向 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的其中一端發(fā)送數(shù)據(jù)時(shí),將會(huì)調(diào)用 veth_xmit 函數(shù)來(lái)完成發(fā)送過(guò)程,其實(shí)現(xiàn)如下:

          static netdev_tx_t veth_xmit(struct sk_buff *skb, struct net_device *dev)
          {
              struct net_device *rcv = NULL;
              struct veth_priv *priv, *rcv_priv;
              ...

              // 獲取發(fā)送數(shù)據(jù)設(shè)備的對(duì)端設(shè)備
              priv = netdev_priv(dev); 
              rcv = priv->peer;
              ...

              skb->tstamp.tv64 = 0;
              skb->pkt_type = PACKET_HOST;
              // 將數(shù)據(jù)包的接收設(shè)備設(shè)置為對(duì)端設(shè)備
              skb->protocol = eth_type_trans(skb, rcv);
              ...

              // 將數(shù)據(jù)包上送給內(nèi)核協(xié)議棧
              netif_rx(skb);

              return NETDEV_TX_OK;
          }

          我們先來(lái)介紹一下 veth_xmit 函數(shù)各個(gè)參數(shù)的意義:

          • skb:要發(fā)送的數(shù)據(jù)包對(duì)象。
          • dev:發(fā)送數(shù)據(jù)的設(shè)備。

          veth_xmit 函數(shù)的實(shí)現(xiàn)比較簡(jiǎn)單,主要完成以下工作:

          • 獲取發(fā)送數(shù)據(jù)設(shè)備的對(duì)端設(shè)備。
          • 將數(shù)據(jù)包的接收設(shè)備設(shè)置為對(duì)端設(shè)備。
          • 將數(shù)據(jù)包上送給內(nèi)核協(xié)議棧。

          我們通過(guò)下圖來(lái)展示發(fā)送數(shù)據(jù)的過(guò)程:

          如上圖所示,當(dāng)一個(gè)數(shù)據(jù)包從 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的一端發(fā)送出去,會(huì)從其另外一端被接收,并上送到內(nèi)核協(xié)議棧處理。

          總結(jié)

          由于 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的出現(xiàn),解決了容器間的通信問(wèn)題。而本文主要分析了 虛擬網(wǎng)絡(luò)設(shè)備對(duì) 的實(shí)現(xiàn)原理,但是有些細(xì)節(jié)并沒(méi)有詳細(xì)分析,如果有不懂的地方可以加我微信一起探討。


          瀏覽 86
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费看色情视频 | 国产 丝袜 人妻 制服 一区 | 中文在线a 在线 | 国产成人精品一区二区三区四区五区 | 国产大奶一区二区 |