<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Linux網絡新技術基石 |? eBPF and XDP

          共 7779字,需瀏覽 16分鐘

           ·

          2021-08-01 08:55


          hi,大家好,歡迎來到極客重生的世界,今天給大家分享的是Linux 網絡新技術,當前正流行網絡技是什么?那就是eBPF和XDP技術,Cilium+eBPF超級火熱,Google GCP也剛剛全面轉過來。


          新技術出現(xiàn)的歷史原因

          廉頗老矣,尚能飯否


          iptables/netfilter


          iptables/netfilter 是上個時代Linux網絡提供的優(yōu)秀的防火墻技術,擴展性強,能夠滿足當時大部分網絡應用需求,如果不知道iptables/netfilter是什么,請參考之前文章:一個奇葩的網絡問題,把技術磚家"搞蒙了" ,里面對iptables/netfilter技術有詳細介紹。


          但該框架也存在很多明顯問題:


          • 路徑太長

          netfilter 框架在IP層,報文需要經過鏈路層,IP層才能被處理,如果是需要丟棄報文,會白白浪費很多CPU資源,影響整體性能;

          • O(N)匹配

          如上圖所示,極端情況下,報文需要依次遍歷所有規(guī)則,才能匹配中,極大影響報文處理性能;

          • 規(guī)則太多

          netfilter 框架類似一套可以自由添加策略規(guī)則專家系統(tǒng),并沒有對添加規(guī)則進行合并優(yōu)化,這些都嚴重依賴操作人員技術水平,隨著規(guī)模的增大,規(guī)則數量n成指數級增長,而報文處理又是0(n)復雜度,最終性能會直線下降。


          內核協(xié)議棧



          隨著互聯(lián)網流量越來愈大, 網卡性能越來越強,Linux內核協(xié)議棧在10Mbps/100Mbps網卡的慢速時代是沒有任何問題的,那個時候應用程序大部分時間在等網卡送上來數據。


          現(xiàn)在到了1000Mbps/10Gbps/40Gbps網卡的時代,數據被很快地收入,協(xié)議棧復雜處理邏輯,效率捉襟見肘,把大量報文堵在內核里。


          各類鏈表在多CPU環(huán)境下的同步開銷。

          不可睡眠的軟中斷路徑過長。

          sk_buff的分配和釋放。

          內存拷貝的開銷。

          上下文切換造成的cache miss。


          于是,內核協(xié)議棧各種優(yōu)化措施應著需求而來:


          網卡RSS,多隊列。

          中斷線程化。

          分割鎖粒度。

          Busypoll。


          但卻都是見招拆招,治標不治本。問題的根源不是這些機制需要優(yōu)化,而是這些機制需要推倒重構。蒸汽機車剛出來的時候,馬車夫為了保持競爭優(yōu)勢,不是去換一匹昂貴的快馬,而是賣掉馬去買一臺蒸汽機裝上?;揪褪沁@個意思。


          重構的思路很顯然有兩個:


          upload方法別讓應用程序等內核了,讓應用程序自己去網卡直接拉數據。

          offload方法別讓內核處理網絡邏輯了,讓網卡自己處理。


          總之,繞過內核就對了,內核協(xié)議棧背負太多歷史包袱。


          DPDK讓用戶態(tài)程序直接處理網絡流,bypass掉內核,使用獨立的CPU專門干這個事。


          XDP讓灌入網卡的eBPF程序直接處理網絡流,bypass掉內核,使用網卡NPU專門干這個事。


          如此一來,內核協(xié)議棧就不再參與數據平面的事了,留下來專門處理諸如路由協(xié)議,遠程登錄等控制平面和管理平面的數據流。


          改善iptables/netfilter的規(guī)模瓶頸,提高Linux內核協(xié)議棧IO性能,內核需要提供新解決方案,那就是eBPF/XDP框架,讓我們來看一看,這套框架是如何解決問題的。

          eBPF到底是什么?

          ?????eBPF的歷史


          BPF 是 Linux 內核中高度靈活和高效的類似虛擬機的技術,允許以安全的方式在各個掛鉤點執(zhí)行字節(jié)碼。它用于許多 Linux 內核子系統(tǒng),最突出的是網絡、跟蹤和安全(例如沙箱)。


          BPF架構


          BPF 是一個通用目的 RISC 指令集,其最初的設計目標是:用 C 語言的一個子集編 寫程序,然后用一個編譯器后端(例如 LLVM)將其編譯成 BPF 指令,稍后內核再通 過一個位于內核中的(in-kernel)即時編譯器(JIT Compiler)將 BPF 指令映射成處理器的原生指令(opcode ),以取得在內核中的最佳執(zhí)行性能。


          BPF指令


          盡管 BPF 自 1992 年就存在,擴展的 Berkeley Packet Filter (eBPF) 版本首次出現(xiàn)在 Kernel3.18中,如今被稱為“經典”BPF (cBPF) 的版本已過時。許多人都知道 cBPF是tcpdump使用的數據包過濾語言。現(xiàn)在Linux內核只運行 eBPF,并且加載的 cBPF 字節(jié)碼在程序執(zhí)行之前被透明地轉換為內核中的eBPF表示。除非指出 eBPF 和 cBPF 之間的明確區(qū)別,一般現(xiàn)在說的BPF就是指eBPF。


          eBPF總體設計


              

          • BPF 不僅通過提供其指令集來定義自己,而且還通過提供圍繞它的進一步基礎設施,例如充當高效鍵/值存儲的映射、與內核功能交互并利用內核功能的輔助函數、調用其他 BPF 程序的尾調用、安全加固原語、用于固定對象(地圖、程序)的偽文件系統(tǒng),以及允許將 BPF 卸載到網卡的基礎設施。

          • LLVM 提供了一個 BPF后端,因此可以使用像 clang 這樣的工具將 C 編譯成 BPF 目標文件,然后可以將其加載到內核中。BPF與Linux 內核緊密相連,允許在不犧牲本機內核性能的情況下實現(xiàn)完全可編程。


          eBPF總體設計包括以下幾個部分:

          eBPF Runtime


          • 安全保障 : eBPF的verifier 將拒絕任何不安全的程序并提供沙箱運行環(huán)境

          • 持續(xù)交付: 程序可以更新在不中斷工作負載的情況下

          • 高性能:JIT編譯器可以保證運行性能

          eBPF Hooks

          • 內核函數 (kprobes)、用戶空間函數 (uprobes)、系統(tǒng)調用、fentry/fexit、跟蹤點、網絡設備 (tc/xdp)、網絡路由、TCP 擁塞算法、套接字(數據面)


          eBPF Maps


          Map 類型

          - Hash tables, Arrays

          - LRU (Least Recently Used)

          - Ring Buffer

          - Stack Trace

          - LPM (Longest Prefix match)


          作用

          • 程序狀態(tài)

          • 程序配置

          • 程序間共享數據

          • 和用戶空間共享狀態(tài)、指標和統(tǒng)計


          eBPF Helpers


          有哪些Helpers?

          • 隨機數

          • 獲取當前時間

          • map訪問

          • 獲取進程/cgroup 上下文

          • 處理網絡數據包和轉發(fā)

          • 訪問套接字數據

          • 執(zhí)行尾調用

          • 訪問進程棧

          • 訪問系統(tǒng)調用參數

          • ...


          eBPF Tail and Function Calls


          尾調用有什么用?

          ● 將程序鏈接在一起

          ● 將程序拆分為獨立的邏輯組件

          ● 使 BPF 程序可組合


          函數調用有什么用?

          ● 重用內部的功能程序

          ● 減少程序大?。ū苊鈨嚷?lián))


          eBPF JIT Compiler

          • 確保本地執(zhí)行性能而不需要了解CPU

          • 將 BPF字節(jié)碼編譯到CPU架構特定指令集



          eBPF可以做什么?




          eBPF 開源 Projects



          Cilium


          ????



          • Cilium 是開源軟件,用于Linux容器管理平臺(如 Docker 和 Kubernetes)部署的服務之間的透明通信和提供安全隔離保護。

          • Cilium基于微服務的應用,使用HTTP、gRPC、Kafka等輕量級協(xié)議API相互通信。

           

          • Cilium 的基于 eBPF 的新 Linux 內核技術,它能夠在 Linux 本身中動態(tài)插入強大的安全可見性和控制邏輯。由于 eBPF 在 Linux 內核中運行,因此可以在不更改應用程序代碼或容器配置的情況下應用和更新 Cilium 安全策略。


          Cilium在它的 datapath 中重度使用了 BPF 技術


          • Cilium 是位于 Linux kernel 與容器編排系統(tǒng)的中間層。向上可以為容器配置網絡,向下可以向 Linux 內核生成 BPF 程序來控制容器的安全性和轉發(fā)行為。

          • 利用 Linux BPF,Cilium 保留了透明地插入安全可視性 + 強制執(zhí)行的能力,但這種方式基于服務 /pod/ 容器標識(與傳統(tǒng)系統(tǒng)中的 IP 地址識別相反),并且可以根據應用層進行過濾 (例如 HTTP)。因此,通過將安全性與尋址分離,Cilium 不僅可以在高度動態(tài)的環(huán)境中應用安全策略,而且除了提供傳統(tǒng)的第 3 層和第 4 層分割之外,還可以通過在 HTTP 層運行來提供更強的安全隔離。

          • BPF 的使用使得 Cilium 能夠以高度可擴展的方式實現(xiàn)以上功能,即使對于大規(guī)模環(huán)境也不例外。


          對比傳統(tǒng)容器網絡(采用iptables/netfilter):


          • eBPF主機路由允許繞過主機命名空間中所有的 iptables 和上層網絡棧,以及穿過Veth對時的一些上下文切換,以節(jié)省資源開銷。網絡數據包到達網絡接口設備時就被盡早捕獲,并直接傳送到Kubernetes Pod的網絡命名空間中。在流量出口側,數據包同樣穿過Veth對,被eBPF捕獲后,直接被傳送到外部網絡接口上。eBPF直接查詢路由表,因此這種優(yōu)化完全透明。

          • 基于eBPF中的kube-proxy網絡技術正在替換基于iptables的kube-proxy技術,與Kubernetes中的原始kube-proxy相比,eBPF中的kuber-proxy替代方案具有一系列重要優(yōu)勢,例如更出色的性能、可靠性以及可調試性等等。



          BCC(BPF Compiler Collection)


          BCC 是一個框架,它使用戶能夠編寫嵌入其中的 eBPF 程序的 Python 程序。該框架主要針對涉及應用程序和系統(tǒng)分析/跟蹤的用例,其中 eBPF 程序用于收集統(tǒng)計信息或生成事件,用戶空間中的對應部分收集數據并以人類可讀的形式顯示。運行 python 程序將生成 eBPF 字節(jié)碼并將其加載到內核中。

          bpftrace

          bpftrace 是一種用于 Linux eBPF 的高級跟蹤語言,可在最近的 Linux 內核 (4.x) 中使用。bpftrace 使用 LLVM 作為后端將腳本編譯為 eBPF 字節(jié)碼,并利用 BCC 與 Linux eBPF 子系統(tǒng)以及現(xiàn)有的 Linux 跟蹤功能進行交互:內核動態(tài)跟蹤 (kprobes)、用戶級動態(tài)跟蹤 (uprobes) 和跟蹤點. bpftrace 語言的靈感來自 awk、C 和前身跟蹤器,例如 DTrace 和 SystemTap。


          eBPF Go 庫

          eBPF Go 庫提供了一個通用的 eBPF 庫,它將獲取 eBPF 字節(jié)碼的過程與 eBPF 程序的加載和管理解耦。eBPF 程序通常是通過編寫高級語言創(chuàng)建的,然后使用 clang/LLVM 編譯器編譯為 eBPF 字節(jié)碼。


          libbpf C/C++ 庫

          libbpf 庫是一個基于 C/C++ 的通用 eBPF 庫,它有助于解耦從 clang/LLVM 編譯器生成的 eBPF 目標文件加載到內核中,并通過提供易于使用的庫 API 來抽象與 BPF 系統(tǒng)調用的交互應用程序。



          那XDP又是什么?

          XDP的全稱是: eXpress Data Path


          XDP 是Linux 內核中提供高性能、可編程的網絡數據包處理框架。


          XDP整體框架

          • 直接接管網卡的RX數據包(類似DPDK用戶態(tài)驅動)處理;

          • 通過運行BPF指令快速處理報文;

          • 和Linux協(xié)議棧無縫對接;


          XDP總體設計

          XDP總體設計包括以下幾個部分:


          XDP驅動

          網卡驅動中XDP程序的一個掛載點,每當網卡接收到一個數據包就會執(zhí)行這個XDP程序;XDP程序可以對數據包進行逐層解析、按規(guī)則進行過濾,或者對數據包進行封裝或者解封裝,修改字段對數據包進行轉發(fā)等;


          BPF虛擬機

          并沒有在圖里畫出來,一個XDP程序首先是由用戶編寫用受限制的C語言編寫的,然后通過clang前端編譯生成BPF字節(jié)碼,字節(jié)碼加載到內核之后運行在eBPF虛擬機上,虛擬機通過即時編譯將XDP字節(jié)碼編譯成底層二進制指令;eBPF虛擬機支持XDP程序的動態(tài)加載和卸載;


          BPF maps

          存儲鍵值對,作為用戶態(tài)程序和內核態(tài)XDP程序、內核態(tài)XDP程序之間的通信媒介,類似于進程間通信的共享內存訪問;用戶態(tài)程序可以在BPF映射中預定義規(guī)則,XDP程序匹配映射中的規(guī)則對數據包進行過濾等;XDP程序將數據包統(tǒng)計信息存入BPF映射,用戶態(tài)程序可訪問BPF映射獲取數據包統(tǒng)計信息;


          BPF程序校驗器

          XDP程序肯定是我們自己編寫的,那么如何確保XDP程序加載到內核之后不會導致內核崩潰或者帶來其他的安全問題呢?程序校驗器就是在將XDP字節(jié)碼加載到內核之前對字節(jié)碼進行安全檢查,比如判斷是否有循環(huán),程序長度是否超過限制,程序內存訪問是否越界,程序是否包含不可達的指令;


          XDP Action

          XDP用于報文的處理,支持如下action:

          enum xdp_action {    XDP_ABORTED = 0,    XDP_DROP,    XDP_PASS,    XDP_TX,    XDP_REDIRECT,};

          • XDP_DROP:在驅動層丟棄報文,通常用于實現(xiàn)DDos或防火墻

          • XDP_PASS:允許報文上送到內核網絡棧,同時處理該報文的CPU會分配并填充一個skb,將其傳遞到GRO引擎。之后的處理與沒有XDP程序的過程相同。

          • XDP_TX從當前網卡發(fā)送出去

          • XDP_REDIRECT從其他網卡發(fā)送出去。

          • XDP_ABORTED:表示程序產生了異常,其行為和 XDP_DROP相同,但 XDP_ABORTED 會經過 trace_xdp_exception tracepoint,因此可以通過 tracing 工具來監(jiān)控這種非正常行為。



          AF_XDP

          AF_XDP 是為高性能數據包處理而優(yōu)化的地址族,AF_XDP 套接字使 XDP 程序可以將幀重定向到用戶空間應用程序中的內存緩沖區(qū)。



          XDP設計原則


          • XDP 專為高性能而設計。它使用已知技術并應用選擇性約束來實現(xiàn)性能目標

          • XDP 還具有可編程性。無需修改內核即可即時實現(xiàn)新功能

          • XDP 不是內核旁路。它是內核協(xié)議棧的快速路徑

          • XDP 不替代TCP/IP 協(xié)議棧。與協(xié)議棧協(xié)同工作

          • XDP 不需要任何專門的硬件。它支持網絡硬件的少即是多原則


          XDP技術優(yōu)勢


          及時處理

          • 在網絡協(xié)議棧前處理,由于 XDP 位于整個 Linux 內核網絡軟件棧的底部,能夠非常早地識別并丟棄攻擊報文,具有很高的性能??梢愿纳?iptables 協(xié)議棧丟包的性能瓶頸

          • DDIO

          • Packeting steering

          • 輪詢式


          高性能優(yōu)化

          • 無鎖設計

          • 批量I/O操作

          • 不需要分配skbuff

          • 支持網絡卸載

          • 支持網卡RSS


          指令虛擬機

          • 規(guī)則優(yōu)化,編譯成精簡指令,快速執(zhí)行

          • 支持熱更新,可以動態(tài)擴展內核功能

          • 易編程-高級語言也可以間接在內核運行

          • 安全可靠,BPF程序先校驗后執(zhí)行,XDP程序沒有循環(huán)


          可擴展模型

          • 支持應用處理(如應用層協(xié)議GRO)

          • 支持將BPF程序卸載到網卡

          • BPF程序可以移植到用戶空間或其他操作系統(tǒng)


          可編程性

          • 包檢測,BPF程序發(fā)現(xiàn)的動作

          • 靈活(無循環(huán))協(xié)議頭解析

          • 可能由于流查找而有狀態(tài)

          • 簡單的包字段重寫(encap/decap)



          XDP 工作模式


          XDP 有三種工作模式,默認是 native(原生)模式,當討論 XDP 時通常隱含的都是指這 種模式。

          • Native XDP

            默認模式,在這種模式中,XDP BPF 程序直接運行在網絡驅動的早期接收路徑上( early receive path)。

          • Offloaded XDP

            在這種模式中,XDP BPF程序直接 offload 到網卡。

          • Generic XDP

            對于還沒有實現(xiàn) native 或 offloaded XDP 的驅動,內核提供了一個 generic XDP 選 項,這種設置主要面向的是用內核的 XDP API 來編寫和測試程序的開發(fā)者,對于在生產環(huán)境使用XDP,推薦要么選擇native要么選擇offloaded模式?????。


          XDP vs DPDK




          相對于DPDK,XDP:


          優(yōu)點

          • 無需第三方代碼庫和許可

          • 同時支持輪詢式和中斷式網絡

          • 無需分配大頁

          • 無需專用的CPU

          • 無需定義新的安全網絡模型


          缺點

          注意XDP的性能提升是有代價的,它犧牲了通用型和公平性

          • XDP不提供緩存隊列(qdisc),TX設備太慢時直接丟包,因而不要在RX比TX快的設備上使用XDP

          • XDP程序是專用的,不具備網絡協(xié)議棧的通用性


          如何選擇?

          • 內核延伸項目,不想bypass內核的下一代高性能方案;

          • 想直接重用內核代碼;

          • 不支持DPDK程序環(huán)境;


          XDP適合場景

          • DDoS防御

          • 防火墻

          • 基于XDP_TX的負載均衡

          • 網絡統(tǒng)計

          • 流量監(jiān)控

          • 棧前過濾/處理

          • ...


          XDP例子


          下面是一個最小的完整 XDP 程序,實現(xiàn)丟棄包的功能(xdp-example.c):

          #include <linux/bpf.h>

          #ifndef __section
          # define __section(NAME) \
          __attribute__((section(NAME), used))
          #endif

          __section("prog")
          int xdp_drop(struct xdp_md *ctx)
          {
          return XDP_DROP;
          }

          char __license[] __section("license") = "GPL";


          用下面的命令編譯并加載到內核:

          $ clang -O2 -Wall -target bpf -c xdp-example.c -o xdp-example.o
          $ ip link set dev em1 xdp obj xdp-example.o


          以上命令將一個 XDP 程序 attach 到一個網絡設備,需要是 Linux 4.11 內核中支持 XDP 的設備,或者 4.12+ 版本的內核。

          最后

          eBPF/XDP 作為Linux網絡革新技術正在悄悄改變著Linux網絡發(fā)展模式。


          eBPF正在將Linux內核轉變?yōu)槲群?,越來越多的新內核功能采用eBPF實現(xiàn),讓新增內核功能更加快捷高效。


          ?????????????????????????體而言,基于業(yè)界基準測試結果,eBPF 顯然是解決具有挑戰(zhàn)性的云原生需求的最佳技術。

          參考&延伸閱讀

          The eXpress Data Path: 

          Fast Programmable Packet Processing in the Operating System Kernel

          https://docs.cilium.io/en/v1.6/bpf/

          bpf-rethinkingthelinuxkernel-200303183208

          https://ebpf.io/what-is-ebpf/

          https://www.kernel.org/doc/html/latest/networking/af_xdp.html

          https://cilium.io/blog/2021/05/11/cni-benchmark

          https://blog.csdn.net/dog250/article/details/107243696


          - END -



          瀏覽 235
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  波多野结衣久久精品 | 日韩无码成人影片 | 人人人人操人人人人精品 | 免费看黃色AAAAAA片 | 国产激情综合AV |