<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          《吃透 MQ 系列》之 Kafka 架構(gòu)設(shè)計(jì)的任督二脈

          共 3844字,需瀏覽 8分鐘

           ·

          2021-12-01 05:21

          大家好,我是武哥。這是《吃透 MQ 系列》的第三篇,有關(guān)?Kafka 的架構(gòu)設(shè)計(jì)。
          這篇文章將帶著大家參透:到底什么是 Kafka 架構(gòu)設(shè)計(jì)的任督二脈?
          把握住了這個(gè)關(guān)鍵點(diǎn),我相信你將能更好地理解 Kafka 的架構(gòu)設(shè)計(jì),進(jìn)而順藤摸瓜地掌握 Kafka 的核心技術(shù)方案。

          廢話不多說(shuō)了,開(kāi)始發(fā)車。

          ?1. Kafka 的技術(shù)難點(diǎn)究竟在哪???

          前一篇文章《扒開(kāi) Kafka 的神秘面紗》 交代了兩個(gè)關(guān)鍵信息:
          1、Kafka 為實(shí)時(shí)日志流而生,要處理的并發(fā)和數(shù)據(jù)量非常大。可見(jiàn),Kafka 本身就是一個(gè)高并發(fā)系統(tǒng),它必然會(huì)遇到高并發(fā)場(chǎng)景下典型的三高挑戰(zhàn):高性能、高可用和高擴(kuò)展。
          2、為了簡(jiǎn)化實(shí)現(xiàn)的復(fù)雜度,Kafka 最終采用了很巧妙的消息模型:它將所有消息進(jìn)行了持久化存儲(chǔ),讓消費(fèi)者自己各取所需,想取哪個(gè)消息,想什么時(shí)候取都行,只需要傳遞一個(gè)消息的 offset 進(jìn)行拉取即可。
          最終 Kafka 將自己退化成了一個(gè)「存儲(chǔ)系統(tǒng)」。因此,海量消息的存儲(chǔ)問(wèn)題就是 Kafka 架構(gòu)設(shè)計(jì)中的最大技術(shù)難點(diǎn)。

          2.?Kafka 架構(gòu)設(shè)計(jì)的任督二脈??

          下面我們?cè)俳又治鱿拢篕afka 究竟是如何解決存儲(chǔ)問(wèn)題的?
          面對(duì)海量數(shù)據(jù),單機(jī)的存儲(chǔ)容量和讀寫(xiě)性能肯定有限,大家很容易想到一種存儲(chǔ)方案:對(duì)數(shù)據(jù)進(jìn)行分片存儲(chǔ)這種方案在我們實(shí)際工作中也非常常見(jiàn):
          1、比如數(shù)據(jù)庫(kù)設(shè)計(jì)中,當(dāng)單表的數(shù)據(jù)量達(dá)到幾千萬(wàn)或者上億時(shí),我們會(huì)將它拆分成多個(gè)庫(kù)或者多張表。
          2、比如緩存設(shè)計(jì)中,當(dāng)單個(gè) Redis 實(shí)例的數(shù)據(jù)量達(dá)到幾十個(gè) G 引發(fā)性能瓶頸時(shí),我們會(huì)將單機(jī)架構(gòu)改成分片集群架構(gòu)。
          類似的拆分思想在 HDFS、ElasticSearch 等中間件中都能看到。
          Kafka 也不例外,它同樣采用了這種水平拆分方案。在 Kafka 的術(shù)語(yǔ)中,拆分后的數(shù)據(jù)子集叫做?Partition(分區(qū)),各個(gè)分區(qū)的數(shù)據(jù)合集即全量數(shù)據(jù)。
          我們?cè)賮?lái)看下 Kafka 中的 Partition 具體是如何工作的?舉一個(gè)很形象的例子,如果我們把Kafka類比成「高速公路」
          1、當(dāng)大家聽(tīng)到京廣高速的時(shí)候,知道這是一條從北京到廣州的高速路,這是邏輯上的叫法,可以理解成 Kafka 中的 Topic(主題)
          2、一條高速路通常會(huì)有多個(gè)車道進(jìn)行分流,每個(gè)車道上的車都是通往一個(gè)目的地的(屬于同一個(gè)Topic),這里所說(shuō)的車道便是 Partition。
          這樣,一條消息的流轉(zhuǎn)路徑就如下圖所示,先走主題路由,然后走分區(qū)路由,最終決定這條消息該發(fā)往哪個(gè)分區(qū)。
          其中分區(qū)路由可以簡(jiǎn)單理解成一個(gè) Hash 函數(shù),生產(chǎn)者在發(fā)送消息時(shí),完全可以自定義這個(gè)函數(shù)來(lái)決定分區(qū)規(guī)則。如果分區(qū)規(guī)則設(shè)定合理,所有消息將均勻地分配到不同的分區(qū)中。
          通過(guò)這樣兩層關(guān)系,最終在?Topic 之下,就有了一個(gè)新的劃分單位:Partition。先通過(guò) Topic 對(duì)消息進(jìn)行邏輯分類,然后通過(guò) Partition 進(jìn)一步做物理分片,最終多個(gè) Partition 又會(huì)均勻地分布在集群中的每臺(tái)機(jī)器上,從而很好地解決了存儲(chǔ)的擴(kuò)展性問(wèn)題。

          因此,Partition 是 Kafka 最基本的部署單元。本文之所以將 Partition 稱作 Kafka 架構(gòu)設(shè)計(jì)的任督二脈,基于下面兩點(diǎn)原因:

          1、Partition 是存儲(chǔ)的關(guān)鍵所在,MQ「一發(fā)一存一消費(fèi)」的核心流程必然圍繞它展開(kāi)。

          2、Kafka 高并發(fā)設(shè)計(jì)中最難的三高問(wèn)題都能和 Partition 關(guān)聯(lián)起來(lái)。

          因此,以 Partition 作為根,能很自然地聯(lián)想出 Kafka 架構(gòu)設(shè)計(jì)中的各個(gè)知識(shí)點(diǎn),形成可靠的知識(shí)體系。
          下面,請(qǐng)大家繼續(xù)跟著我的思路,以 Partition 為線索,對(duì) Kafka 的宏觀架構(gòu)進(jìn)行解析。

          3.?Kafka的宏觀架構(gòu)設(shè)計(jì)??

          接下來(lái),我們?cè)倏纯?Partition 的分布式能力究竟是如何實(shí)現(xiàn)的?它又是怎么和 Kafka 的整體架構(gòu)關(guān)聯(lián)起來(lái)的?
          前面講過(guò) Partition 是 Topic 之下的一個(gè)劃分單位,它是 Kafka 最基本的部署單元,它將決定 Kafka 集群的組織方式。

          假設(shè)現(xiàn)在有兩個(gè) Topic,每個(gè) Topic 都設(shè)置了兩個(gè) Partition,如果 Kafka 集群是兩臺(tái)機(jī)器,部署架構(gòu)將會(huì)是下面這樣:

          可以看到:同一個(gè) Topic 的兩個(gè) Partition 分布在不同的消息服務(wù)器上,能做到消息的分布式存儲(chǔ)了。但是對(duì)于 Kafka 這個(gè)高并發(fā)系統(tǒng)來(lái)說(shuō),僅存儲(chǔ)可擴(kuò)展還不夠,消息的拉取也必須并行才行,否則會(huì)遇到極大的性能瓶頸。
          那我們?cè)倏纯聪M(fèi)端,它又是如何跟 Partition 結(jié)合并做到并行處理的?

          從消費(fèi)者來(lái)看,首先要滿足兩個(gè)基本訴求:

          1、廣播消費(fèi)能力:同一個(gè) Topic 可以被多個(gè)消費(fèi)者訂閱,一條消息能夠被消費(fèi)多次。

          2、集群消費(fèi)能力:當(dāng)消費(fèi)者本身也是集群時(shí),每一條消息只能分發(fā)給集群中的一個(gè)消費(fèi)者進(jìn)行處理。

          為了滿足這兩點(diǎn)要求,Kafka 引出了消費(fèi)組的概念,每個(gè)消費(fèi)者都有一個(gè)對(duì)應(yīng)的消費(fèi)組,組間進(jìn)行廣播消費(fèi),組內(nèi)進(jìn)行集群消費(fèi)。此外,Kafka 還限定了:每個(gè) Partition 只能由消費(fèi)組中的一個(gè)消費(fèi)者進(jìn)行消費(fèi)。

          最終的消費(fèi)關(guān)系如下圖所示:假設(shè)主題 A 共有 4 個(gè)分區(qū),消費(fèi)組 2 只有兩個(gè)消費(fèi)者,最終這兩個(gè)消費(fèi)組將平分整個(gè)負(fù)載,各自消費(fèi)兩個(gè)分區(qū)的消息。

          如果要加快消息的處理速度,該如何做呢?也很簡(jiǎn)單,向消費(fèi)組 2 中增加新的消費(fèi)者即可,Kafka 將以 Partition 為單位重新做負(fù)載均衡。當(dāng)增加到 4 個(gè)消費(fèi)者時(shí),每個(gè)消費(fèi)者僅需處理 1 個(gè) Partition,處理速度將提升兩倍。
          到這里,存儲(chǔ)可擴(kuò)展、消息并行處理這兩個(gè)難題都解決了。但是高并發(fā)架構(gòu)設(shè)計(jì)上,還遺留了一個(gè)很重要的問(wèn)題:那就是高可用設(shè)計(jì)。
          在 Kafka 集群中,每臺(tái)機(jī)器都存儲(chǔ)了一些 Partition,一旦某臺(tái)機(jī)器宕機(jī),上面的數(shù)據(jù)不就丟失了嗎?
          此時(shí),你一定會(huì)想到對(duì)消息進(jìn)行持久化存儲(chǔ),但是持久化只能解決一部分問(wèn)題,它只能確保機(jī)器重啟后,歷史數(shù)據(jù)不丟失。但在機(jī)器恢復(fù)之前,這部分?jǐn)?shù)據(jù)將一直無(wú)法訪問(wèn)。這對(duì)于高并發(fā)系統(tǒng)來(lái)說(shuō),是無(wú)法忍受的。
          所以 Kafka 必須具備故障轉(zhuǎn)移能力才行,當(dāng)某臺(tái)機(jī)器宕機(jī)后仍然能保證服務(wù)可用。
          如果大家去分析任何一個(gè)高可靠的分布式系統(tǒng),比如?ElasticSearch、Redis Cluster,其實(shí)它們都有一套多副本的冗余機(jī)制。
          沒(méi)錯(cuò),Kafka 正是通過(guò) Partition 的多副本機(jī)制解決了高可用問(wèn)題。在 Kafka 集群中,每個(gè) Partition 都有多個(gè)副本,同一分區(qū)的不同副本中保存的是相同的消息。
          副本之間是 “一主多從” 的關(guān)系,其中 leader 副本負(fù)責(zé)讀寫(xiě)請(qǐng)求,follower 副本只負(fù)責(zé)和 leader 副本同步消息,當(dāng) leader 副本發(fā)生故障時(shí),它才有機(jī)會(huì)被選舉成新的 leader 副本并對(duì)外提供服務(wù),否則一直是待命狀態(tài)。
          現(xiàn)在,我假設(shè) Kafka 集群中有 4 臺(tái)服務(wù)器,主題 A 和主題 B 都有兩個(gè) Partition,且每個(gè) Partition 各有兩個(gè)副本,那最終的多副本架構(gòu)將如下圖所示:
          很顯然,這個(gè)集群中任何一臺(tái)機(jī)器宕機(jī),都不會(huì)影響 Kafka 的可用性,數(shù)據(jù)仍然是完整的。
          理解了上面這些內(nèi)容,最后我們?cè)俜催^(guò)來(lái)看下 Kafka 的整體架構(gòu):
          1、Producer:生產(chǎn)者,負(fù)責(zé)創(chuàng)建消息,然后投遞到 Kafka 集群中,投遞時(shí)需要指定消息所屬的 Topic,同時(shí)確定好發(fā)往哪個(gè) Partition。
          2、Consumer:消費(fèi)者,會(huì)根據(jù)它所訂閱的 Topic 以及所屬的消費(fèi)組,決定從哪些 Partition 中拉取消息。
          3、Broker:消息服務(wù)器,可水平擴(kuò)展,負(fù)責(zé)分區(qū)管理、消息的持久化、故障自動(dòng)轉(zhuǎn)移等。
          4、Zookeeper:負(fù)責(zé)集群的元數(shù)據(jù)管理等功能,比如集群中有哪些 broker 節(jié)點(diǎn)以及 Topic,每個(gè) Topic 又有哪些 Partition 等。
          很顯然,在 Kafka 整體架構(gòu)中,Partition 是發(fā)送消息、存儲(chǔ)消息、消費(fèi)消息的紐帶。吃透了它,再去理解整體架構(gòu),脈絡(luò)會(huì)更加清晰。

          4. 寫(xiě)在最后??

          本文以 Partition 為切入點(diǎn),從宏觀角度解析了 Kafka 的整體架構(gòu),再簡(jiǎn)單總結(jié)下本文的內(nèi)容:
          1、Kafka 通過(guò)巧妙的模型設(shè)計(jì),將自己退化成一個(gè)海量消息的存儲(chǔ)系統(tǒng)。
          2、為了解決存儲(chǔ)的擴(kuò)展性問(wèn)題,Kafka 對(duì)數(shù)據(jù)進(jìn)行了水平拆分,引出了 Partition(分區(qū)),這是 Kafka 部署的基本單元,同時(shí)也是 Kafka 并發(fā)處理的最小粒度。
          3、對(duì)于一個(gè)高并發(fā)系統(tǒng)來(lái)說(shuō),還需要做到高可用,Kafka 通過(guò) Partition 的多副本冗余機(jī)制進(jìn)行故障轉(zhuǎn)移,確保了高可靠。
          希望這篇文章能讓大家擺脫死記硬背的模式,先找到一個(gè)支點(diǎn),再去推敲 Kafka 架構(gòu)設(shè)計(jì)的來(lái)龍去脈,知其所以然。

          推薦閱讀:

          《吃透 MQ 系列》之扒開(kāi) Kafka 的神秘面紗

          23張圖,帶你入門推薦系統(tǒng)

          監(jiān)控系統(tǒng)選型,這篇不可不讀!

          網(wǎng)關(guān)技術(shù)選型,為什么選擇 Openresty ?


          關(guān)號(hào)互聯(lián)網(wǎng)全棧架構(gòu),價(jià)

          瀏覽 62
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久精品噜噜噜成人88Aⅴ | 男女激情操逼一区福利网站 | 俺去也亚洲地区 | 精品秘 一区二三区在线男奴 | 二区日逼视频 |