【127期】??面試官:你說使用過ZooKeeper,那來說說他的基本原理吧
閱讀本文大概需要 10?分鐘。
ZooKeeper簡介

ZooKeeper設(shè)計目的
最終一致性:client不論連接到哪個Server,展示給它都是同一個視圖,這是zookeeper最重要的性能。
可靠性:具有簡單、健壯、良好的性能,如果消息m被到一臺服務(wù)器接受,那么它將被所有的服務(wù)器接受。
實時性:Zookeeper保證客戶端將在一個時間間隔范圍內(nèi)獲得服務(wù)器的更新信息,或者服務(wù)器失效的信息。但由于網(wǎng)絡(luò)延時等原因,Zookeeper不能保證兩個客戶端能同時得到剛更新的數(shù)據(jù),如果需要最新數(shù)據(jù),應(yīng)該在讀數(shù)據(jù)之前調(diào)用sync()接口。
等待無關(guān)(wait-free):慢的或者失效的client不得干預(yù)快速的client的請求,使得每個client都能有效的等待。
原子性:更新只能成功或者失敗,沒有中間狀態(tài)。
順序性:包括全局有序和偏序兩種:全局有序是指如果在一臺服務(wù)器上消息a在消息b前發(fā)布,則在所有Server上消息a都將在消息b前被發(fā)布;偏序是指如果一個消息b在消息a后被同一個發(fā)送者發(fā)布,a必將排在b前面。
ZooKeeper數(shù)據(jù)模型

Persistent 節(jié)點,一旦被創(chuàng)建,便不會意外丟失,即使服務(wù)器全部重啟也依然存在。每個 Persist 節(jié)點即可包含數(shù)據(jù),也可包含子節(jié)點。
Ephemeral 節(jié)點,在創(chuàng)建它的客戶端與服務(wù)器間的 Session 結(jié)束時自動被刪除。服務(wù)器重啟會導(dǎo)致 Session 結(jié)束,因此 Ephemeral 類型的 znode 此時也會自動刪除。
Non-sequence 節(jié)點,多個客戶端同時創(chuàng)建同一 Non-sequence 節(jié)點時,只有一個可創(chuàng)建成功,其它勻失敗。并且創(chuàng)建出的節(jié)點名稱與創(chuàng)建時指定的節(jié)點名完全一樣。
Sequence 節(jié)點,創(chuàng)建出的節(jié)點名在指定的名稱之后帶有10位10進(jìn)制數(shù)的序號。多個客戶端創(chuàng)建同一名稱的節(jié)點時,都能創(chuàng)建成功,只是序號不同。
ZooKeeper Session

注意:如果因為網(wǎng)絡(luò)狀態(tài)不好,client和Server失去聯(lián)系,client會停留在當(dāng)前狀態(tài),會嘗試主動再次連接Zookeeper Server。client不能宣稱自己的session expired,session expired是由Zookeeper Server來決定的,client可以選擇自己主動關(guān)閉session。
ZooKeeper Watch
a watch event is one-time trigger, sent to the client that set the watch, whichoccurs when the data for which the watch was set changes。
Consistency Guarantees
順序一致性(Sequential Consistency):從一個客戶端來的更新請求會被順序執(zhí)行。
原子性(Atomicity):更新要么成功要么失敗,沒有部分成功的情況。
唯一的系統(tǒng)鏡像(Single System Image):無論客戶端連接到哪個Server,看到系統(tǒng)鏡像是一致的。
可靠性(Reliability):更新一旦有效,持續(xù)有效,直到被覆蓋。
時間線(Timeliness):保證在一定的時間內(nèi)各個客戶端看到的系統(tǒng)信息是一致的。
ZooKeeper的工作原理
角色:leader,follower,observer
狀態(tài):leading,following,observing,looking
LOOKING:當(dāng)前Server不知道leader是誰,正在搜尋。
LEADING:當(dāng)前Server即為選舉出來的leader。
FOLLOWING:leader已經(jīng)選舉出來,當(dāng)前Server與之同步。
OBSERVING:observer的行為在大多數(shù)情況下與follower完全一致,但是他們不參加選舉和投票,而僅僅接受(observing)選舉和投票的結(jié)果。
Leader Election
選舉線程由當(dāng)前Server發(fā)起選舉的線程擔(dān)任,其主要功能是對投票結(jié)果進(jìn)行統(tǒng)計,并選出推薦的Server;
選舉線程首先向所有Server發(fā)起一次詢問(包括自己);
選舉線程收到回復(fù)后,驗證是否是自己發(fā)起的詢問(驗證zxid是否一致),然后獲取對方的id(myid),并存儲到當(dāng)前詢問對象列表中,最后獲取對方提議的leader相關(guān)信息(id,zxid),并將這些信息存儲到當(dāng)次選舉的投票記錄表中;
收到所有Server回復(fù)以后,就計算出zxid最大的那個Server,并將這個Server相關(guān)信息設(shè)置成下一次要投票的Server;
線程將當(dāng)前zxid最大的Server設(shè)置為當(dāng)前Server要推薦的Leader,如果此時獲勝的Server獲得n/2 + 1的Server票數(shù),設(shè)置當(dāng)前推薦的leader為獲勝的Server,將根據(jù)獲勝的Server相關(guān)信息設(shè)置自己的狀態(tài),否則,繼續(xù)這個過程,直到leader被選舉出來。
Leader工作流程
恢復(fù)數(shù)據(jù);
維持與follower的心跳,接收follower請求并判斷follower的請求消息類型;
follower的消息類型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息,根據(jù)不同的消息類型,進(jìn)行不同的處理。
PING消息是指follower的心跳信息;REQUEST消息是follower發(fā)送的提議信息,包括寫請求及同步請求;
ACK消息是follower的對提議的回復(fù),超過半數(shù)的follower通過,則commit該提議;
REVALIDATE消息是用來延長SESSION有效時間。
Follower工作流程
向Leader發(fā)送請求(PING消息、REQUEST消息、ACK消息、REVALIDATE消息);
接收Leader消息并進(jìn)行處理;
接收Client的請求,如果為寫請求,發(fā)送給Leader進(jìn)行投票;
返回Client結(jié)果。
PING消息:心跳消息
PROPOSAL消息:Leader發(fā)起的提案,要求Follower投票
COMMIT消息:服務(wù)器端最新一次提案的信息
UPTODATE消息:表明同步完成
REVALIDATE消息:根據(jù)Leader的REVALIDATE結(jié)果,關(guān)閉待revalidate的session還是允許其接受消息
SYNC消息:返回SYNC結(jié)果到客戶端,這個消息最初由客戶端發(fā)起,用來強(qiáng)制得到最新的更新。
Zab: Broadcasting State Updates
Leader給所有的follower發(fā)送一個PROPOSAL消息。
一個follower接收到這次PROPOSAL消息,寫到磁盤,發(fā)送給leader一個ACK消息,告知已經(jīng)收到。
當(dāng)Leader收到法定人數(shù)(quorum)的follower的ACK時候,發(fā)送commit消息執(zhí)行。
如果leader以T1和T2的順序廣播,那么所有的Server必須先執(zhí)行T1,再執(zhí)行T2。
如果任意一個Server以T1、T2的順序commit執(zhí)行,其他所有的Server也必須以T1、T2的順序執(zhí)行。
在新的leader廣播Transaction之前,先前Leader commit的Transaction都會先執(zhí)行。
在任意時刻,都不會有2個Server同時有法定人數(shù)(quorum)的支持者。
這里的quorum是一半以上的Server數(shù)目,確切的說是有投票權(quán)力的Server(不包括Observer)。
總結(jié)
推薦閱讀:
【125期】舉例說明消息隊列應(yīng)用場景及ActiveMQ、RocketMQ、Kafka等的對比
微信掃描二維碼,關(guān)注我的公眾號
朕已閱?

