ZooKeeper在HBase集群中的作用
ZooKeeper作為分布式協(xié)調(diào)組件,在大數(shù)據(jù)領(lǐng)域的其他分布式組件中往往扮演著重要的輔助角色,因此我們就算不單獨去研究ZooKeeper,也短不了要接觸它。本文就以最典型的HBase為例,簡要介紹ZooKeeper為HBase提供了哪些功能。
下圖示出一個完整HBase集群的架構(gòu),其中包含ZK節(jié)點。

HMaster、RegionServer容錯
當(dāng)HBase集群啟動成功后,會在ZK注冊如下znode:
/hbase/master,其中包含當(dāng)前活動(即贏得選舉)的HMaster信息;
/hbase/backup-masters/[host-name],每個子znode包含當(dāng)前作為熱備的HMaster信息;
/hbase/rs/[host-name],每個子znode包含各RegionServer的信息。
所有znode都是臨時(ephemeral)節(jié)點,HMaster和RegionServer通過心跳維護(hù)這些znode。活動HMaster對/hbase/rs路徑下的znode注冊監(jiān)聽,當(dāng)有RegionServer失敗時,心跳信號消失,超時過后其對應(yīng)的znode被刪除,HMaster即可感知到RegionServer下線,并將該RegionServer持有的Region重新路由到其他服務(wù)器上去。同理,所有熱備HMaster都對/hbase/master節(jié)點注冊監(jiān)聽,當(dāng)前HMaster掛掉后,該znode被刪除,即可觸發(fā)重新選舉HMaster。如下圖所示。

Log Split管理

顯然,Log Split的信息需要有一個中心組件來統(tǒng)一協(xié)調(diào)。HMaster會在ZK上注冊/hbase/splitlog臨時節(jié)點,其中存放有存活RegionServer與其應(yīng)該處理的Region HLog的映射關(guān)系。各個RegionServer從該節(jié)點得到分配的Region,重放HLog,并將結(jié)果寫回該節(jié)點,以通知HMaster進(jìn)行后續(xù)操作。
.META.表位置維護(hù)
HBase中有一個特殊的表.META.(在0.98版本之前還有一個-ROOT-表,現(xiàn)已廢棄,不再介紹),其中以類似B樹的結(jié)構(gòu)記錄了集群內(nèi)所有Region的位置信息,且該表不會split。而ZK通過永久(persistent)節(jié)點/hbase/meta-region-server來記錄.META.表保存在哪個RegionServer上。
當(dāng)客戶端初次與HBase集群建立連接時,它首先查詢上述ZK節(jié)點,再從持有.META.表的RegionServer獲取到RowKey對應(yīng)的Region位置信息并緩存起來,最后獲取到對應(yīng)的行做讀寫操作。如下圖所示。

如果Region被移動,或客戶端緩存失效,甚至.META.表所在的服務(wù)器故障,客戶端總能通過ZK維護(hù)的路徑獲得正確的Region位置,不會造成不一致。
Replication管理
HBase的Replication是比較高級的功能,用于主集群和從集群之間的數(shù)據(jù)同步,從而支持容災(zāi)和備份。開啟Replication之后,主集群會將數(shù)據(jù)實時地推送給各個從集群(可以是異步、同步或串行的),且保證數(shù)據(jù)的最終一致性。整個Replication的狀態(tài)信息都儲存在ZK的/hbase/replication這個znode下,主要有以下三個:
/hbase/replication/state:布爾值,表示Replication是否被啟用;
/hbase/replication/peers:當(dāng)前進(jìn)行Replication的從集群對及其狀態(tài)。每個peer會分配一個唯一ID;
/hbase/replication/rs:包含主集群上所有有效的RegionServer、 HLog文件的索引,以及HLog讀取的偏移量。
主集群HMaster每次將新增的數(shù)據(jù)推送給從集群之后,就會更新ZK上記錄的這些信息,以協(xié)調(diào)Replication的進(jìn)度。
多個HBase集群是可以共用一個ZK集群的。只需要修改HBase的zookeeper.znode.parent參數(shù),對不同集群指定不同的ZK根路徑即可,例如/hbase-cluster1、/hbase-cluster2,etc。
