騰訊推出高性能 RPC 開發(fā)框架

Tars是基于名字服務(wù)使用Tars協(xié)議的高性能RPC開發(fā)框架,同時(shí)配套一體化的服務(wù)治理平臺(tái),幫助個(gè)人或者企業(yè)快速的以微服務(wù)的方式構(gòu)建自己穩(wěn)定可靠的分布式應(yīng)用。
Tars是將騰訊內(nèi)部使用的微服務(wù)架構(gòu)TAF(Total Application Framework)多年的實(shí)踐成果總結(jié)而成的開源項(xiàng)目。Tars這個(gè)名字來自《星際穿越》電影中機(jī)器人Tars, 電影中Tars有著非常友好的交互方式,任何初次接觸它的人都可以輕松的和它進(jìn)行交流,同時(shí)能在外太空、外星等復(fù)雜地形上,超預(yù)期的高效率的完成托付的所有任務(wù)。擁有著類似設(shè)計(jì)理念的Tars也是一個(gè)兼顧易用性、高性能、服務(wù)治理的框架,目的是讓開發(fā)更簡(jiǎn)單,聚焦業(yè)務(wù)邏輯,讓運(yùn)營(yíng)更高效,一切盡在掌握。
目前該框架在騰訊內(nèi)部,有100多個(gè)業(yè)務(wù)、10多萬(wàn)臺(tái)服務(wù)器上運(yùn)行使用。
設(shè)計(jì)思想
Tars的設(shè)計(jì)思路是采用微服務(wù)的思想對(duì)服務(wù)進(jìn)行治理,同時(shí)對(duì)整個(gè)系統(tǒng)的各個(gè)模塊進(jìn)行抽象分層,將各個(gè)層次之間相互解耦或者松耦合,如下圖:

最底的協(xié)議層,設(shè)計(jì)思路是將業(yè)務(wù)網(wǎng)絡(luò)通信的協(xié)議進(jìn)行統(tǒng)一,以IDL(接口定義語(yǔ)言)的方式,開發(fā)支持多平臺(tái)、可擴(kuò)展、協(xié)議代碼自動(dòng)生成的統(tǒng)一協(xié)議。在開發(fā)過程中,開發(fā)人員只需要關(guān)注通訊的協(xié)議字段的內(nèi)容,不需要關(guān)注其實(shí)現(xiàn)的細(xì)節(jié),大大減輕了開發(fā)服務(wù)時(shí)需要考慮的協(xié)議是否能跨平臺(tái)使用、是否可能需要兼容、擴(kuò)展等問題。
中間的公共庫(kù)、通訊框架、平臺(tái)層,設(shè)計(jì)思路是讓業(yè)務(wù)開發(fā)更加聚焦業(yè)務(wù)邏輯的本身。因此,從使用者的角度出發(fā),封裝了大量日常開發(fā)過程中經(jīng)常使用的公共庫(kù)代碼和遠(yuǎn)程過程調(diào)用,讓開發(fā)使用更簡(jiǎn)單方便;從框架本身的角度出發(fā),做到高穩(wěn)定性、高可用性、高性能,這樣才能讓業(yè)務(wù)服務(wù)運(yùn)營(yíng)更加放心;從分布式平臺(tái)的角度出發(fā),解決服務(wù)運(yùn)營(yíng)過程中,遇到的容錯(cuò)、負(fù)載均衡、容量管理、就近接入、灰度發(fā)布等問題,讓平臺(tái)更加強(qiáng)大。
最上面的運(yùn)營(yíng)層,設(shè)計(jì)思路是讓運(yùn)維只需要關(guān)注日常的服務(wù)部署、發(fā)布、配置、監(jiān)控、調(diào)度管理等操作。
整體架構(gòu)
架構(gòu)拓?fù)?span style="display: none;">

整體架構(gòu)的拓?fù)鋱D主要分為2個(gè)部分:服務(wù)節(jié)點(diǎn)與公共框架節(jié)點(diǎn)。
服務(wù)節(jié)點(diǎn):
服務(wù)節(jié)點(diǎn)可以認(rèn)為是服務(wù)所實(shí)際運(yùn)行的一個(gè)具體的操作系統(tǒng)實(shí)例,可以是物理主機(jī)或者虛擬主機(jī)、云主機(jī)。隨著服務(wù)的種類擴(kuò)展和規(guī)模擴(kuò)大,服務(wù)節(jié)點(diǎn)可能成千上萬(wàn)甚至數(shù)以十萬(wàn)計(jì)。每臺(tái)服務(wù)節(jié)點(diǎn)上均有一個(gè)Node服務(wù)節(jié)點(diǎn)和N(N>=0)個(gè)業(yè)務(wù)服務(wù)節(jié)點(diǎn),Node服務(wù)節(jié)點(diǎn)會(huì)對(duì)業(yè)務(wù)服務(wù)節(jié)點(diǎn)進(jìn)行統(tǒng)一管理,提供啟停、發(fā)布、監(jiān)控等功能,同時(shí)接收業(yè)務(wù)服務(wù)節(jié)點(diǎn)上報(bào)過來的心跳。
公共框架節(jié)點(diǎn):
除了服務(wù)節(jié)點(diǎn)以外的服務(wù),其他服務(wù)節(jié)點(diǎn)均歸為一類。
公共框架節(jié)點(diǎn),數(shù)量不定,為了自身的容錯(cuò)容災(zāi),一般也要求在在多個(gè)機(jī)房的多個(gè)服務(wù)器上進(jìn)行部署,具體的節(jié)點(diǎn)數(shù)量,與服務(wù)節(jié)點(diǎn)的規(guī)模有關(guān),比如,如果某些服務(wù)需要打較多的日志,就需要部署更多的日志服務(wù)節(jié)點(diǎn)。
又可細(xì)分為如下幾個(gè)部分:
Web管理系統(tǒng):在Web上可以看到服務(wù)運(yùn)行的各種實(shí)時(shí)數(shù)據(jù)情況,以及對(duì)服務(wù)進(jìn)行發(fā)布、啟停、部署等操作;
Registry(路由+管理服務(wù)):提供服務(wù)節(jié)點(diǎn)的地址查詢、發(fā)布、啟停、管理等操作,以及對(duì)服務(wù)上報(bào)心跳的管理,通過它實(shí)現(xiàn)服務(wù)的注冊(cè)與發(fā)現(xiàn);
Patch(發(fā)布管理):提供服務(wù)的發(fā)布功能;
Config(配置中心):提供服務(wù)配置文件的統(tǒng)一管理功能;
Log(遠(yuǎn)程日志):提供服務(wù)打日志到遠(yuǎn)程的功能;
Stat(調(diào)用統(tǒng)計(jì)):統(tǒng)計(jì)業(yè)務(wù)服務(wù)上報(bào)的各種調(diào)用信息,比如總流量、平均耗時(shí)、超時(shí)率等,以便對(duì)服務(wù)出現(xiàn)異常時(shí)進(jìn)行告警;
Property(業(yè)務(wù)屬性):統(tǒng)計(jì)業(yè)務(wù)自定義上報(bào)的屬性信息,比如內(nèi)存使用大小、隊(duì)列大小、cache命中率等,以便對(duì)服務(wù)出現(xiàn)異常時(shí)進(jìn)行告警;
Notify(異常信息):統(tǒng)計(jì)業(yè)務(wù)上報(bào)的各種異常信息,比如服務(wù)狀態(tài)變更信息、訪問db失敗信息等,以便對(duì)服務(wù)出現(xiàn)異常時(shí)進(jìn)行告警;
原則上要求全部的節(jié)點(diǎn)之間網(wǎng)絡(luò)互通,至少每臺(tái)機(jī)器的node能夠與公共框架節(jié)點(diǎn)之間都是可以連通的。
特性
tars協(xié)議
tars協(xié)議采用接口描述語(yǔ)言(Interface description language,縮寫IDL)來實(shí)現(xiàn),它是一種二進(jìn)制、可擴(kuò)展、代碼自動(dòng)生成、支持多平臺(tái)的協(xié)議,使得在不同平臺(tái)上運(yùn)行的對(duì)象和用不同語(yǔ)言編寫的程序可以用RPC遠(yuǎn)程調(diào)用的方式相互通信交流, 主要應(yīng)用在后臺(tái)服務(wù)之間的網(wǎng)絡(luò)傳輸協(xié)議,以及對(duì)象的序列化和反序列化等方面。
協(xié)議支持的類型分兩種,基本類型和復(fù)雜類型。
基本類型包括:void、bool、byte、short、int、long、float、double、string、unsigned byte、unsigned short、unsigned int;
復(fù)雜類型包括:enum、const、struct、vector、map,以及struct、vector、map的嵌套。
例如:

調(diào)用方式
通過IDL語(yǔ)言協(xié)議,可以定義服務(wù)提供的接口,并自動(dòng)生成客戶端和服務(wù)端的相關(guān)通信代碼,服務(wù)端只需實(shí)現(xiàn)業(yè)務(wù)邏輯即可對(duì)外提供服務(wù),客戶端通過自動(dòng)生成的代碼即可調(diào)用服務(wù),調(diào)用方式支持三種模式:
同步調(diào)用:客戶端發(fā)出調(diào)用請(qǐng)求后等待服務(wù)返回結(jié)果后再繼續(xù)邏輯;
異步調(diào)用:客戶端發(fā)出調(diào)用請(qǐng)求后繼續(xù)其他業(yè)務(wù)邏輯,服務(wù)端返回結(jié)果又由回調(diào)處理類處理結(jié)果;
單向調(diào)用:客戶端發(fā)出調(diào)用請(qǐng)求后就結(jié)束調(diào)用,服務(wù)端不返回調(diào)用結(jié)果。
負(fù)載均衡
框架通過名字服務(wù)來實(shí)現(xiàn)服務(wù)的注冊(cè)與發(fā)現(xiàn),Client通過訪問名字服務(wù)獲取到被調(diào)服務(wù)的地址信息列表,Client再根據(jù)需要選擇合適的負(fù)載均衡方式來調(diào)用服務(wù),
負(fù)載均衡支持輪詢、hash、權(quán)重等多種方式。

容錯(cuò)保護(hù)
容錯(cuò)保護(hù)通過兩種方式實(shí)現(xiàn):名字服務(wù)排除和Client主動(dòng)屏蔽。

名字服務(wù)排除的策略:
業(yè)務(wù)服務(wù)主動(dòng)上報(bào)心跳給名字服務(wù),使名字服務(wù)知道服務(wù)部署的節(jié)點(diǎn)存活情況,當(dāng)服務(wù)的某節(jié)點(diǎn)故障時(shí),名字服務(wù)不在返回故障節(jié)點(diǎn)的地址給Client,達(dá)到排除故障節(jié)點(diǎn)的目標(biāo)。名字服務(wù)排除故障需要通過服務(wù)心跳和Client地址列表拉取兩個(gè)過程,故障排除時(shí)間在1分鐘左右
Client主動(dòng)屏蔽:
為了更及時(shí)的屏蔽故障節(jié)點(diǎn),Client根據(jù)調(diào)用被調(diào)服務(wù)的異常情況來判斷是否有故障來更快進(jìn)行故障屏蔽。具體策略是,當(dāng)client調(diào)用某個(gè)svr出現(xiàn)調(diào)用連續(xù)超時(shí),或者調(diào)用的超時(shí)比率超過一定百分比,client會(huì)對(duì)此svr進(jìn)行屏蔽,讓流量分發(fā)到正常的節(jié)點(diǎn)上去。對(duì)屏蔽的svr節(jié)點(diǎn),每隔一定時(shí)間進(jìn)行重連,如果正常,則進(jìn)行正常的流量分發(fā)。
過載保護(hù)
為了防止業(yè)務(wù)因?yàn)樵L問量突增或服務(wù)器故障造成系統(tǒng)整體的繁忙,進(jìn)而導(dǎo)致全部服務(wù)的不可用,框架內(nèi)部做相應(yīng)設(shè)計(jì)來應(yīng)對(duì)。實(shí)現(xiàn)請(qǐng)求隊(duì)列,服務(wù)調(diào)用通過非阻塞方式實(shí)現(xiàn)異步系統(tǒng),從而達(dá)到提升系統(tǒng)處理能力的目的。并且對(duì)隊(duì)列的長(zhǎng)度進(jìn)行監(jiān)控,當(dāng)超過某個(gè)閥值,則拒絕新的請(qǐng)求。對(duì)請(qǐng)求設(shè)置超時(shí)時(shí)間,當(dāng)請(qǐng)求包從隊(duì)列里讀取出來是判斷請(qǐng)求是否超時(shí),如果超時(shí)則不做處理。

消息染色
框架提供了對(duì)某服務(wù)某接口的特定請(qǐng)求進(jìn)行染色的能力,染色的消息可以透?jìng)鞯胶竺嫘枰L問的所有服務(wù)上,對(duì)染色的請(qǐng)求,服務(wù)自動(dòng)把日志上報(bào)到特定的染色日志服務(wù)器上,使用者只需在染色服務(wù)器上即可分析請(qǐng)求訪問的路徑,方便跟蹤定位問題。如下:

IDC分組
為了加快服務(wù)間的訪問速度,減少跨地區(qū)、跨機(jī)房調(diào)用帶來的網(wǎng)絡(luò)資源消耗,減少網(wǎng)絡(luò)故障帶來的影響,框架提供了跨地區(qū)、跨機(jī)房,就近接入的功能。

SET分組
為了方便對(duì)業(yè)務(wù)服務(wù)部署管理進(jìn)行標(biāo)準(zhǔn)化和容量化,框架提供了Set部署能力,set之間沒有調(diào)用關(guān)系,互不干擾,故障隔離,提高運(yùn)維效率和服務(wù)可用性。

數(shù)據(jù)監(jiān)控
為了更好反映和監(jiān)控小到服務(wù)進(jìn)程、大到業(yè)務(wù)的運(yùn)行質(zhì)量情況,框架支持以下數(shù)據(jù)上報(bào)的功能:
提供了服務(wù)模塊間調(diào)用信息統(tǒng)計(jì)上報(bào)的功能,方便用戶查看服務(wù)的流量、延時(shí)、超時(shí)、異常等情況;

提供了用戶自定義屬性數(shù)據(jù)上報(bào)的功能,方便用戶查看服務(wù)的某些維度或者指標(biāo),比如內(nèi)存使用情況、隊(duì)列大小、cache命中率等;

提供了服務(wù)狀態(tài)變更和異常信息上報(bào)的功能,方便用戶查看服務(wù)的何時(shí)發(fā)布過、重啟過、宕過以及遇到的異常致命錯(cuò)誤等;

集中配置
對(duì)業(yè)務(wù)配置進(jìn)行集中管理并且操作web化,使配置修改更容易,通知更及時(shí),配置變更也更安全;對(duì)配置變更進(jìn)行歷史記錄,讓配置可以輕松回退到前一版本。配置拉取服務(wù)化,服務(wù)只需調(diào)用配置服務(wù)的接口即可獲取到配置文件。
為了能靈活管理配置文件,配置文件分為幾個(gè)級(jí)別:應(yīng)用配置、Set配置、服務(wù)配置和節(jié)點(diǎn)配置。
應(yīng)用配置為最高一級(jí)的配置文件,它是多個(gè)服務(wù)配置提煉出來的公共配置,服務(wù)配置通過引用它來使用其配置內(nèi)容。
Set配置是具體一個(gè)Set分組下所有服務(wù)的公共配置,在應(yīng)用配置的基礎(chǔ)上進(jìn)行補(bǔ)充追加。
服務(wù)配置是具體一個(gè)服務(wù)下所有節(jié)點(diǎn)的公共配置,可以引用應(yīng)用配置。
節(jié)點(diǎn)配置是一個(gè)應(yīng)用節(jié)點(diǎn)的個(gè)性化配置,它和服務(wù)配置合并成為具體一個(gè)服務(wù)節(jié)點(diǎn)的配置。
項(xiàng)目地址
開源地址:https://gitee.com/TarsCloud/Tars

往期推薦

Java中竟有18種隊(duì)列?45張圖!安排

40 張圖帶你搞懂 TCP 和 UDP

千萬(wàn)不要這樣寫代碼!9種常見的OOM場(chǎng)景演示
