自從用了灰度發(fā)布,睡覺真香!
前言
大家好,我是棧長。
最近,棧長又參加了騰訊云小伙伴邀請的Techo Day 技術(shù)開放日 2.0的線上活動,這一期又是干貨滿滿,主要是云原生和微服務(wù)方面的,比如:云原生網(wǎng)關(guān)、容器、安全、云監(jiān)控、灰度發(fā)布等等,這些內(nèi)容都與我們現(xiàn)有的微服務(wù)系統(tǒng)息息相關(guān)。
令棧長印象最深刻的就是微服務(wù)灰度發(fā)布這個主題,騰訊開源的北極星讓我大開眼界,不僅涵蓋微服務(wù)多個解決方案,還包括市面上少有的、開源的一站式灰度發(fā)布解決方案。
看到這,大家心里可能會有以下問題:
- 啥是灰度發(fā)布,對咱們業(yè)務(wù)能帶來什么好處?
- 我知道灰度發(fā)布,但是灰度發(fā)布實(shí)現(xiàn)方式那么多,我該怎么選?
- 北極星是啥,和我現(xiàn)在使用的灰度發(fā)布框架有啥區(qū)別呢?
針對大家這些問題,所以我想有必要給大家做個專題分享,包括灰度發(fā)布的基本認(rèn)識、分類,特別是騰訊開源的北極星項目,看它是如何輕松解決灰度發(fā)布的。
什么是灰度發(fā)布?
說到灰度發(fā)布就不得不提 "全量發(fā)布" ,全量發(fā)布就是所有系統(tǒng)都同時上線新版本,即對所有用戶都同時使用新版本,這會帶來什么問題?
全量發(fā)布的種種弊端:
- 影響用戶體驗(yàn): 比如某系統(tǒng)在雙 11 前上線了一個新功能,需要給符合條件的用戶發(fā)放優(yōu)惠券,結(jié)果程序出 bug 導(dǎo)致給所有用戶都發(fā)放了……又或者是新版本系統(tǒng)出現(xiàn)問題,從而影響所有用戶……
- 系統(tǒng)異常擴(kuò)散風(fēng)險: 比較某系統(tǒng)上線后不久出現(xiàn)了一個內(nèi)存溢出的異常,流量接而轉(zhuǎn)移到了系統(tǒng)其他實(shí)例,從而導(dǎo)致該系統(tǒng)所有實(shí)例都內(nèi)存溢出,所有實(shí)例都處于不可用狀態(tài)……
- 影響服務(wù)可用性: 全量發(fā)布一般都需要全部停機(jī)升級,從而保證要么是新版本,要么是老版本,這顯然會導(dǎo)致業(yè)務(wù)中斷,也影響了服務(wù)可用性(SLA),就是我們經(jīng)常看到互聯(lián)網(wǎng)公司喊口號,我們今年一定要做到 3 個 9、4 個 9,即 99.9%、99.99% 等等,SLA 就是衡量系統(tǒng)服務(wù)可用性的一個保證,9 越多代表全年服務(wù)可用時間越長服務(wù)更可靠,停機(jī)時間越短,反之亦然。
- ……
知道了全量發(fā)布的種種弊端,就不得不提灰度發(fā)布的重要性了,這里引出灰度發(fā)布的定義:
灰度發(fā)布是針對 "全量發(fā)布" 的改進(jìn),即按照一定的策略上線部分新版本,同時保留老版本,然后讓部分用戶體驗(yàn)新版本,通過一段時間新版本的反饋收集,比如:功能、性能、穩(wěn)定性等指標(biāo),然后再決定是否逐步升級直至全量升級或全部回滾到老版本。
灰度發(fā)布的好處:
- 降低發(fā)布影響面: 就算出問題,也只會影響部分用戶,從而可以提前發(fā)現(xiàn)出新版本中的問題/ bug,然后在下一次灰度發(fā)布前提前修復(fù),避免影響更多用戶;
- 提升用戶體驗(yàn): 除了能提前發(fā)現(xiàn) bug,還能很好的收集新版本中的使用反饋,從而提前優(yōu)化系統(tǒng),提升用戶體驗(yàn),也能給后續(xù)的產(chǎn)品演進(jìn)帶來參考價值。
灰度發(fā)布分類
灰度發(fā)布的主要分類:
- 金絲雀發(fā)布
- 滾動發(fā)布
- 藍(lán)綠發(fā)布
相信大家都或多或少都聽過這些術(shù)語的概念,但很多人并不清楚原理及背后的發(fā)布流程,下面棧長畫了幾張圖,讓大家對這些灰度發(fā)布可以有更深刻的認(rèn)識。
1)金絲雀發(fā)布
據(jù)說以前有個典故,礦工開礦前,會先放一只金絲雀下去,看金絲雀是否能活下來,用來探測是否有毒氣,金絲雀發(fā)布也是由此得名。
這個典故用在金絲雀發(fā)布上面也是同樣一個道理,即先升級服務(wù)一個實(shí)例,如果該實(shí)例沒有問題,再全部升級剩余實(shí)例,如果有問題,再進(jìn)行回滾。

金絲雀發(fā)布成本較低,只需要一個實(shí)例即可降低新版本存在的風(fēng)險,適合缺乏足夠的發(fā)布工具研發(fā)能力及成長型的小公司。但是,金絲雀發(fā)布也有缺點(diǎn),當(dāng)升級全部剩余實(shí)例時,如果流量過多,可能會導(dǎo)致服務(wù)中斷。
2)滾動發(fā)布
滾動發(fā)布則是在金絲雀發(fā)布的基礎(chǔ)上進(jìn)行的改進(jìn)和優(yōu)化,第一次也是使用金絲雀發(fā)布,后續(xù)則使用多批次的形式發(fā)布剩余實(shí)例,每次批次之間會進(jìn)行觀察,如果有問題,再進(jìn)行回滾。

滾動發(fā)布會比較平滑,可以將風(fēng)險控制到最小程度。它雖然改進(jìn)了金絲雀發(fā)布,但整體發(fā)布時間會比較長,回退時間也會更慢,整體流程也更為復(fù)雜,適合有一定發(fā)布工具研發(fā)能力的大公司。
3)藍(lán)綠發(fā)布
藍(lán)綠發(fā)布比較簡單,只是對全量發(fā)布的一種優(yōu)化而已,發(fā)布前不用全部停機(jī),而是另外部署新版本全部實(shí)例,然后再把流量全部再切換到新版本。

藍(lán)綠發(fā)布雖然提升了服務(wù)可用性,但沒有解決新版本中可能出現(xiàn)的問題,所以核心業(yè)務(wù)肯定是不建議用的,建議使用滾動發(fā)布結(jié)合金絲雀發(fā)布一起使用,從而降低發(fā)布風(fēng)險。
4)如何選型
上面介紹了 3 種灰度發(fā)布模式,那么企業(yè)應(yīng)該怎么去根據(jù)自身的業(yè)務(wù)場景的訴求,去選型使用哪種模式來進(jìn)行灰度發(fā)布呢?下面對各種發(fā)布模式做了一個對比,以及列舉出常見的選型指引,供大家參考。
| 策略 | 零停機(jī) | 生產(chǎn)流量測試 | 針對特定用戶 | 機(jī)器資源成本 | 回滾時長 | 負(fù)面影響 | 實(shí)現(xiàn)復(fù)雜度 |
|---|---|---|---|---|---|---|---|
| 全量發(fā)布 | × | × | × | 低 | 慢 | 高 | 低 |
| 藍(lán)綠發(fā)布 | √ | × | × | 高(雙倍) | 快 | 中 | 中 |
| 金絲雀發(fā)布 | √ | √ | √ | 中(按需) | 快 | 低 | 中 |
| 全鏈路灰度 | √ | √ | √ | 中(按需) | 快 | 低 | 高 |
全量發(fā)布:不建議使用,除非實(shí)在沒有辦法,比如初創(chuàng)公司什么都缺,老板又催。
藍(lán)綠發(fā)布:適合于對于資源預(yù)算比較充足的業(yè)務(wù),或者是比較簡單的單體應(yīng)用,可以快速實(shí)現(xiàn)系統(tǒng)的整體變更,適合傳統(tǒng)企業(yè)使用。
金絲雀和全鏈路灰度:適合需要針對特定用戶或者人群進(jìn)行現(xiàn)網(wǎng)請求驗(yàn)證的業(yè)務(wù),可以顯著減低風(fēng)險,建議成長型企業(yè)使用。
業(yè)界灰度發(fā)布的實(shí)現(xiàn)方案
Nacos/ZK + Spring Cloud/dubbo
Nacos 和 ZK 等組件提供的是純注冊中心的功能,不包括灰度發(fā)布的能力。用戶如果需要實(shí)現(xiàn)灰度發(fā)布,則需要在框架層通過編碼的方式進(jìn)行擴(kuò)展,比如實(shí)現(xiàn) Spring Cloud Gateway/Dubbo 的插件等,帶來的問題主要有 2 個:
- 不同的業(yè)務(wù)需要重復(fù)造輪子,帶來不必要的工作量和質(zhì)量風(fēng)險
- 不同框架實(shí)現(xiàn)方式和規(guī)則不一樣,存在互通性的問題。
istio
Istio 通過服務(wù)網(wǎng)格的方式提供了灰度發(fā)布能力,用戶無需自己實(shí)現(xiàn)灰度發(fā)布邏輯,但是也存在以下問題:
- istio 的數(shù)據(jù)面不支持 Spring Cloud/Dubbo 等常用的微服務(wù)框架接入。
- istio + envoy 的 Proxy 模式,運(yùn)行時會帶來額外的資源和網(wǎng)絡(luò)開銷。
騰訊云實(shí)現(xiàn)方案(北極星)
基本介紹
先簡單介紹下騰訊云引擎(TSE):
微服務(wù)引擎(Tencent Cloud Service Engine)提供開箱即用的云上全場景微服務(wù)解決方案。支持開源增強(qiáng)的云原生注冊配置中心(Zookeeper、Nacos、Etcd、Consul、Eureka 和Apollo),服務(wù)治理中心(騰訊自研并開源的 PolarisMesh)、云原生網(wǎng)關(guān)(Nginx Ingress、Kong)以及微服務(wù)應(yīng)用托管的彈性微服務(wù)平臺。微服務(wù)引擎完全兼容開源版本的使用方式,在功能、可用性和可運(yùn)維性等多個方面進(jìn)行增強(qiáng),助力用戶快速構(gòu)建微服務(wù)架構(gòu)。
北極星(PolarisMesh)是騰訊開源的服務(wù)發(fā)現(xiàn)和治理中心,以注冊配置中心為基礎(chǔ),擴(kuò)展了服務(wù)治理功能以及相應(yīng)的控制面,各部分功能可單獨(dú)使用,且支持無侵入的接入方案,用戶無需改一行代碼即可接入所有服務(wù)治理功能。
- 基礎(chǔ): 服務(wù)發(fā)現(xiàn)、服務(wù)注冊、健康檢查、配置管理;
- 擴(kuò)展: 流量調(diào)度(動態(tài)路由、負(fù)載均衡)、熔斷降級(實(shí)例、接口、服務(wù)三級熔斷)、訪問控制(限流、鑒權(quán))、可觀測(調(diào)用度量、鏈路跟蹤)
可以看到,北極星不僅僅是注冊中心、配置中心,還是微服務(wù)架構(gòu)中的故障容錯、流量控制和安全問題的綜合解決方案。雖然業(yè)界已經(jīng)有些組件可以解決其中一部分問題,但是缺少一個標(biāo)準(zhǔn)的、多語言的、框架無關(guān)的實(shí)現(xiàn),北極星應(yīng)運(yùn)而生。
實(shí)現(xiàn)方案
通過北極星可以實(shí)現(xiàn)藍(lán)綠、金絲雀或者滾動發(fā)布:


階段一:實(shí)例打標(biāo)
實(shí)例打標(biāo),指的是發(fā)布前先將實(shí)例打入新版本標(biāo)簽,這樣才能將新版本與穩(wěn)定舊版本的應(yīng)用區(qū)分開來。
常用的實(shí)例打標(biāo)方法有以下兩種:
-
實(shí)例自注冊: 標(biāo)簽配置在項目的配置文件中,一般是指 Spring Cloud 配置文件中,然后在應(yīng)用時將標(biāo)簽自動注冊到注冊中心;
-
k8s 部署標(biāo)簽同步: 把實(shí)例標(biāo)簽作為 k8s 的部署標(biāo)簽進(jìn)行配置,然后隨應(yīng)用部署后自動同步到注冊中心。
階段二:網(wǎng)關(guān)路由
服務(wù)網(wǎng)關(guān),就是服務(wù)的網(wǎng)關(guān),它是所有服務(wù)的單一訪問點(diǎn),并充當(dāng)微服務(wù)最上層的代理。
通俗地說,就是,外面的請求需要先經(jīng)過服務(wù)網(wǎng)關(guān),再到達(dá)微服務(wù),服務(wù)網(wǎng)關(guān)實(shí)現(xiàn)統(tǒng)一接入,外面的請求不能直接訪問微服務(wù),一般的訪問順序是這樣的:
用戶 > Nginx(集群,Keepalive) > 服務(wù)網(wǎng)關(guān)(集群) > 微服務(wù)(集群)
所以,要進(jìn)行灰度發(fā)布就必須在網(wǎng)關(guān)層進(jìn)行路由控制,在網(wǎng)關(guān)層可以按照一定的策略把流量分配到不同的實(shí)例版本,常用的灰度策略有百分比、用戶屬性、省市區(qū)域等等,比如:可以先把廣東省深圳市 30% 的用戶路由到新版本。
一般的服務(wù)網(wǎng)關(guān)都需要自行配置路由規(guī)則,而且都是代碼硬配置,配置項很多很復(fù)雜,不是專業(yè)的技術(shù)人員很難理解其配置的真正意義,也帶來了出錯的概率。
而在騰訊云北極星方案中,使用的是云原生網(wǎng)關(guān),支持圖形化的云原生路由規(guī)則配置,支持直通注冊中心,直接將流量拆分到不同版本的實(shí)例中,大大簡化了配置難度,也提高了配置項可讀性和易用性。
階段三:微服務(wù)路由
來看正常的一個路由流程圖:

流量經(jīng)過服務(wù)網(wǎng)關(guān)后,就需要路由到具體的微服務(wù),而灰度發(fā)布后各個微服務(wù)存在 V1 舊版本和 V2 新版本,所以就需要保證路由過去的多個微服務(wù)調(diào)用鏈也必須是同一個版本,不然就可能會帶來災(zāi)難性故障。
騰訊云北極星服務(wù)治理中心提供了自定義路由的能力,支持通過圖形化配置規(guī)則的方式,支持自動托管,以及服務(wù)調(diào)用流量實(shí)時監(jiān)控能力,準(zhǔn)確掌握灰度發(fā)布的全流程,實(shí)現(xiàn)了微服務(wù)之間的灰度流量調(diào)度。
階段四:標(biāo)簽透傳
上一步,網(wǎng)關(guān)層會對灰度流量進(jìn)行染色,在接下來的微服務(wù)調(diào)用過程中還需要進(jìn)行標(biāo)簽透傳,即將染色標(biāo)簽在每一個微服務(wù)之間進(jìn)行傳遞,使得微服務(wù)可以識別到灰度流量并進(jìn)行處理。
使用 Spring Cloud 微服務(wù)框架,需要用戶自己在項目中進(jìn)行編碼實(shí)現(xiàn),而騰訊北極星方案可以配合騰訊的 Spring Cloud Tencent 微服務(wù)框架自動完成標(biāo)簽透傳,支持跨線程的透傳模式,無需用戶感知。

階段五:灰度完成
1)灰度發(fā)布驗(yàn)證
灰度發(fā)布后,如何驗(yàn)證灰度發(fā)布已經(jīng)完成/成功了呢?一般需要做以下確認(rèn)操作:
1)確認(rèn)流量是否按計劃切換到了灰度發(fā)布實(shí)例;
2)確認(rèn)灰度發(fā)布實(shí)例上的請求是否正常執(zhí)行;
騰訊云北極星方案提供了服務(wù)治理監(jiān)控能力,支持可視化看到流量實(shí)時切換情況,以及流量的成功率時延等關(guān)鍵指標(biāo),大大簡化了灰度發(fā)布的事后驗(yàn)證工作。
2)灰度完成后的處理事項
根據(jù)不同的灰度發(fā)布形式處理:
金絲雀發(fā)布: 將穩(wěn)定版本服務(wù)分組全量升級成新版本。
滾動灰度:將穩(wěn)定版本分組中的多個服務(wù)按一定比例分批升級成新版本。
藍(lán)綠發(fā)布: 流量已經(jīng)全量切換到新版本分組,老版本分組的實(shí)例可以下線。
北極星開源版體驗(yàn)
北極星(PolarisMesh)官方網(wǎng)址:
https://polarismesh.cn/

北極星(PolarisMesh)已經(jīng)開源,點(diǎn)擊主頁右上角可以進(jìn)入體驗(yàn)版:

根據(jù)提供的默認(rèn)用戶名和密碼登錄進(jìn)去,可以在 "服務(wù)網(wǎng)格 > 動態(tài)路由 > 灰度發(fā)布" 找到灰度發(fā)布:

我們來體驗(yàn)一下金絲雀發(fā)布吧,操作流程如下:

第一步:實(shí)例打標(biāo)
Spring Cloud Tencent 微服務(wù)集成北極星過程略,詳細(xì)請參考下面接入文檔:
https://polarismesh.cn/zh/doc/%E5%BF%AB%E9%80%9F%E5%85%A5%E9%97%A8/SpringCloud%E5%BA%94%E7%94%A8%E6%8E%A5%E5%85%A5.html#springcloud%E5%BA%94%E7%94%A8%E6%8E%A5%E5%85%A5
然后在 bootstrap.yml 配置文件中指定版本標(biāo)簽:
spring:
??cloud:
????tencent:
??????metadata:
????????content:
??????????version:?2.0.0
在服務(wù)實(shí)例所在的操作系統(tǒng)中添加環(huán)境變量也可進(jìn)行打標(biāo),例如:SCT_METADATA_CONTENT_version=2.0.0 。
由于 Spring Cloud 框架默認(rèn)不會對所有的請求標(biāo)簽進(jìn)行透傳,因此需要增加 Spring Cloud 透傳標(biāo)識,可以通過添加環(huán)境變量(SCT_PROTOCOL_CONTENT_TRANSITIVE_HEADER=gray)的方式進(jìn)行灰度標(biāo)識(gray:true)的透傳。
第二步:部署應(yīng)用
Spring Cloud Tencent 接入方式支持虛擬機(jī)、Docker Composer、K8S 等多種部署模式,注意需要保證業(yè)務(wù)進(jìn)程與北極星服務(wù)的網(wǎng)絡(luò)連通性。
部署后,可以在北極星服務(wù)列表中看到成功注冊的服務(wù)實(shí)例:

第三步:微服務(wù)路由
通過配置微服務(wù)路由,使進(jìn)行灰度版本的流量的調(diào)用,都只在新版本的服務(wù)分組中進(jìn)行。
可以在 "服務(wù)網(wǎng)格 > 動態(tài)路由 > 自定義路由" 新建路由規(guī)則,先配置灰度規(guī)則:

該灰度規(guī)則只對 credit 服務(wù)生效,這樣 header 中帶有gray:true灰度標(biāo)簽的請求都只流向version=2.0.0的實(shí)例分組。
再來配置兜底規(guī)則:

該灰度規(guī)則只對 credit 服務(wù)生效,這樣 header 中不帶gray:true灰度標(biāo)簽的請求都只流向version=1.0.0的實(shí)例分組。
第四步:灰度發(fā)布觀測
通過北極星的可觀測性能力,可以準(zhǔn)確看到不同分組的流量切換的過程,以及服務(wù)調(diào)用成功率,等到灰度分組相關(guān)指標(biāo)沒有問題,代表灰度驗(yàn)證完成。
觀測路徑:“可觀測性 > 路由監(jiān)控”

第五步:灰度發(fā)布收尾
灰度驗(yàn)證完成后,需要進(jìn)行收尾:
- 灰度驗(yàn)證成功,則對老版本分組的實(shí)例進(jìn)行滾動升級到新版本,否則進(jìn)行回退;
- 在北極星控制臺刪除自定義路由規(guī)則;
可以看到,北極星提供了一整套的灰度發(fā)布解決方案,適用各種灰度發(fā)布流程,可視化輕松實(shí)現(xiàn)灰度規(guī)則配置,最重要的是還提供灰度可視化觀測,這使得灰度發(fā)布更便利、可控性更好。
總結(jié)
看到這里,想必大家對灰度發(fā)布有了一定程序的認(rèn)識了,特別是騰訊云提供的北極星一站式解決方案,通過其獨(dú)特的架構(gòu)理念和可視化平臺解決了微服務(wù)應(yīng)用過程中的種種難題,沒有灰度發(fā)布的加持,全量發(fā)布帶來的風(fēng)險將變得舉步維艱。
因?yàn)橛脩趔w量,或者研發(fā)成本的問題,現(xiàn)在很多公司甚至都沒用灰度發(fā)布,全量發(fā)布影響 SLA 不說,一旦造成損失都是不可估量的,所以,不管公司處于什么成長階段,都必須上灰度發(fā)布,這是對用戶負(fù)責(zé),也是公司能持續(xù)發(fā)展的重要保障。
這里貼上北極星的 Github 地址,歡迎大家到 Github 上面點(diǎn)個 Star:
https://github.com/polarismesh
作為微服務(wù)全面、綜合的開源解決方案,北極星在騰訊內(nèi)部也得到廣泛運(yùn)用:

從數(shù)據(jù)可以看到北極星在騰訊內(nèi)部使用之廣,這幾乎是覆蓋所有業(yè)務(wù)了,經(jīng)過這么多年的洗禮,北極星也是成熟穩(wěn)定的項目了,所以,可靠性還是有保障的,可以閉眼使用,不管合適與否,都值得大家去體驗(yàn)一番。
最后,通過參與這次騰訊云的 Techo Day 2.0 技術(shù)開放日活動,棧長最大的感觸就是,在技術(shù)領(lǐng)域,騰訊云確實(shí)走在了前沿,真不是吹,Techo Day 2.0 活動分享了很多技術(shù)熱點(diǎn)及解決方案,涵蓋了我們平時開發(fā)的方方面面,不僅能學(xué)習(xí)、接觸新興技術(shù),還能對技術(shù)有更多、更深入的認(rèn)識,特別是棧長介紹的北極星灰度發(fā)布,真真正正的是幫助企業(yè)提升項目質(zhì)量,避免發(fā)布風(fēng)險。

