<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          京東云分布式鏈路追蹤在金融場景的最佳實(shí)踐

          共 7164字,需瀏覽 15分鐘

           ·

          2021-12-16 10:42

          微服務(wù)是近幾年最流行的軟件架構(gòu)設(shè)計(jì)理念,和容器、devops一起構(gòu)成了云原生的技術(shù)基礎(chǔ)。微服務(wù)源于對產(chǎn)品快速交付的市場訴求,通過采取一系列的自動(dòng)化測試、持續(xù)集成等敏捷開發(fā)實(shí)踐,激活了組織效率,也增強(qiáng)了軟件的可復(fù)用性,無形中為中臺化演進(jìn)鋪平了道路,大量國內(nèi)外互聯(lián)網(wǎng)公司因此獲得了技術(shù)紅利。


          但是很多企業(yè)在引入微服務(wù)架構(gòu)后,并沒有達(dá)到預(yù)期效果。熱力學(xué)第二定律告訴我們,一個(gè)孤立系統(tǒng)一定會(huì)向熵增的方向,也就是越來越復(fù)雜的方向演進(jìn)。服務(wù)劃分過細(xì),單個(gè)服務(wù)的復(fù)雜度降低了,整個(gè)系統(tǒng)的復(fù)雜度卻指數(shù)級上升。理論上計(jì)算,n個(gè)服務(wù)的復(fù)雜度是n×(n-1)/2,微服務(wù)將系統(tǒng)內(nèi)的復(fù)雜度轉(zhuǎn)移為系統(tǒng)間的復(fù)雜度,因此團(tuán)隊(duì)陷入混沌,反倒拖慢了交付速度。



          如何解決“熵增”的困境,真正享受微服務(wù)帶來的紅利呢?一方面需要通過一系列devops工具和方法使組織架構(gòu)匹配軟件架構(gòu),使新技術(shù)為我所用而不是成為工具的奴隸;另一方面則需要在運(yùn)維領(lǐng)域引入上帝視角,即分布式全鏈路追蹤技術(shù),完全掌控微服務(wù)間的調(diào)用關(guān)系。


          京東云SGM(Service Governance And Monitoring)產(chǎn)品承載了京東每天萬億級別的調(diào)用鏈數(shù)據(jù)分析和查詢,護(hù)航雙十一和618大促流量,讓每一筆交易有跡可循,每一個(gè)故障無處遁形,具有極高的穩(wěn)定性和極低的資源消耗。金融業(yè)一直是引入IT技術(shù)的急先鋒,京東云將SGM產(chǎn)品和實(shí)踐輸出給業(yè)界大量銀行和消金公司,賦能金融業(yè)數(shù)字化轉(zhuǎn)型,取得了很好的效果,但是我們也發(fā)現(xiàn)部分客戶的使用效果不夠順暢,究其原因,一方面是受限于用戶技術(shù)環(huán)境,特別是傳統(tǒng)金融客戶,其技術(shù)棧偏向單體應(yīng)用,封閉的商業(yè)軟件產(chǎn)品較多,客戶自身對產(chǎn)品應(yīng)用的掌控度比較低,反觀在偏互聯(lián)網(wǎng)技術(shù)棧的消費(fèi)金融領(lǐng)域,應(yīng)用效果則相對比較好。除技術(shù)環(huán)境的制約因素外,另外一方面因素在于組織內(nèi)是否具備構(gòu)建全套監(jiān)控體系的基礎(chǔ)能力和對整個(gè)監(jiān)控體系的認(rèn)知程度,任何監(jiān)控產(chǎn)品解決的是監(jiān)控體系的一個(gè)方面,而不是全部,所有單一監(jiān)控產(chǎn)品都存在盲點(diǎn)和局限性,就比如希望NPM(Network Performance Monitor)監(jiān)控能達(dá)到APM(Application Performance Monitor)應(yīng)用級監(jiān)控的靈活性一樣,這是不現(xiàn)實(shí)的。


          在技術(shù)融合的背景下,京東云和某頭部消費(fèi)金融公司合作,在消費(fèi)金融領(lǐng)域開展了云原生和全鏈路追蹤的最佳實(shí)踐。某消費(fèi)金融公司是一家持牌消費(fèi)金融機(jī)構(gòu),其普惠金融APP產(chǎn)品注冊人數(shù)過億,后端通過風(fēng)控、智能客服等重量級業(yè)務(wù)系統(tǒng)進(jìn)行支撐。前端用戶活躍度高,流量大,APP服務(wù)端和后端各類業(yè)務(wù)系統(tǒng)數(shù)量眾多、場景復(fù)雜,整個(gè)系統(tǒng)運(yùn)營與技術(shù)運(yùn)維團(tuán)隊(duì)壓力很大。


          在任何組織里,監(jiān)控應(yīng)該是一項(xiàng)綜合立體化的、體系化的大平臺,需要多種監(jiān)控工具的協(xié)作。SGM全鏈路監(jiān)控系統(tǒng)在整個(gè)監(jiān)控體系占據(jù)中間偏向上層業(yè)務(wù)監(jiān)控的位置,發(fā)力點(diǎn)是應(yīng)用級性能監(jiān)控、服務(wù)調(diào)用關(guān)系的監(jiān)控、流量監(jiān)控,主要特色是面向服務(wù)接口和方法,擴(kuò)展點(diǎn)是基于方法監(jiān)控實(shí)現(xiàn)多維度的業(yè)務(wù)監(jiān)控,底層還需要有系統(tǒng)級的監(jiān)控,基礎(chǔ)主機(jī)監(jiān)控、網(wǎng)絡(luò)監(jiān)控、數(shù)據(jù)庫監(jiān)控(偏物理資源和數(shù)據(jù)庫本身管理維度)、日志監(jiān)控系統(tǒng)等組件的配合,將粗粒度監(jiān)控和細(xì)粒度監(jiān)控相結(jié)合,自上而下把被監(jiān)控對象組織起來。很多用戶不能完全應(yīng)用好SGM產(chǎn)品,往往存在監(jiān)控盲點(diǎn),而某消金公司自建了一套FASTX基礎(chǔ)監(jiān)控體系,融合了基礎(chǔ)網(wǎng)絡(luò)、主機(jī)、設(shè)備層的監(jiān)控和告警模塊,同時(shí)也基于開源框架Pinpoint二次開發(fā)搭建一套全鏈路監(jiān)控系統(tǒng),實(shí)現(xiàn)了應(yīng)用級的鏈路監(jiān)控。但受制于Pinpoint性能損耗大、監(jiān)控范圍較窄、監(jiān)控粒度太粗、不能靈活啟停監(jiān)控項(xiàng)、缺少豐富的監(jiān)控指標(biāo)和業(yè)務(wù)監(jiān)控體系,pinpoint應(yīng)用監(jiān)控取得的效果不是很理想。


          第一步:對接管控,體驗(yàn)一致

          消金公司有獨(dú)立的告警通道管理,用戶/應(yīng)用/設(shè)備的基礎(chǔ)信息平臺NCMDB、AD域控等管理系統(tǒng),新產(chǎn)品需要融合到這個(gè)環(huán)境里。SGM的認(rèn)證模塊及告警模塊具有可插拔特性,通過OPEN API完成對接,實(shí)現(xiàn)用戶管理與認(rèn)證體系、告警體系與SGM產(chǎn)品深度協(xié)同,磨平系統(tǒng)間差異,形成統(tǒng)一的使用環(huán)境。業(yè)務(wù)應(yīng)用方的接入門檻降低了,基礎(chǔ)用戶和告警融合到現(xiàn)有技術(shù)體系,保障一致性的使用體驗(yàn)。


          第二步:分批接入,快速見效

          消金公司內(nèi)部應(yīng)用較多,雙方根據(jù)應(yīng)用技術(shù)框架特點(diǎn)進(jìn)行分級、分批次接入。SGM對業(yè)務(wù)應(yīng)用代碼沒有任何侵入改造,接入簡單,適配了常見的開源技術(shù)框架,經(jīng)梳理后分三批接入。

          ?第一批以面向C端的APP應(yīng)用為主,后端服務(wù)基本上都是JAVA SpringCloud技術(shù)體系的應(yīng)用,監(jiān)控項(xiàng)是app后端服務(wù),對響應(yīng)時(shí)間和用戶體驗(yàn)較為敏感,優(yōu)先接入。

          ?第二批以基礎(chǔ)服務(wù)類系統(tǒng)為主,Java為主。

          ?第三批以后端業(yè)務(wù)管理類的大型應(yīng)用、大數(shù)據(jù)應(yīng)用為主,Java、Python共存,逐步伴隨系統(tǒng)迭代節(jié)奏陸續(xù)上線。


          取得效果:

          ?一周內(nèi)完成第一批系統(tǒng)的接入和生產(chǎn)環(huán)境的上線。

          ?一個(gè)月完成了70%的應(yīng)用接入。

          ?三個(gè)月完成大部分的應(yīng)用接入,整體接入應(yīng)用數(shù)量接近700個(gè),實(shí)時(shí)監(jiān)控的方法數(shù)量達(dá)到6.6萬個(gè),平峰監(jiān)控TPS達(dá)到 16W,前期接入時(shí)間控制比較理想,接入成本較低,實(shí)現(xiàn)了管理層預(yù)期的監(jiān)控管理目標(biāo)。



          第三步:抓住痛點(diǎn),優(yōu)勢突破
          新產(chǎn)品在推廣初期比較艱難,業(yè)務(wù)方的排斥和現(xiàn)有習(xí)慣的改變都是推廣的阻力,尤其在內(nèi)部還存在可用的自研鏈路監(jiān)控系統(tǒng)的情況下。

          SGM產(chǎn)品本身的功能項(xiàng)非常多,在初期沒有必要全面鋪開,所以針對某消金公司已有pinpoint鏈路監(jiān)控系統(tǒng)的特點(diǎn),推薦給業(yè)務(wù)方一個(gè)最佳功能使用路線,經(jīng)過兩輪專場培訓(xùn)輔導(dǎo)業(yè)務(wù)方實(shí)現(xiàn)應(yīng)用-服務(wù)-方法-實(shí)例四層細(xì)粒度的監(jiān)控體系,確定關(guān)鍵方法的返回碼和自定義業(yè)務(wù)字段,構(gòu)建可用的業(yè)務(wù)成功率觀測指標(biāo),協(xié)助業(yè)務(wù)方關(guān)注重點(diǎn)告警項(xiàng)和告警策略。

          SGM產(chǎn)品在業(yè)務(wù)方接入后,無需過多的人工配置就快速為業(yè)務(wù)方實(shí)現(xiàn)應(yīng)用-服務(wù)-方法-實(shí)例四層細(xì)粒度的監(jiān)控體系,同時(shí)引導(dǎo)業(yè)務(wù)梳理關(guān)鍵出來需要被監(jiān)控的核心方法,通過觀測業(yè)務(wù)成功率指標(biāo),順利引入到調(diào)用查詢、調(diào)用鏈路、耗時(shí)分析、日志聯(lián)動(dòng)查詢這條SGM核心功能主線上。這在SGM產(chǎn)品導(dǎo)入前期,起著至關(guān)重要的作用,應(yīng)用的接納和廣泛的使用沉淀下來有效的數(shù)據(jù),促使著監(jiān)控系統(tǒng)健康運(yùn)行,很順利也很平穩(wěn)地度過了SGM這個(gè)新事物介入期最困難的時(shí)刻,為后續(xù)深入應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

          第四步:循序漸進(jìn),全面推廣
          完成第一階段初步推廣和被業(yè)務(wù)方接納后,如何讓業(yè)務(wù)方、監(jiān)控團(tuán)隊(duì)、系統(tǒng)運(yùn)維團(tuán)隊(duì)在同一個(gè)監(jiān)控平臺獲得更大的收益?雙方團(tuán)隊(duì)協(xié)商了推廣思路,立足于深度應(yīng)用,充分挖掘體現(xiàn)監(jiān)控?cái)?shù)據(jù)的價(jià)值點(diǎn),從開發(fā)視角、應(yīng)用運(yùn)維視角、應(yīng)用運(yùn)營分層指標(biāo)監(jiān)控、大屏態(tài)勢感知等更深入使用的方向制定推廣策略,形成可落地執(zhí)行的方案全面推廣SGM監(jiān)控。

          用戶在深度使用過程中獲得良好的收益和正向反饋,同時(shí)貼合消金公司的業(yè)務(wù)場景和技術(shù)特點(diǎn),向我們SGM產(chǎn)品團(tuán)隊(duì)反饋了幾個(gè)問題點(diǎn),包括在京東內(nèi)部場景未遇到的Kafka JMXClient沖突問題、Tomcat Request信息經(jīng)歷Recycle后提取自定義業(yè)務(wù)字段失效的問題,促使SGM產(chǎn)品與客戶共同成長,在更多金融場景中千錘百煉愈加完善。

          在長期服務(wù)內(nèi)部應(yīng)用與外部客戶的過程中,我們總結(jié)了分布式鏈路追蹤的幾個(gè)最佳實(shí)踐場景,用上帝視角俯瞰全局,充分發(fā)揮微服務(wù)架構(gòu)的敏捷威力:

          一、面向研發(fā)排障的問題解決

          ?
          1.典型問題:如何精準(zhǔn)定位故障?
          業(yè)務(wù)應(yīng)用性能問題頻發(fā)、流量波動(dòng)頻繁、突發(fā)異常排查過程困難,故障爆發(fā)時(shí)的現(xiàn)場環(huán)境沒有快照,事后只能依賴系統(tǒng)日志和團(tuán)隊(duì)成員技能進(jìn)行排查,沒有一套行之有效,可重復(fù)利用的分析套路和技術(shù)支撐手段,對于追求服務(wù)SLA保障能力的消金公司技術(shù)團(tuán)隊(duì)來說,如何精準(zhǔn)定位問題,縮短排查問題的時(shí)間,是個(gè)巨大的考驗(yàn)。

          解決方案:得益于SGM全鏈路監(jiān)控系統(tǒng)實(shí)時(shí)日志的采集能力和高效的處理能力,在應(yīng)用被監(jiān)控方法發(fā)生異常之初,會(huì)通過SGM內(nèi)置的告警模塊將告警信息及時(shí)推送到業(yè)務(wù)應(yīng)用相關(guān)方,告警將提示應(yīng)用的方法耗時(shí)、平均響應(yīng)時(shí)間、頻率頻次、JVM監(jiān)控以及多維度的TP9XX/AVG/MAX系列性能指標(biāo),同時(shí)告警信息將相關(guān)的排查線索入口組織到一起,方便業(yè)務(wù)工程師介入排查。通過告警入口串聯(lián)起SGM提供的一系列排查工具,調(diào)用查詢、耗時(shí)詳情、調(diào)用鏈、拓?fù)鋱D譜、拓?fù)湔{(diào)用鏈性能分布、JVMGC分析、網(wǎng)絡(luò)連接、JVM內(nèi)存工具箱等,整個(gè)排查過程順暢,操作簡單又有效。


          效果:通過內(nèi)置到SGM的功能模塊形成一套標(biāo)準(zhǔn)化的排查步驟和工具集,貼合主動(dòng)告警模塊,由SGM聚合一系列排查問題的小工具,快速還原問題現(xiàn)場,有效地輔助研發(fā)精準(zhǔn)定位問題,快速排查問題。
          ?
          2.典型問題:如何處理底層IO級別的問題?
          應(yīng)用系統(tǒng)在運(yùn)行過程中,經(jīng)常出現(xiàn)底層IO級別的錯(cuò)誤,包括關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫、緩存、Logger框架、MQ框架等,高頻出現(xiàn)的問題經(jīng)常混雜在日志文件里,容易被忽略最終導(dǎo)致生產(chǎn)事故。

          解決方案:引導(dǎo)用戶用好SGM告警模塊,SGM一站式內(nèi)置底層IO各類異常的探測規(guī)則和閾值,應(yīng)用接入即享有標(biāo)準(zhǔn)的探測告警能力,從容應(yīng)對生產(chǎn)系統(tǒng)的異常。


          效果:對底層IO類型的問題進(jìn)行單獨(dú)處理,提升告警等級,幫助業(yè)務(wù)應(yīng)用建立起分層監(jiān)控的認(rèn)知體系,識別問題源頭,及時(shí)優(yōu)化告警策略,變被動(dòng)為主動(dòng),提高底層IO問題的預(yù)警與處理能力,結(jié)合SGM排查問題工具箱快速處置。
          ?
          3.典型問題:如何分析服務(wù)耗時(shí)?
          在微服務(wù)架構(gòu)體系下,調(diào)用耗時(shí)分布如何監(jiān)測是一個(gè)難點(diǎn),除了服務(wù)本身的開銷外,網(wǎng)絡(luò)開銷、跨機(jī)房延時(shí)、網(wǎng)絡(luò)丟包、服務(wù)端線程池阻塞、服務(wù)鏈路的熔斷、限流等措施的影響、服務(wù)端GC影響、客戶端GC的影響,都構(gòu)成整個(gè)分布式調(diào)用的開銷,某消金公司技術(shù)架構(gòu)以spring cloud微服務(wù)為主,服務(wù)調(diào)用耗時(shí)分布以及出現(xiàn)問題時(shí)如何快速判定異常服務(wù)的歸屬是技術(shù)團(tuán)隊(duì)最為關(guān)注的問題。

          解決方案:通過協(xié)同底層主機(jī)監(jiān)控和SGM的鏈路跟蹤,形成了全局視角的調(diào)用耗時(shí)監(jiān)控,實(shí)現(xiàn)了針對微服務(wù)時(shí)代跨主通信模式服務(wù)耗時(shí)的精準(zhǔn)統(tǒng)計(jì)和問題定位。SGM提供應(yīng)用、服務(wù)、方法、實(shí)例等多種級別的監(jiān)控,同時(shí)基于每筆調(diào)用可以反查調(diào)用來源,追蹤上下游的服務(wù)狀態(tài),觀測服務(wù)性能波動(dòng)的曲線,及時(shí)鎖定問題服務(wù),協(xié)調(diào)服務(wù)歸屬方進(jìn)行聯(lián)合問題排查。


          效果:通過SGM產(chǎn)品可以清晰獲得服務(wù)間依賴關(guān)系的信息,精準(zhǔn)掌握服務(wù)調(diào)用耗時(shí)分布情況,對于消金公司團(tuán)隊(duì)來說,快速理清了業(yè)務(wù)依賴,定位問題服務(wù),快速協(xié)同上下游服務(wù)一同排查問題,簡單又高效。

          二、面向架構(gòu)治理的問題解決

          ?
          4.典型問題:如何利用運(yùn)行態(tài)數(shù)據(jù)進(jìn)行服務(wù)治理?
          業(yè)務(wù)快速迅猛,不斷有新應(yīng)用出現(xiàn),實(shí)際運(yùn)行態(tài)的服務(wù)運(yùn)行狀態(tài)可能已經(jīng)偏離當(dāng)時(shí)的架構(gòu)規(guī)劃,傳統(tǒng)方式是基于架構(gòu)文檔進(jìn)行服務(wù)治理,在迭代節(jié)奏加快,變更頻繁的現(xiàn)狀下,如何快速發(fā)現(xiàn)服務(wù)依賴問題,并且依托最真實(shí)的運(yùn)行態(tài)數(shù)據(jù)進(jìn)行服務(wù)治理?是消金公司團(tuán)隊(duì)最為關(guān)心的內(nèi)容。

          解決方案:SGM產(chǎn)品給出的答案就是基于應(yīng)用系統(tǒng)實(shí)時(shí)采集的日志,用監(jiān)控日志數(shù)據(jù)輔助服務(wù)治理,深入應(yīng)用調(diào)用全鏈路的眾多信息形成分層的全局視圖,暴露服務(wù)間真實(shí)的調(diào)用關(guān)系、調(diào)用頻率、調(diào)用強(qiáng)度、上下游流量波動(dòng)狀態(tài),SGM提供了調(diào)用全鏈路分析功能和分層下鉆、上鉆,調(diào)用來源分析、調(diào)用拓?fù)洹⑼負(fù)湫阅鼙O(jiān)測、實(shí)時(shí)調(diào)用拓?fù)鋱D等工具集,重點(diǎn)破解服務(wù)瓶頸點(diǎn),拆解不合理的服務(wù)模塊,組合處于分散游離的服務(wù),不斷摸索調(diào)整,并及時(shí)觀測變更數(shù)據(jù)再優(yōu)化的新模式。

          效果:在消金公司內(nèi)部服務(wù)治理場景得到不斷的深入應(yīng)用,且技術(shù)團(tuán)隊(duì)在持續(xù)摸索中形成一個(gè)有效的治理思路和方案,在SGM基礎(chǔ)上二次開發(fā)SRE業(yè)務(wù)級指標(biāo)評估系統(tǒng),該系統(tǒng)基于SGM產(chǎn)品的各類監(jiān)控?cái)?shù)據(jù),有效監(jiān)測各個(gè)應(yīng)用的服務(wù)狀態(tài)和業(yè)務(wù)指標(biāo),從數(shù)據(jù)運(yùn)用上滿足了公司管理層對技術(shù)可視化程度提升的要求。


          5.典型問題:如何評估可用率、失敗率?
          如何評估應(yīng)用的健康狀態(tài)、業(yè)務(wù)成功率和系統(tǒng)可用率?某消金公司內(nèi)部大部分應(yīng)用都是通過請求的狀態(tài)碼來判斷業(yè)務(wù)是否正常,粒度比較粗,無法精確識別方法級別,各個(gè)應(yīng)用對業(yè)務(wù)健康識別方法理解也不一致,如何統(tǒng)一口徑,屏蔽差異成為架構(gòu)治理的一個(gè)重要課題。

          解決方案:構(gòu)建統(tǒng)一可信的可用率與失敗率(成功率)監(jiān)測體系,SGM產(chǎn)品默認(rèn)提供一套常規(guī)識別碼規(guī)范用來標(biāo)記被監(jiān)控對象的健康度,同時(shí)也提供了業(yè)務(wù)自定義規(guī)則的入口。SGM具備全局、應(yīng)用級、方法級的三層識別碼機(jī)制,通過對應(yīng)用運(yùn)行態(tài)的調(diào)用鏈進(jìn)行實(shí)時(shí)監(jiān)測,挖掘執(zhí)行過程突發(fā)異常信息,形成系統(tǒng)實(shí)時(shí)可用率監(jiān)測結(jié)果。基于統(tǒng)一的結(jié)果標(biāo)記,屏蔽了具體方法返回碼的差異性,利用方法級返回碼的動(dòng)態(tài)監(jiān)控結(jié)果,聯(lián)合可用率指標(biāo)共同構(gòu)建起方法級別、服務(wù)級別、應(yīng)用級別、實(shí)例級別、機(jī)房級別等五個(gè)維度的應(yīng)用成功率檢測體系。消金公司技術(shù)團(tuán)隊(duì)可以通過成功率和可用率來客觀評估應(yīng)用的實(shí)時(shí)健康狀態(tài),通過返回碼分類監(jiān)控觀測業(yè)務(wù)運(yùn)行是否符合預(yù)期目標(biāo)。在SGM產(chǎn)品中,除了失敗率、可用率指標(biāo),同時(shí)附加性能指標(biāo)波動(dòng)變化的數(shù)據(jù)、日志和容量的數(shù)據(jù),構(gòu)建一個(gè)多維的、面向應(yīng)用的綜合健康度評價(jià)指標(biāo)體系。

          效果:在某消金公司的實(shí)踐中,各個(gè)業(yè)務(wù)方對應(yīng)用健康度的理解和對被監(jiān)測的方法、返回碼的定義標(biāo)準(zhǔn)化定義過程經(jīng)歷了從混亂、接納治理到清晰有序的進(jìn)化歷程。深刻理解方法監(jiān)控和返回碼標(biāo)識的精髓是SGM產(chǎn)品在消金公司落地廣泛的良好支撐點(diǎn)。


          6.典型問題:如何做好業(yè)務(wù)容量評估?
          消金公司各個(gè)業(yè)務(wù)的調(diào)用量波動(dòng)較大,業(yè)務(wù)間量能變化差異也較大,業(yè)務(wù)容量評估一直沒有找到靠譜的抓手和數(shù)據(jù)支撐點(diǎn)。如何平衡資源利用率和保障服務(wù)可用率與用戶體驗(yàn)的矛盾經(jīng)常困擾著技術(shù)團(tuán)隊(duì)。

          解決方案:SGM應(yīng)用實(shí)時(shí)容量評估功能和水位圖是刻畫應(yīng)用資源和服務(wù)可用率最佳的手段,在采集應(yīng)用監(jiān)控日志的同時(shí),SGM后臺也在運(yùn)用特殊的計(jì)算方法評估應(yīng)用的實(shí)時(shí)容量,容量評估從方法到服務(wù)再應(yīng)用,層層累積,最終通過水位圖實(shí)時(shí)反饋容量的變化。


          效果:不僅架構(gòu)團(tuán)隊(duì)關(guān)注應(yīng)用容量變化,應(yīng)用側(cè)監(jiān)控人員更是尤為關(guān)注。一方面需要關(guān)注應(yīng)用運(yùn)行的響應(yīng)時(shí)間,保障用戶體驗(yàn);另外一方面又需要兼顧資源的使用率,控制成本。SGM產(chǎn)品通過實(shí)時(shí)容量評估模塊有力協(xié)助了消金公司團(tuán)隊(duì)做好這方面的工作,實(shí)現(xiàn)了保障用戶體驗(yàn)和資源使用率的平衡,獲得用戶好評。

          三、面向應(yīng)用運(yùn)維的問題解決

          ?
          7.典型問題:如何做到有效告警?
          需要告警的項(xiàng)目沒有發(fā)出告警,或者告警中出現(xiàn)大量的重復(fù)信息,有效信息和重復(fù)信息混雜在一起,干擾了監(jiān)控人員。

          解決方案:基于SGM告警模塊實(shí)現(xiàn)海量接口的主動(dòng)監(jiān)測和智能發(fā)布,應(yīng)用的告警既要做到覆蓋全面又需要精準(zhǔn)無誤,單獨(dú)配置工作量較大。SGM產(chǎn)品提供多種選擇,基于基線告警是SGM告警模塊的一個(gè)特色。在SGM中,面向應(yīng)用提供全局告警、應(yīng)用告警、方法告警三個(gè)維度,基于業(yè)務(wù)提供業(yè)務(wù)監(jiān)控圖表特有的告警能力,總體上兼顧不同群體的告警訴求。SGM告警模塊均具有根因分析的能力,對于持續(xù)波動(dòng)的告警信息智能匹配關(guān)聯(lián)關(guān)系,合并疑似根源,得出根源告警推送給應(yīng)用相關(guān)人員。


          效果:在消金公司的應(yīng)用場景中,告警模塊是高頻使用的功能版塊,很多日常生產(chǎn)故障和問題處理過程都是基于告警觸發(fā),通過SGM排查問題工具箱(調(diào)用查詢、調(diào)用來源、調(diào)用鏈路、耗時(shí)詳情、下鉆調(diào)用鏈、上鉆調(diào)用鏈、性能指標(biāo)波動(dòng)圖表、關(guān)聯(lián)MDC日志聯(lián)動(dòng)、提取自定義業(yè)務(wù)字段)快速定位問題,及時(shí)進(jìn)行處置。
          ?
          8.典型問題:如何將監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)語言?
          監(jiān)控早期階段,某消金公司技術(shù)團(tuán)隊(duì)嘗試基于開源pinpoint采集監(jiān)控?cái)?shù)據(jù),由于受制于pinpoint本身的架構(gòu),缺少豐富的圖表定制和可視化展示模塊,也導(dǎo)致整個(gè)監(jiān)控?cái)?shù)據(jù)沒有發(fā)揮應(yīng)用的作用。源于業(yè)務(wù)的快速發(fā)展,整體面向C端的用戶流量持續(xù)攀升,技術(shù)團(tuán)隊(duì)面臨較大的壓力,持續(xù)可用的服務(wù)保障需要全方位、多視角可觀測數(shù)據(jù)的支撐和可視化的監(jiān)控圖表的展示。

          解決方案:通過SGM內(nèi)置的固定圖表,包括調(diào)用量、性能TP、AVG、MAX指標(biāo)監(jiān)控圖表、失敗率、可用率、監(jiān)控雷達(dá)圖、應(yīng)用大盤等模塊,應(yīng)用系統(tǒng)可以快速上手構(gòu)建基礎(chǔ)的監(jiān)控態(tài)勢感知環(huán)境,進(jìn)一步根據(jù)應(yīng)用自身產(chǎn)品的特點(diǎn),定制出來了應(yīng)用大屏監(jiān)控、分類監(jiān)控視圖、流程監(jiān)控、環(huán)路監(jiān)控、比值監(jiān)控、關(guān)鍵方法多維性能指標(biāo)監(jiān)控。

          ?
          效果:用戶深度使用產(chǎn)品的一個(gè)標(biāo)志就是不斷挖掘數(shù)據(jù)應(yīng)用的場景,在某消金公司內(nèi)部,不僅在運(yùn)用告警模塊處理應(yīng)用各類異常場景和故障診斷,也在深入使用SGM生產(chǎn)的各類數(shù)據(jù)做可視化的數(shù)據(jù)展示,定制多種報(bào)表,而且技術(shù)團(tuán)隊(duì)還在通過SGM OpenAPI二次開發(fā)出多個(gè)隸屬于SRE技術(shù)體系的監(jiān)測與處置系統(tǒng),深度利用SGM產(chǎn)品監(jiān)控?cái)?shù)據(jù)發(fā)揮出巨大的業(yè)務(wù)價(jià)值。受益于消金公司早期自建的一套基礎(chǔ)監(jiān)控體系和探索基于Pinpoint的二開模式的鏈路監(jiān)控系統(tǒng)的歷程,其團(tuán)隊(duì)對于服務(wù)鏈路監(jiān)控體系有較深刻的理解,所以在推廣SGM產(chǎn)品過程中,雙方很多重合點(diǎn)被打開,再疊加SGM產(chǎn)品的優(yōu)勢功能,真正使業(yè)務(wù)增長受益。
          ?
          作為一家純互聯(lián)網(wǎng)化技術(shù)背景的消費(fèi)金融公司,技術(shù)棧廣泛采用互聯(lián)網(wǎng)敏態(tài)架構(gòu),本身數(shù)字化技術(shù)訴求也比較成熟,是詮釋SGM分布式全鏈路追蹤最佳實(shí)踐的典型案例之一。SGM是京東云分布式金融中臺矩陣的重要產(chǎn)品,歷經(jīng)了內(nèi)外部場景的雙重磨煉,與開源和業(yè)界商業(yè)產(chǎn)品相比,沉淀著對金融場景的深刻理解,后續(xù)我們將進(jìn)一步分享SGM鏈路追蹤的實(shí)現(xiàn)原理和技術(shù)亮點(diǎn),探索可觀測性在更多云原生場景,如servicemesh等新技術(shù)領(lǐng)域的應(yīng)用進(jìn)展。

          - End -
          瀏覽 61
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天插天天摸 | 小泽玛莉亚黑人初体验 | 99色精品视频 | 日韩一道视频在线观看 | 在线日韩色 |