<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          群眾吃一個瓜,可能就有一堆DBA要掉頭發(fā)

          共 3582字,需瀏覽 8分鐘

           ·

          2021-01-30 13:57

          前陣的微博熱搜,各種大瓜接踵而來,數(shù)據(jù)君就像一個瓜田里的猹。

          最魔幻的當(dāng)數(shù)22號,前有棄養(yǎng)上熱門,后來北京網(wǎng)易員工核酸檢測陽性又上熱搜,全員下班,隔壁的新浪員工們不僅瑟瑟發(fā)抖,還得為新熱搜一陣忙活,傍晚在棄養(yǎng)、網(wǎng)易和眾多熱搜夾縫中,又殺出一個隱婚生子宣告新浪員工的提前下班夢正式破滅。

          不只是吃瓜,電商促銷、產(chǎn)品發(fā)布、游戲公測,各種狂歡的背后,可能后面都有一堆DBA要掉頭發(fā)。
          (比如這樣……)

          而對于所有人,這時候的每一分鐘,都至關(guān)重要。

          下面這個,是騰訊云數(shù)據(jù)庫DBA團隊幫助從告警到解決僅用20分鐘,一小時內(nèi)幫助業(yè)務(wù)性能百倍提升,完美度過活動高峰的故事。它也讓大家看到,在狂歡背后,那些熠熠發(fā)光的人們。

          1


          業(yè)務(wù)告急



          某個下午,剛吃完午飯的騰訊云數(shù)據(jù)庫DBA郝志剛準(zhǔn)備午休小憩,一切尚平靜如水。正要睡去,一陣急促的電話鈴聲打破了辦公室的安靜。

          “誰???”郝志剛心想,工位附近還有不少同事在午休,打擾大家休息怎么辦,怎么這時候來電話。

          “喂——”接通電話后,郝志剛才知道,這下不光自己,同事也睡不成了。

          很快,一眾DBA圍在一臺電腦前。

          原來是騰訊云數(shù)據(jù)庫自動運營平臺DBbrain發(fā)現(xiàn),某客戶實例的系統(tǒng)慢查詢突然升高,同時機器的實例負(fù)載也突然增高。

          (因數(shù)據(jù)敏感,圖片僅做功能展示,非實際情況)

          正值十月,客戶此前正在準(zhǔn)備自己的周年活動和即將到來的雙11活動,前期已經(jīng)在幾乎能看見的各種線上線下渠道投放了自己的推廣資源,“就連我們這些不喜歡「網(wǎng)上沖浪」的中年人都能看見他們的推廣”,郝志剛后來回想起來自嘲道。

          “發(fā)現(xiàn)異常后,我們第一時間聯(lián)系了客戶相關(guān)負(fù)責(zé)人確認(rèn)情況,”郝志剛回憶道,果然,當(dāng)時他們正在發(fā)起一場大規(guī)模的營銷活動,但由于業(yè)務(wù)系統(tǒng)SQL異常導(dǎo)致了故障,DB性能急速下降,應(yīng)用前端訪問超時現(xiàn)象大范圍出現(xiàn)。

          (因數(shù)據(jù)敏感,圖片僅做功能展示,非實際情況)


          據(jù)了解,當(dāng)時,前端訪問的成功率大約只有30%,正常情況下,哪怕是稍微在互聯(lián)網(wǎng)行業(yè)里叫得上名字的公司,前端訪問成功率都不可能低到30%,客戶上下心急如焚。

          客戶苦笑著說,“為了這個活動團隊各個部門前后準(zhǔn)備了很久,投入了大量的人力和推廣資源,要是因為技術(shù)問題而提前結(jié)束活動,可能整個技術(shù)團隊都得走人。”

          郝志剛與幾位DBA同學(xué)馬上與客戶技術(shù)團隊聯(lián)系,開始問題聯(lián)合排查。他們一邊了解客戶業(yè)務(wù)的場景,一邊同時聯(lián)系技術(shù)研發(fā)團隊,開啟緊急技術(shù)專家會診。

          本來能帶來上億回報的活動直接停掉,幾分鐘就發(fā)了百萬,這還不論鋪天蓋地各個應(yīng)用的首頁、開屏和信息流廣告花了多少錢,以及訪問超時這種低級錯誤對公司品牌價值帶來的負(fù)面影響。

          郝志剛怎么算都算不清楚這筆錢。

          這次失敗影響的不僅是客戶,對于騰訊云數(shù)據(jù)庫來說,不管是客戶側(cè)還是自身出了事,只要出了岔子那么外界就極有可能認(rèn)定騰訊云不靠譜,就肯定會對騰訊云數(shù)據(jù)庫產(chǎn)生影響,所以,這個問題一分鐘都拖不得。

          急客戶所急,DBA們快速基于騰訊云數(shù)據(jù)庫DBbrain智能診斷系統(tǒng)和自身豐富的運維實戰(zhàn)經(jīng)驗開始問題排查。經(jīng)過檢測,他們很快定位到了導(dǎo)致性能下降的慢SQL,并馬上給出了優(yōu)化建議,進(jìn)行添加索引等操作。

          (因數(shù)據(jù)敏感,圖片僅做功能展示,非實際情況)

          “很簡單嘛”、“就這?”、“以后這種事叫我小弟”、“打王者來不來”,大家都松了一口氣,還開起了玩笑。

          然而,詭異的是,通過定向添加索引的處理后,業(yè)務(wù)系統(tǒng)的性能有所好轉(zhuǎn),但系統(tǒng)SQL資源消耗率的問題仍未得到根本性提升。剛剛活躍的氣氛又變得凝重起來。

          經(jīng)過分析發(fā)現(xiàn),系統(tǒng)場景設(shè)計的不合理,以及測試模型與現(xiàn)網(wǎng)模型的不一致,導(dǎo)致問題隱藏得撲朔迷離。

          1


          兵分兩路



          無論如何,保障客戶的業(yè)務(wù)應(yīng)用是第一要務(wù)。伴隨著用戶的投訴、業(yè)務(wù)的焦急,十萬火急之中,騰訊云DBA與數(shù)據(jù)庫技術(shù)研發(fā)團隊商議,決定兵分兩路,一邊投入資源,一邊繼續(xù)排查,同時為業(yè)務(wù)護(hù)航。

          “首先是沒有辦法的辦法,擴容!”騰訊云數(shù)據(jù)庫團隊表示,基于騰訊云上預(yù)留的專門應(yīng)對各類緊急情況的服務(wù)器資源機制,騰訊云DBA開始指導(dǎo)客戶技術(shù)團隊進(jìn)行水平擴容。

          擴容并不麻煩,基于分布式數(shù)據(jù)庫系統(tǒng),以及支持一鍵水平擴容的特性,業(yè)務(wù)系統(tǒng)很快完成了一輪擴容,成功緩解業(yè)務(wù)系統(tǒng)當(dāng)時的容量需求,同時恢復(fù)了服務(wù),將系統(tǒng)訪問成功率提升至99%。

          至此問題似乎再次解決了,但這時候,大家都多了一個心眼,繼續(xù)排查,不敢懈怠。

          后來發(fā)現(xiàn)大家的判斷是對的,擴容并不意味著徹底解決了問題。郝志剛介紹,“這猶如槍林彈雨中,在低矮的戰(zhàn)壕上撐起一張金剛防護(hù)罩。然而,活動不能就這么拖延下去直到結(jié)束,業(yè)務(wù)訪問仍需要優(yōu)化服務(wù),‘流量’進(jìn)攻仍在繼續(xù)。”

          系統(tǒng)當(dāng)時面臨的更大挑戰(zhàn),流量峰值到來,業(yè)務(wù)前期籌備的運營推廣資源,正蓄勢待發(fā)。而在更大的流量峰值下,現(xiàn)在的情況,誰都不敢保證能安穩(wěn)度過

          那為何不繼續(xù)擴容呢?事實上,如果不能將系統(tǒng)中的性能瓶頸問題真正解決,降低當(dāng)前居高不下的SQL資源消耗率,那么再增加10臺、100臺機器擴容,也只是空耗。

          大戰(zhàn)在即,正在擴容DBA絕望之際,兵分兩路的另一邊正關(guān)注研究的方案,并且逐漸有了眉目。

          在擴容期間,騰訊云DBA、研發(fā)團隊同時對慢SQL進(jìn)行深入分析,尋找問題根源。借助DBbrain系統(tǒng),性能問題的焦點最終鎖定在一條針執(zhí)行時間比較久且查詢量很大的慢查詢SQL上,后來發(fā)現(xiàn),正是該SQL消耗率系統(tǒng)大量的資源。

          (因數(shù)據(jù)敏感,圖片僅做功能展示,非實際情況)

          針對該SQL的where條件中字段數(shù)據(jù)特征進(jìn)行統(tǒng)計和分析。借助技術(shù)人員多年豐富的多場景運維實踐經(jīng)驗,騰訊云數(shù)據(jù)庫團隊發(fā)現(xiàn)了一個隱藏極深的字段,簡單來說,該字段標(biāo)識一個訂單狀態(tài),只有幾個不同值,區(qū)分度不高,通常情況下并不適合加索引。但是慢查詢SQL的中針對該字段的條件,只會檢索一個出現(xiàn)頻率很低的值,DBA通過在備機驗證發(fā)現(xiàn)針對該字段再加上一個時間字段創(chuàng)建一個組合索引能夠大幅降低慢SQL的掃描行數(shù),系統(tǒng)資源的消耗。

          元兇找到了!

          發(fā)現(xiàn)異常字段后,騰訊云數(shù)據(jù)庫團隊一邊聚精會神盯著監(jiān)控屏幕,一邊動手對異常字段進(jìn)行優(yōu)化。

          1


          性能效率百倍提升



          通過對該異常字段添加索引優(yōu)化,改進(jìn)業(yè)務(wù)系統(tǒng)邏輯,監(jiān)控系統(tǒng)顯示:客戶系統(tǒng)的單條SQL資源消耗率開始呈指數(shù)級降低,執(zhí)行效率提升超過100倍;而機器負(fù)載約從故障時的500%下降至25%;整機CPU消耗約從90%下降到5%左右的極低水平。

          經(jīng)過索引修改,擴容,再到最后發(fā)現(xiàn)根源問題,距離業(yè)務(wù)前端訪問超時故障出現(xiàn)僅過去了20分鐘。

          看到系統(tǒng)性能提升的一幕,騰訊云數(shù)據(jù)庫團隊和客戶團隊都暫時松了一口氣。不過,這時候,他們將開始迎接終極的挑戰(zhàn):基于前端訪問恢復(fù)正常,以及對系統(tǒng)健康的監(jiān)測評估,客戶決定營銷活動繼續(xù)推進(jìn),運營資源開始陸續(xù)釋放。

          隨著業(yè)務(wù)運營的持續(xù)進(jìn)行,大約過了不到半小時,業(yè)務(wù)系統(tǒng)涌入的流量出現(xiàn)百倍增長——當(dāng)天活動的訪問峰值到了。不過,這一次,前端訪問成功率一直保持在100%。這意味著,阻礙業(yè)務(wù)的訪問超時問題,成功被解決。

          這次驚心動魄的經(jīng)歷幾乎是把客戶的業(yè)務(wù)從懸崖邊上拉了回來,除了前期因為訪問超時造成的小部分損失外,在后續(xù)及流量高峰期系統(tǒng)都完美運行,由于各個團隊的緊密配合,這次活動的效果也非常好,同時這也是業(yè)務(wù)的一個新嘗試,疫情期間,每個企業(yè)生存都很不容易,很多公司都沒能熬過2020年,有了這次的成功經(jīng)驗,客戶又多了一種盈利模式,疫情后逆勢增長。

          1


          后記



          這下團隊成員心里的石頭終于落了地,借助騰訊云數(shù)據(jù)庫的產(chǎn)品能力以及研發(fā)運維團隊豐富的經(jīng)驗,客戶伙伴本次“團購秒殺”營銷活動雖然遇到波折,最終仍如預(yù)期一樣,順利完成線上運營。


          “走走走干飯去”、“我要吃燒烤。

          “待會打游戲不”、“我安琪拉賊溜?!?/span>

          “客戶說要請我們吃飯”、“你讓他直接給錢。

          處理完后,這些DBA又從手執(zhí)“利器”的戰(zhàn)士變成普通人,聊起了人間煙火——只不過,希望吃飯時候能不要再來告警電話……


          其實不僅是騰訊云數(shù)據(jù)庫的DBA團隊,各種活動背后,都有一群DBA和各類問題斗智斗勇,有時候稍有不慎,就是天文數(shù)字的投入打水漂,在現(xiàn)在這個競爭白熱化、外界影響因素大的時候更是實屬不易,為了讓你安心吃瓜、暢快游戲、瘋狂剁手,所以請對身邊的DBA朋友們好一點。

          另外還值得一提的是,活動結(jié)束后,騰訊云數(shù)據(jù)庫團隊基于應(yīng)急溝通期間的交流與調(diào)查,同時總結(jié)出一份前端技術(shù)優(yōu)化方案,協(xié)助客戶進(jìn)一步提升系統(tǒng)穩(wěn)健性與可靠性,以構(gòu)建更健康的數(shù)字分布式技術(shù)應(yīng)用系統(tǒng)。

          -END-

          MySQL之父,MySQL官方,三大頂會齊贊,憑什么?


          疫情成本遭不住?一招降本85%,架構(gòu)特性全部公開!


          快上云,安心吃瓜
          瀏覽 45
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人色人人色 | 中文字幕无码久久 | www.91爱爱,com | 国产一级视频在线 | 狼人在线综合 |