SRE需要掌握的9大技能 | IDCF

來源:DevOps社區(qū)Meetup 作者:Quentin Rousseau,發(fā)表于2022年2月24日 原文鏈接:https://devops.com/top-nine-skills-for-sres-to-master/ 譯者:曉峰
我們很容易泛泛而談SRE(站點(diǎn)可靠性工程師)的工作內(nèi)容:他們確保IT系統(tǒng)達(dá)到可用性和性能要求。
但是,SRE究竟需要哪些技能來完成他們的工作呢?這是個(gè)更復(fù)雜的問題。
為了回答這個(gè)問題,我們來看看現(xiàn)代SRE(或有志于SRE的人)應(yīng)該掌握的九大站點(diǎn)可靠性工程師技能。盡管SRE技能可能因團(tuán)隊(duì)而異,這取決于所管理的系統(tǒng)類型和面臨的主要可靠性挑戰(zhàn)類型,但實(shí)際上所有SRE都需要一套核心標(biāo)準(zhǔn)技能,使他們能夠理解和管理他們在當(dāng)今典型組織中必須支持的復(fù)雜、分布式系統(tǒng)類型。
以下是9大首要的SRE技能分類。
一、SRE的網(wǎng)絡(luò)專業(yè)知識
網(wǎng)絡(luò)在連接現(xiàn)代分布式環(huán)境方面發(fā)揮著關(guān)鍵作用。因此,當(dāng)出現(xiàn)問題時(shí),它往往是罪魁禍?zhǔn)住纾現(xiàn)acebook在一次網(wǎng)絡(luò)問題導(dǎo)致其整個(gè)全球基礎(chǔ)設(shè)施癱瘓時(shí)就吸取了這一教訓(xùn)。
這就是為什么SRE需要掌握網(wǎng)絡(luò)概念的背景。盡管這些組織也雇傭了網(wǎng)絡(luò)工程師,站點(diǎn)可靠性工程師也需要對網(wǎng)絡(luò)本身有深刻理解,才能知道網(wǎng)絡(luò)何時(shí)是事故的根本原因,以及如何有效地解決網(wǎng)絡(luò)引起的問題。
二、Linux 和 Unix
如果你有Windows背景,但你想成為SRE,無法回避的是:除了Windows之外,你還需要學(xué)習(xí)使用Linux和其他類Unix系統(tǒng)。
這是因?yàn)椋词乖诓惶蕾嘗inux服務(wù)器的組織中,你也可能會發(fā)現(xiàn)Linux和Unix的概念深深嵌入到你必須使用的其他系統(tǒng)中。例如,大多數(shù)公有云管理工具都遵循Linux CLI 工具的使用習(xí)慣。Docker和Kubernetes等系統(tǒng)也是如此,即使是運(yùn)行在Windows環(huán)境中。
三、云計(jì)算
與Linux和網(wǎng)絡(luò)一樣,云計(jì)算是現(xiàn)代SRE離不開的另一項(xiàng)技能。
原因幾乎不言自明:大約90%的企業(yè)使用云,如果不能理解云架構(gòu)、云網(wǎng)絡(luò)、云數(shù)據(jù)存儲、云可觀測性等,你就不能很好地管理云環(huán)境的可靠性。
四、CI/CD 流水線
SRE通常不會幫忙開發(fā)軟件,但他們?nèi)匀恍枰钊肜斫廛浖侨绾尉帉懞筒渴鸬摹诮裉齑蠖鄶?shù)的組織里,部署是通過CI/CD流水線實(shí)現(xiàn)的。
如果你不知道如何解決在應(yīng)用程序源代碼或部署過程中出現(xiàn)的可靠性問題,就很難設(shè)計(jì)可靠性。理解CI/CD流程是如何工作的,以及哪些工具驅(qū)動(dòng)它們,這對今天幾乎所有的SRE都是關(guān)鍵的技能。
五、質(zhì)量保證和軟件測試自動(dòng)化
SRE通常也不會在部署前幫忙測試軟件。這項(xiàng)任務(wù)落在開發(fā)人員和質(zhì)量保證工程師身上。
盡管如此,理解軟件是如何被測試的——以及如何使用測試自動(dòng)化來加快測試和擴(kuò)大測試覆蓋率——是一項(xiàng)至關(guān)重要的SRE技能。畢竟,團(tuán)隊(duì)測試軟件越徹底、越有效,就越有可能在部署前發(fā)現(xiàn)可靠性問題,因?yàn)榇藭r(shí)這些問題更容易修復(fù),對業(yè)務(wù)造成的風(fēng)險(xiǎn)也低得多。
六、安全工程和響應(yīng)
安全是另一個(gè)SRE不“擁有”的領(lǐng)域,但他們?nèi)匀恍枰罅康募寄堋?/p>
事實(shí)上,良好的可靠性工程會把安全置為優(yōu)先項(xiàng),反之亦然。那些不了解安全基礎(chǔ)的SRE有可能實(shí)施從可靠性角度來看有效,但不一定安全的可靠性解決方案。
七、DevOps
盡管SRE不是DevOps工程師,但SRE和DevOps是密切相關(guān)的領(lǐng)域。今天,大多數(shù)組織的SRE都被期望能理解DevOps概念,并在許多情況下與DevOps團(tuán)隊(duì)一起工作。
因此,將掌握DevOps技能作為你的站點(diǎn)可靠性工程師技能獲取戰(zhàn)略的一部分。
八、事故管理
也許SRE最需要學(xué)習(xí)的技能類型是事故管理。盡管許多角色都可能參與事故響應(yīng),但SRE通常帶頭組織事故響應(yīng)團(tuán)隊(duì),與干系人溝通,并為盡快解決每個(gè)事故設(shè)計(jì)最佳策略。
這意味著SRE應(yīng)該知道事故響應(yīng)角色的組成,并理解事故響應(yīng)概念。他們還應(yīng)該熟悉事故響應(yīng)平臺,這些平臺能夠自動(dòng)化復(fù)雜流程以確保快速、有效地解決事故。
九、管理事后調(diào)查
除了監(jiān)督事故響應(yīng),SRE可能還負(fù)責(zé)管理事后調(diào)查。知道如何進(jìn)行事后調(diào)查——以及何時(shí)有必要進(jìn)行事后調(diào)查,何時(shí)使用“無責(zé)”的調(diào)查方法——是一項(xiàng)基本的SRE技能。
SRE技能清單當(dāng)然可以繼續(xù)。以上只是SRE在大多數(shù)現(xiàn)代環(huán)境中需要的最基本的技能類型。但是,如果你剛剛踏上SRE旅程,上述九個(gè)技能領(lǐng)域是開始獲取在SRE職業(yè)中出類拔萃所需知識的好地方。

超級工程師實(shí)戰(zhàn)營第八模塊【運(yùn)維模塊】邀請到第四屆北大互聯(lián)網(wǎng)CIO班副班長、《運(yùn)維知識體系》&《緩存知識體系》作者 趙舜東老師帶來3小時(shí)大時(shí)段課程分享,主題是《自動(dòng)化運(yùn)維知識體系建設(shè)實(shí)踐》
7月12日(周二)和7月13日(周三)晚上19:30-21:00,線上直播,掃碼立即報(bào)名,精彩內(nèi)容,不容錯(cuò)過


