Netflix猿猴軍團(Simian Army) | IDCF

Source: Netflix Technology Blog, Jul 19, 2011 作者:Yury lzrailevsky, 云系統(tǒng)基礎(chǔ)設(shè)施總監(jiān);Ariel Tseitlin, 云解決方案總監(jiān) 譯者:林偉丹
延遲猴子(Latency Monkey)在我們的RESTful客戶端-服務(wù)器通信層中,引入人工延遲來模擬服務(wù)降級,并衡量上游服務(wù)是否適當?shù)仨憫?yīng)。此外,通過制造非常大的延遲,我們可以模擬一個節(jié)點甚至整個服務(wù)的停機時間(并測試我們在這種情況下的生存能力),而不必從物理上關(guān)閉這些實例。這在測試新服務(wù)的容錯性時尤其有用,方法是模擬其依賴項的故障,而不會導致這些依賴項對系統(tǒng)的其余部分不可用。 一致性猴子(Conformity Monkey)發(fā)現(xiàn)不符合最佳實踐的實例,并關(guān)閉它們。例如,我們知道,如果我們發(fā)現(xiàn)有實例不屬于自動擴容組,那么就可能會有麻煩的事情發(fā)生。我們關(guān)閉它們,是為了讓服務(wù)所有者有機會重新啟動它們。 醫(yī)生猴子(Doctor Monkey)通過運行在每個實例上的健康檢查,并監(jiān)視外部的其他健康跡象(例如CPU負載),來檢測不健康的實例。一旦檢測到不健康的實例,它們將被從服務(wù)中移除,并在給服務(wù)所有者一些時間來查找問題根因之后,最終將被終止掉。 看門猴子(Janitor Monkey)確保我們云環(huán)境的運行沒有混亂和浪費。它搜索未被使用的資源,并清除掉它們。 安全猴子(Securiy Monkey)是一致性猴子的延伸。它會發(fā)現(xiàn)安全違規(guī)項或漏洞(如配置不當?shù)腁WS安全組),并終止有問題的實例。它還確保我們所有的SSL和DRM認證都是有效的,并且不會過期。 10-18 猴子(10-18 Monkey,本地化-國際化的縮寫,或110n-i18n)使用不同的語言和字符集,檢測服務(wù)于多個地理區(qū)域客戶實例中的配置和運行時問題。 混沌大猩猩(Chaos Gorilla)類似于混沌猴子,但模擬了整個Amazon可用區(qū)(availability zone)的中斷。我們想驗證我們的服務(wù)是否能自動重新均衡到功能可用區(qū),而不會導致用戶可見的影響或手動干預。

評論
圖片
表情
