Open-Falcon互聯(lián)網(wǎng)企業(yè)級監(jiān)控系統(tǒng)
Open-Falcon 是人性化的互聯(lián)網(wǎng)企業(yè)級監(jiān)控系統(tǒng),Open-Falcon 整體可以分為兩部分,即繪圖組件、告警組件。其中:
-
安裝繪圖組件 負(fù)責(zé)數(shù)據(jù)的采集、收集、存儲、歸檔、采樣、查詢、展示(Dashboard/Screen)等功能,可以單獨工作,作為time-series data的一種存儲展示方案。
-
安裝告警組件 負(fù)責(zé)告警策略配置(portal)、告警判定(judge)、告警處理(alarm/sender)、用戶組管理(uic)等,可以單獨工作。
介紹
監(jiān)控系統(tǒng)是整個運維環(huán)節(jié),乃至整個產(chǎn)品生命周期中最重要的一環(huán),事前及時預(yù)警發(fā)現(xiàn)故障,事后提供翔實的數(shù)據(jù)用于追查定位問題。監(jiān)控系統(tǒng)作為一個成熟 的運維產(chǎn)品,業(yè)界有很多開源的實現(xiàn)可供選擇。當(dāng)公司剛剛起步,業(yè)務(wù)規(guī)模較小,運維團隊也剛剛建立的初期,選擇一款開源的監(jiān)控系統(tǒng),是一個省時省力,效率最 高的方案。之后,隨著業(yè)務(wù)規(guī)模的持續(xù)快速增長,監(jiān)控的對象也越來越多,越來越復(fù)雜,監(jiān)控系統(tǒng)的使用對象也從最初少數(shù)的幾個SRE,擴大為更多的 DEVS,SRE。這時候,監(jiān)控系統(tǒng)的容量和用戶的“使用效率”成了最為突出的問題。
監(jiān)控系統(tǒng)業(yè)界有很多杰出的開源監(jiān)控系統(tǒng)。我們在早期,一直在用zabbix,不過隨著業(yè)務(wù)的快速發(fā)展,以及互聯(lián)網(wǎng)公司特有的一些需求,現(xiàn)有的開源的監(jiān)控系統(tǒng)在性能、擴展性、和用戶的使用效率方面,已經(jīng)無法支撐了。
因此,我們在過去的一年里,從互聯(lián)網(wǎng)公司的一些需求出發(fā),從各位SRE、SA、DEVS的使用經(jīng)驗和反饋出發(fā),結(jié)合業(yè)界的一些大的互聯(lián)網(wǎng)公司做監(jiān)控,用監(jiān)控的一些思考出發(fā),設(shè)計開發(fā)了小米的監(jiān)控系統(tǒng):Open-Falcon。
值得關(guān)注的特性
-
強大靈活的數(shù)據(jù)采集:通過配套的Falcon-agent,可以自動采集400多項單機指標(biāo),也可以通過用戶自定義的插件來擴大采集項的范圍。用戶也可以通過其他方式獲取到相關(guān)的指標(biāo),比如通過SNMP方式獲取網(wǎng)絡(luò)設(shè)備的相關(guān)運行指標(biāo),然后主動推送給監(jiān)控系統(tǒng)。
-
良好的水平擴展能力:監(jiān)控系統(tǒng)要能通過水平擴展來支撐業(yè)務(wù)的快速發(fā)展。
-
高效率的告警策略管理:高效的用戶配置界面、支持策略模板、模板繼承和覆蓋、多種告警方式、支持回調(diào)動作。
-
人性化的告警設(shè)置:支持最大告警次數(shù)、告警級別設(shè)置、告警恢復(fù)通知、告警暫停、不同時段不同閾值、支持維護周期,支持告警合并。
-
高效的歷史數(shù)據(jù)查詢:采用RRDtool的數(shù)據(jù)歸檔策略,秒級返回上百個指標(biāo)一年的歷史數(shù)據(jù)。
-
人性化的Dashboard:多維度的數(shù)據(jù)展示,用戶自定義Dashboard等功能。
-
高可用:整個系統(tǒng)無核心單點,易運維,易部署。
屏幕截圖:
Dashboard Homepage
Dashboard Screen
Dashboard 大圖
Portal host group
Portal template
