揭開KPI異常檢測頂級AI模型面紗(1)

原子彈從入門到精通
GDE全球開發(fā)者大賽-KPI異常檢測告一段落,來自深圳福田蓮花街道的“原子彈從入門到精通“有幸取得了總榜TOP1的成績,下面給出他的解決方案。
01
背景介紹

評估指標:
本賽題采用F1作為評估指標,具體計算公式如下:
P = TP/(TP+FP)
R = TP/(TP+FN)
F1 = 2*P*R/(P+R)

02
數(shù)據(jù)探索



如Fig3中a部分(紅框)所示,邊界型異常中異常樣本的取值范圍與正常值取值完全不同,即存在明確的決策邊界可以完全分離異常點。
如Fig3中b部分(綠框)所示,正常樣本點的走勢往往沿著一個趨勢,而趨勢破壞型的異常點會偏離這個趨勢,但取值范圍可能仍然在正常樣本的取值范圍內(nèi),這類異常與相鄰點的差異較大,與相同時刻正常點的取值差異也較大。
如Fig3中c部分(橙框)所示,此類異常取值直接為0,根據(jù)我對業(yè)務(wù)的理解,正常的KPI不應(yīng)出現(xiàn)0值,根據(jù)分析,20個KPI中有19個正常取值均不應(yīng)為0,僅1個KPI正常取值為0,非0則為異常。
如Fig3中d部分(紫框)所示,此類異常往往既沒有破壞趨勢,取值也在正常的范圍內(nèi),但可能會偏離相同時刻的正常取值。
03
解題思路
賽題中共有20個不同的KPI,KPI物理意義不同且異常的種類也多種多樣,若將所有KPI作為一個整體建立一個統(tǒng)一的二分類模型,模型效果差強人意,難以進入前排,但若對每個KPI單獨建模,則需要建立并維護調(diào)優(yōu)至少20個不同的模型,維護成本過高,因此我的思路是將KPI或異常進行分類建模。
決策樹會根據(jù)目標的分布將樣本劃分在不同的特征空間范圍內(nèi)(如Fig4 所示),非常適合用于邊界的發(fā)現(xiàn)與確定。因此針對邊界型異常,即好壞樣本取值完全不同的異常,我采用決策樹進行邊界的自動發(fā)現(xiàn)與確定,具體如下:



04
特征構(gòu)造
05
模型方案


06
?鳴謝?
非常感謝希旭哥,苕蕓博士,素顏姐,小愛姐等人在比賽過程中的幫助與指導,希旭哥還是一如既往的熱情,總能在第一時間為大家答疑解惑。
加群交流學習
