用XGBoost入門可解釋機器學習!
經(jīng)典的全局特征重要性度量

圖:該模型在經(jīng)典的成人普查數(shù)據(jù)集上被訓練用于預測人們是否會報告超過5萬美元的收入(使用logistic loss),上圖是執(zhí)行xgboost.plot_importance(model)的結果

什么因素決定了特征重要性度量的好壞?
當前的歸因方法是否一致且準確?



充滿信心地解釋我們的模型
?圖:全局Mean( |Tree SHAP| )方法應用到收入預測模型上。x軸是當某個特征從模型中’隱藏’時模型輸出的平均幅度變化(對于此模型,輸出具有l(wèi)og-odds單位)。詳細信息,請參見論文。但是“隱藏”是指將變量集成到模型之外。由于隱藏特征的影響會根據(jù)其他隱藏特征而變化,因此使用Shapley值可迫使一致性和準確性。
圖:每個客戶在每一行上都有一個點。點的x坐標是該特征對客戶模型預測的影響,而點的顏色表示該特征的值。不在行上的點堆積起來顯示密度(此示例中有32,561個客戶)。由于XGBoost模型具有l(wèi)ogistic loss,因此x軸具有l(wèi)og-odds單位(Tree SHAP解釋了模型的邊距輸出變化)。


圖:每周工作時間與工作時間數(shù)對收入潛力的影響。
解釋你自己的模型
評論
圖片
表情
