如何用決策樹模型做數(shù)據(jù)分析?


簡單:邏輯相對簡單,整個算法沒有更復(fù)雜的邏輯,只是對節(jié)點進(jìn)行分叉; 高效:模型訓(xùn)練速度較快; 強解釋性:模型的判斷邏輯可以用語言清晰的表達(dá)出來,比如上述決策樹案例中的判斷,就可以直接用語言表述成:脫離水不能生存的沒有腳蹼的動物,我們判斷它是魚;
監(jiān)督分層; 驅(qū)動力分析:某個因變量指標(biāo)受多個因素所影響,分析不同因素對因變量驅(qū)動力的強弱(驅(qū)動力指相關(guān)性,不是因果性); 預(yù)測:根據(jù)模型進(jìn)行分類的預(yù)測;
熵是什么?



信息增益


我們繼續(xù)用上一篇文章《如何用線性回歸模型做數(shù)據(jù)分析》中的共享單車服務(wù)滿意分?jǐn)?shù)據(jù)集來做案例,分析哪一類人群更加偏向于成為公司的推薦者,我們需要分析用戶特征,更好的區(qū)分出推薦者。




樹的深度 — 如規(guī)定樹的深度不能超過3
葉子結(jié)點樣本數(shù) — 如葉子結(jié)點樣本數(shù)不能小于10
信息增益 — 如每一個分叉的信息增益不能小于0.2(R中的默認(rèn)值)
決策樹在數(shù)據(jù)分析中的實戰(zhàn)流程







模型建立后,可以將模型用作分類預(yù)測; 決策樹不只可應(yīng)用于預(yù)測量為分類變量,還可應(yīng)用于數(shù)值型因變量,只需將熵改為連續(xù)變量的方差; 特征劃分的方法除了信息增益方法外,還可以用增益率(C4.5決策樹)、基尼指數(shù)(CART決策樹); 剪枝是決策樹算法中防止過擬合的主要手段,分為預(yù)剪枝與后剪枝。預(yù)剪枝指在決策樹生成過程中,對每個結(jié)點在劃分前進(jìn)行估計,若當(dāng)前結(jié)點劃分不能使決策樹泛化能力提升則停止劃分。后剪枝指先從訓(xùn)練集生成一顆決策樹,自底向上對非葉結(jié)點進(jìn)行考察,若該結(jié)點對應(yīng)的子樹替換為葉結(jié)點能使決策樹泛化能力提升,則該子樹替換為葉結(jié)點;
?
? ??
評論
圖片
表情


