樹模型為什么不需要歸一化？

參考答案

樹模型是找最佳分裂點，是否對數(shù)據(jù)進行歸一化，不影響最佳分裂點的計算。此外，樹模型是不進行梯度下降的，階躍點是不可導(dǎo)的，并且求導(dǎo)沒意義，也就不需要歸一化。

既然樹形結(jié)構(gòu)（如決策樹、RF）不需要歸一化，那為何非樹形結(jié)構(gòu)比如Adaboost、SVM、LR、Knn、KMeans之類則需要歸一化呢？

對于線性模型，特征值差別很大時，比如說LR，我有兩個特征，一個是(0,1)的，一個是(0,10000)的，運用梯度下降的時候，損失等高線是橢圓形，需要進行多次迭代才能到達最優(yōu)點。

但是如果進行了歸一化，那么等高線就是圓形的，促使SGD往原點迭代，從而導(dǎo)致需要的迭代次數(shù)較少。

除了歸一化，我們還會經(jīng)常提到標(biāo)準(zhǔn)化，那到底什么是標(biāo)準(zhǔn)化和歸一化呢？

標(biāo)準(zhǔn)化：特征均值為0，方差為1

公式：

歸一化：把每個特征向量（特別是奇異樣本數(shù)據(jù)）的值都縮放到相同數(shù)值范圍，如[0,1]或[-1,1]。

最常用的歸一化形式就是將特征向量調(diào)整為L1范數(shù)(就是絕對值相加)，使特征向量的數(shù)值之和為1。

而L2范數(shù)就是歐幾里得之和。

data_normalized = preprocessing.normalize( data , norm="L1" )

公式：

這個方法經(jīng)常用于確保數(shù)據(jù)點沒有因為特征的基本性質(zhì)而產(chǎn)生較大差異，即確保數(shù)據(jù)處于同一數(shù)量級（同一量綱），提高不同特征數(shù)據(jù)的可比性。?

END

每日一題精選?？济嬖囶}，利用零碎時間為職業(yè)保駕護航，建議大家獨立思考答題。

(長按三秒，即可進入)


后臺已放置一份精心整理的技術(shù)干貨，查看即可獲?。?/span>
后臺回復(fù)關(guān)鍵字：進群，帶你進入高手如云的交流群！

推薦閱讀
Pycharm 操作和配置指南都不會，寫 Python 肯定慢嘛
這18張 Python 數(shù)據(jù)科學(xué)速查表真棒！
7個特殊技巧，讓Python數(shù)據(jù)分析更輕松
四款可視化工具，解決99%的可視化大屏需求

每日一題：樹模型為什么不需要歸一化？

樹模型為什么不需要歸一化？

每日一題：樹模型為什么不需要歸一化？

樹模型為什么不需要歸一化？