每日一題:樹模型為什么不需要歸一化?
關(guān)注"Python學(xué)習(xí)與數(shù)據(jù)挖掘",
設(shè)為“置頂或星標(biāo)”,第一時間送達干貨
樹模型為什么不需要歸一化?
既然樹形結(jié)構(gòu)(如決策樹、RF)不需要歸一化,那為何非樹形結(jié)構(gòu)比如Adaboost、SVM、LR、Knn、KMeans之類則需要歸一化呢?
對于線性模型,特征值差別很大時,比如說LR,我有兩個特征,一個是(0,1)的,一個是(0,10000)的,運用梯度下降的時候,損失等高線是橢圓形,需要進行多次迭代才能到達最優(yōu)點。
但是如果進行了歸一化,那么等高線就是圓形的,促使SGD往原點迭代,從而導(dǎo)致需要的迭代次數(shù)較少。
除了歸一化,我們還會經(jīng)常提到標(biāo)準(zhǔn)化,那到底什么是標(biāo)準(zhǔn)化和歸一化呢?
標(biāo)準(zhǔn)化:特征均值為0,方差為1
公式:

歸一化:把每個特征向量(特別是奇異樣本數(shù)據(jù))的值都縮放到相同數(shù)值范圍,如[0,1]或[-1,1]。
最常用的歸一化形式就是將特征向量調(diào)整為L1范數(shù)(就是絕對值相加),使特征向量的數(shù)值之和為1。
而L2范數(shù)就是歐幾里得之和。
data_normalized = preprocessing.normalize( data , norm="L1" )
公式:


?
每日一題精選??济嬖囶},利用零碎時間為職業(yè)保駕護航,建議大家獨立思考答題。
(長按三秒,即可進入)
后臺已放置一份精心整理的技術(shù)干貨,查看即可獲?。?/span> 后臺回復(fù)關(guān)鍵字:進群,帶你進入高手如云的交流群! 推薦閱讀
評論
圖片
表情
