Xgboost 打敗深度學習 ?
為什么基于樹的機器學習方法,如 XGBoost 和隨機森林在表格數(shù)據(jù)上優(yōu)于深度學習?本文給出了這種現(xiàn)象背后的原因,他們選取了 45 個開放數(shù)據(jù)集,并定義了一個新基準,對基于樹的模型和深度模型進行比較,總結出三點原因來解釋這種現(xiàn)象。
引自:機器之心


異構列,列應該對應不同性質的特征,從而排除圖像或信號數(shù)據(jù)集。 維度低,數(shù)據(jù)集 d/n 比率低于 1/10。 無效數(shù)據(jù)集,刪除可用信息很少的數(shù)據(jù)集。 I.I.D.(獨立同分布)數(shù)據(jù),移除類似流的數(shù)據(jù)集或時間序列。 真實世界數(shù)據(jù),刪除人工數(shù)據(jù)集,但保留一些模擬數(shù)據(jù)集。 數(shù)據(jù)集不能太小,刪除特征太少(< 4)和樣本太少(< 3 000)的數(shù)據(jù)集。 刪除過于簡單的數(shù)據(jù)集。 刪除撲克和國際象棋等游戲的數(shù)據(jù)集,因為這些數(shù)據(jù)集目標都是確定性的。






原文鏈接:https://twitter.com/GaelVaroquaux/status/1549422403889
評論
圖片
表情
