<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Xgboost 打敗深度學習 ?

          共 2633字,需瀏覽 6分鐘

           ·

          2022-08-02 13:15

          為什么基于樹的機器學習方法,如 XGBoost 和隨機森林在表格數(shù)據(jù)上優(yōu)于深度學習?本文給出了這種現(xiàn)象背后的原因,他們選取了 45 個開放數(shù)據(jù)集,并定義了一個新基準,對基于樹的模型和深度模型進行比較,總結出三點原因來解釋這種現(xiàn)象。 

          引自:機器之心


          深度學習在圖像、語言甚至音頻等領域取得了巨大的進步。然而,在處理表格數(shù)據(jù)上,深度學習卻表現(xiàn)一般。由于表格數(shù)據(jù)具有特征不均勻、樣本量小、極值較大等特,因此很難找到相應的不變量。

          基于樹的模型不可微,不能與深度學習模塊聯(lián)合訓練,因此創(chuàng)建特定于表格的深度學習架構是一個非常活躍的研究領域。許多研究都聲稱可以擊敗或媲美基于樹的模型,但他們的研究遭到很多質疑。

          事實上,對表格數(shù)據(jù)的學習缺乏既定基準,這樣一來研究人員在評估他們的方法時就有很多自由度。此外,與其他機器學習子域中的基準相比,大多數(shù)在線可用的表格數(shù)據(jù)集都很小,這使得評估更加困難。

          為了緩解這些擔憂,來自法國國家信息與自動化研究所、索邦大學等機構的研究者提出了一個表格數(shù)據(jù)基準,其能夠評估最新的深度學習模型,并表明基于樹的模型在中型表格數(shù)據(jù)集上仍然是 SOTA。

          對于這一結論,文中給出了確鑿的證據(jù),在表格數(shù)據(jù)上,使用基于樹的方法比深度學習(甚至是現(xiàn)代架構)更容易實現(xiàn)良好的預測,研究者并探明了其中的原因。


          論文地址:https://hal.archives-ouvertes.fr/hal-03723551/document

          值得一提的是,論文作者之一是 Ga?l Varoquaux ,他是 Scikit-learn 計劃的領導者之一。目前該項目在 GitHub 上已成為最流行的機器學習庫之一。而由 Ga?l Varoquaux 參與的文章《Scikit-learn: Machine learning in Python》,引用量達 58949。


          本文貢獻可總結為:

          該研究為表格數(shù)據(jù)創(chuàng)建了一個新的基準(選取了 45 個開放數(shù)據(jù)集),并通過 OpenML 共享這些數(shù)據(jù)集,這使得它們易于使用。

          該研究在表格數(shù)據(jù)的多種設置下比較了深度學習模型和基于樹的模型,并考慮了選擇超參數(shù)的成本。該研究還分享了隨機搜索的原始結果,這將使研究人員能夠廉價地測試新算法以獲得固定的超參數(shù)優(yōu)化預算。

          在表格數(shù)據(jù)上,基于樹的模型仍然優(yōu)于深度學習方法

          新基準參考 45 個表格數(shù)據(jù)集,選擇基準如下 :

          • 異構列,列應該對應不同性質的特征,從而排除圖像或信號數(shù)據(jù)集。
          • 維度低,數(shù)據(jù)集 d/n 比率低于 1/10。
          • 無效數(shù)據(jù)集,刪除可用信息很少的數(shù)據(jù)集。
          • I.I.D.(獨立同分布)數(shù)據(jù),移除類似流的數(shù)據(jù)集或時間序列。
          • 真實世界數(shù)據(jù),刪除人工數(shù)據(jù)集,但保留一些模擬數(shù)據(jù)集。
          • 數(shù)據(jù)集不能太小,刪除特征太少(< 4)和樣本太少(< 3 000)的數(shù)據(jù)集。
          • 刪除過于簡單的數(shù)據(jù)集。
          • 刪除撲克和國際象棋等游戲的數(shù)據(jù)集,因為這些數(shù)據(jù)集目標都是確定性的。
           
          在基于樹的模型中,研究者選擇了 3 種 SOTA 模型:Scikit Learn 的 RandomForest,GradientBoostingTrees (GBTs) , XGBoost 。

          該研究對深度模型進行了以下基準測試:MLP、Resnet 、FT Transformer、SAINT 。

          圖 1 和圖 2 給出了不同類型數(shù)據(jù)集的基準測試結果


          實證調查:為什么基于樹的模型在表格數(shù)據(jù)上仍然優(yōu)于深度學習

          歸納偏差?;跇涞哪P驮诟鞣N超參數(shù)選擇中擊敗了神經網絡。事實上,處理表格數(shù)據(jù)的最佳方法有兩個共有屬性:它們是集成方法、bagging(隨機森林)或 boosting(XGBoost、GBT),而這些方法中使用的弱學習器是決策樹。

          發(fā)現(xiàn) 1:神經網絡(NN)傾向于過度平滑的解決方案

          如圖 3 所示,對于較小的尺度,平滑訓練集上的目標函數(shù)會顯著降低基于樹的模型的準確率,但幾乎不會影響 NN。這些結果表明,數(shù)據(jù)集中的目標函數(shù)并不平滑,與基于樹的模型相比,NN 難以適應這些不規(guī)則函數(shù)。這與 Rahaman 等人的發(fā)現(xiàn)一致,他們發(fā)現(xiàn) NN 偏向于低頻函數(shù)?;跊Q策樹的模型學習分段(piece-wise)常函數(shù),沒有這樣的偏置。


          發(fā)現(xiàn) 2:非信息特征更能影響類似 MLP 的 NN

          表格數(shù)據(jù)集包含許多非信息( uninformative)特征,對于每個數(shù)據(jù)集,該研究根據(jù)特征的重要性會選擇丟棄一定比例的特征(通常按隨機森林排序)。從圖 4 可以看出,去除一半以上的特征對 GBT 的分類準確率影響不大。


          圖 5 可以看到移除非信息特征 (5a) 減少了 MLP (Resnet) 與其他模型(FT Transformers 和基于樹的模型)之間的性能差距 ,而添加非信息特征會擴大差距,這表明 MLP 對非信息特征的魯棒性較差。在圖 5a 中,當研究者移除更大比例的特征時,相應的也會刪除有用信息特征。圖 5b 表明,去除這些特征所帶來的準確率下降可以通過去除非信息特征來補償,與其他模型相比,這對 MLP 更有幫助(同時,該研究還刪除了冗余特性,也不會影響模型性能)。



          發(fā)現(xiàn) 3:通過旋轉,數(shù)據(jù)是非不變的

          與其他模型相比,為什么 MLP 更容易受到無信息特征的影響?其中一個答案是,MLP 是旋轉不變的:當對訓練集和測試集特征應用旋轉時,在訓練集上學習 MLP 并在測試集上進行評估,這一過程是不變的。事實上,任何旋轉不變的學習過程都具有最壞情況下的樣本復雜度,該復雜度至少在不相關特征的數(shù)量上呈線性增長。直觀地說,為了去除無用特征,旋轉不變算法必須首先找到特征的原始方向,然后選擇信息最少的特征。
           
          圖 6a 顯示了當對數(shù)據(jù)集進行隨機旋轉時的測試準確率變化,證實只有 Resnets 是旋轉不變的。值得注意的是,隨機旋轉顛倒了性能順序:結果是 NN 在基于樹的模型之上,Resnets 在 FT Transformer 之上,這表明旋轉不變性是不可取的。事實上,表格數(shù)據(jù)通常具有單獨含義,例如年齡、體重等。

          圖 6b 中顯示:刪除每個數(shù)據(jù)集中最不重要的一半特征(在旋轉之前),會降低除 Resnets 之外的所有模型的性能,但與沒有刪除特征使用所有特征時相比,相比較而言,下降的幅度較小。


          原文鏈接:https://twitter.com/GaelVaroquaux/status/1549422403889

          瀏覽 49
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码一区二区三区中文 | 日本在线观看a | 搞搞AV | 国产精品酒精在线观看 | 女人的天堂av |