<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          XGBoost 和隨機(jī)森林在表格數(shù)據(jù)上優(yōu)于深度學(xué)習(xí)?

          共 2794字,需瀏覽 6分鐘

           ·

          2022-08-29 10:11

          推薦關(guān)注↓

          來(lái)源:機(jī)器之心編輯部

          為什么基于樹(shù)的機(jī)器學(xué)習(xí)方法,如 XGBoost 和隨機(jī)森林在表格數(shù)據(jù)上優(yōu)于深度學(xué)習(xí)?本文給出了這種現(xiàn)象背后的原因,他們選取了 45 個(gè)開(kāi)放數(shù)據(jù)集,并定義了一個(gè)新基準(zhǔn),對(duì)基于樹(shù)的模型和深度模型進(jìn)行比較,總結(jié)出三點(diǎn)原因來(lái)解釋這種現(xiàn)象。 


          深度學(xué)習(xí)在圖像、語(yǔ)言甚至音頻等領(lǐng)域取得了巨大的進(jìn)步。然而,在處理表格數(shù)據(jù)上,深度學(xué)習(xí)卻表現(xiàn)一般。由于表格數(shù)據(jù)具有特征不均勻、樣本量小、極值較大等特點(diǎn),因此很難找到相應(yīng)的不變量。


          基于樹(shù)的模型不可微,不能與深度學(xué)習(xí)模塊聯(lián)合訓(xùn)練,因此創(chuàng)建特定于表格的深度學(xué)習(xí)架構(gòu)是一個(gè)非?;钴S的研究領(lǐng)域。許多研究都聲稱(chēng)可以擊敗或媲美基于樹(shù)的模型,但他們的研究遭到很多質(zhì)疑。


          事實(shí)上,對(duì)表格數(shù)據(jù)的學(xué)習(xí)缺乏既定基準(zhǔn),這樣一來(lái)研究人員在評(píng)估他們的方法時(shí)就有很多自由度。此外,與其他機(jī)器學(xué)習(xí)子域中的基準(zhǔn)相比,大多數(shù)在線可用的表格數(shù)據(jù)集都很小,這使得評(píng)估更加困難。


          為了緩解這些擔(dān)憂,來(lái)自法國(guó)國(guó)家信息與自動(dòng)化研究所、索邦大學(xué)等機(jī)構(gòu)的研究者提出了一個(gè)表格數(shù)據(jù)基準(zhǔn),其能夠評(píng)估最新的深度學(xué)習(xí)模型,并表明基于樹(shù)的模型在中型表格數(shù)據(jù)集上仍然是 SOTA。


          對(duì)于這一結(jié)論,文中給出了確鑿的證據(jù),在表格數(shù)據(jù)上,使用基于樹(shù)的方法比深度學(xué)習(xí)(甚至是現(xiàn)代架構(gòu))更容易實(shí)現(xiàn)良好的預(yù)測(cè),研究者并探明了其中的原因。



          論文地址:https://hal.archives-ouvertes.fr/hal-03723551/document


          值得一提的是,論文作者之一是 Ga?l Varoquaux ,他是 Scikit-learn 計(jì)劃的領(lǐng)導(dǎo)者之一。目前該項(xiàng)目在 GitHub 上已成為最流行的機(jī)器學(xué)習(xí)庫(kù)之一。而由 Ga?l Varoquaux 參與的文章《Scikit-learn: Machine learning in Python》,引用量達(dá) 58949。



          本文貢獻(xiàn)可總結(jié)為:


          該研究為表格數(shù)據(jù)創(chuàng)建了一個(gè)新的基準(zhǔn)(選取了 45 個(gè)開(kāi)放數(shù)據(jù)集),并通過(guò) OpenML 共享這些數(shù)據(jù)集,這使得它們易于使用。


          該研究在表格數(shù)據(jù)的多種設(shè)置下比較了深度學(xué)習(xí)模型和基于樹(shù)的模型,并考慮了選擇超參數(shù)的成本。該研究還分享了隨機(jī)搜索的原始結(jié)果,這將使研究人員能夠廉價(jià)地測(cè)試新算法以獲得固定的超參數(shù)優(yōu)化預(yù)算。


          在表格數(shù)據(jù)上,基于樹(shù)的模型仍然優(yōu)于深度學(xué)習(xí)方法


          新基準(zhǔn)參考 45 個(gè)表格數(shù)據(jù)集,選擇基準(zhǔn)如下 :


          • 異構(gòu)列,列應(yīng)該對(duì)應(yīng)不同性質(zhì)的特征,從而排除圖像或信號(hào)數(shù)據(jù)集。
          • 維度低,數(shù)據(jù)集 d/n 比率低于 1/10。
          • 無(wú)效數(shù)據(jù)集,刪除可用信息很少的數(shù)據(jù)集。
          • I.I.D.(獨(dú)立同分布)數(shù)據(jù),移除類(lèi)似流的數(shù)據(jù)集或時(shí)間序列。
          • 真實(shí)世界數(shù)據(jù),刪除人工數(shù)據(jù)集,但保留一些模擬數(shù)據(jù)集。
          • 數(shù)據(jù)集不能太小,刪除特征太少(< 4)和樣本太少(< 3 000)的數(shù)據(jù)集。
          • 刪除過(guò)于簡(jiǎn)單的數(shù)據(jù)集。
          • 刪除撲克和國(guó)際象棋等游戲的數(shù)據(jù)集,因?yàn)檫@些數(shù)據(jù)集目標(biāo)都是確定性的。

           

          在基于樹(shù)的模型中,研究者選擇了 3 種 SOTA 模型:Scikit Learn 的 RandomForest,GradientBoostingTrees (GBTs) , XGBoost 。


          該研究對(duì)深度模型進(jìn)行了以下基準(zhǔn)測(cè)試:MLP、Resnet 、FT Transformer、SAINT 。


          圖 1 和圖 2 給出了不同類(lèi)型數(shù)據(jù)集的基準(zhǔn)測(cè)試結(jié)果



          實(shí)證調(diào)查:為什么基于樹(shù)的模型在表格數(shù)據(jù)上仍然優(yōu)于深度學(xué)習(xí)


          歸納偏差?;跇?shù)的模型在各種超參數(shù)選擇中擊敗了神經(jīng)網(wǎng)絡(luò)。事實(shí)上,處理表格數(shù)據(jù)的最佳方法有兩個(gè)共有屬性:它們是集成方法、bagging(隨機(jī)森林)或 boosting(XGBoost、GBT),而這些方法中使用的弱學(xué)習(xí)器是決策樹(shù)。


          發(fā)現(xiàn) 1:神經(jīng)網(wǎng)絡(luò)(NN)傾向于過(guò)度平滑的解決方案


          如圖 3 所示,對(duì)于較小的尺度,平滑訓(xùn)練集上的目標(biāo)函數(shù)會(huì)顯著降低基于樹(shù)的模型的準(zhǔn)確率,但幾乎不會(huì)影響 NN。這些結(jié)果表明,數(shù)據(jù)集中的目標(biāo)函數(shù)并不平滑,與基于樹(shù)的模型相比,NN 難以適應(yīng)這些不規(guī)則函數(shù)。這與 Rahaman 等人的發(fā)現(xiàn)一致,他們發(fā)現(xiàn) NN 偏向于低頻函數(shù)。基于決策樹(shù)的模型學(xué)習(xí)分段(piece-wise)常函數(shù),沒(méi)有這樣的偏置。



          發(fā)現(xiàn) 2:非信息特征更能影響類(lèi)似 MLP 的 NN


          表格數(shù)據(jù)集包含許多非信息( uninformative)特征,對(duì)于每個(gè)數(shù)據(jù)集,該研究根據(jù)特征的重要性會(huì)選擇丟棄一定比例的特征(通常按隨機(jī)森林排序)。從圖 4 可以看出,去除一半以上的特征對(duì) GBT 的分類(lèi)準(zhǔn)確率影響不大。



          圖 5 可以看到移除非信息特征 (5a) 減少了 MLP (Resnet) 與其他模型(FT Transformers 和基于樹(shù)的模型)之間的性能差距 ,而添加非信息特征會(huì)擴(kuò)大差距,這表明 MLP 對(duì)非信息特征的魯棒性較差。在圖 5a 中,當(dāng)研究者移除更大比例的特征時(shí),相應(yīng)的也會(huì)刪除有用信息特征。圖 5b 表明,去除這些特征所帶來(lái)的準(zhǔn)確率下降可以通過(guò)去除非信息特征來(lái)補(bǔ)償,與其他模型相比,這對(duì) MLP 更有幫助(同時(shí),該研究還刪除了冗余特性,也不會(huì)影響模型性能)。




          發(fā)現(xiàn) 3:通過(guò)旋轉(zhuǎn),數(shù)據(jù)是非不變的


          與其他模型相比,為什么 MLP 更容易受到無(wú)信息特征的影響?其中一個(gè)答案是,MLP 是旋轉(zhuǎn)不變的:當(dāng)對(duì)訓(xùn)練集和測(cè)試集特征應(yīng)用旋轉(zhuǎn)時(shí),在訓(xùn)練集上學(xué)習(xí) MLP 并在測(cè)試集上進(jìn)行評(píng)估,這一過(guò)程是不變的。事實(shí)上,任何旋轉(zhuǎn)不變的學(xué)習(xí)過(guò)程都具有最壞情況下的樣本復(fù)雜度,該復(fù)雜度至少在不相關(guān)特征的數(shù)量上呈線性增長(zhǎng)。直觀地說(shuō),為了去除無(wú)用特征,旋轉(zhuǎn)不變算法必須首先找到特征的原始方向,然后選擇信息最少的特征。

           

          圖 6a 顯示了當(dāng)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)旋轉(zhuǎn)時(shí)的測(cè)試準(zhǔn)確率變化,證實(shí)只有 Resnets 是旋轉(zhuǎn)不變的。值得注意的是,隨機(jī)旋轉(zhuǎn)顛倒了性能順序:結(jié)果是 NN 在基于樹(shù)的模型之上,Resnets 在 FT Transformer 之上,這表明旋轉(zhuǎn)不變性是不可取的。事實(shí)上,表格數(shù)據(jù)通常具有單獨(dú)含義,例如年齡、體重等。


          圖 6b 中顯示:刪除每個(gè)數(shù)據(jù)集中最不重要的一半特征(在旋轉(zhuǎn)之前),會(huì)降低除 Resnets 之外的所有模型的性能,但與沒(méi)有刪除特征使用所有特征時(shí)相比,相比較而言,下降的幅度較小。



          原文鏈接:https://twitter.com/GaelVaroquaux/status/1549422403889

          長(zhǎng)按或掃描下方二維碼,后臺(tái)回復(fù):加群,即可申請(qǐng)入群。一定要備注:來(lái)源+研究方向+學(xué)校/公司,否則不拉入群中,見(jiàn)諒!

          長(zhǎng)按三秒,進(jìn)入后臺(tái)


          推薦閱讀

          瀏覽 73
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美一级黄 | 肏屄乱伦视频 | 久久99国产精品一区二区 | 大香操逼网| 欧美性爱黄色 |