<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【論文解讀】NN如何在表格數(shù)據(jù)中戰(zhàn)勝GBDT類模型!

          共 3468字,需瀏覽 7分鐘

           ·

          2021-02-12 04:11

          作者:一元,四品煉丹師


          TabNet: Attentive Interpretable Tabular Learning(ArXiv2020)


          01

          背景

          本文提出了一種高性能、可解釋的規(guī)范深度表格數(shù)據(jù)學(xué)習(xí)結(jié)構(gòu)TabNet。號(hào)稱吊錘XGBoost和LightGBM等GBDT類模型。來(lái)吧,開(kāi)學(xué)!

          TabNet使用sequential的attention來(lái)選擇在每個(gè)決策步驟中要推理的特征,使得學(xué)習(xí)被用于最顯著的特征,從而實(shí)現(xiàn)可解釋性和更有效的學(xué)習(xí)。我們證明了TabNet在廣泛的非性能飽和表格數(shù)據(jù)集上優(yōu)于其他變體,并產(chǎn)生了可解釋的特征屬性和對(duì)其全局行為的洞察。

          最后,我們展示了表格數(shù)據(jù)的自監(jiān)督學(xué)習(xí),在未標(biāo)記數(shù)據(jù)豐富的情況下顯著提高了效果。

          1. 決策樹(shù)類模型在諸多的表格型問(wèn)題中仍然具有非常大的優(yōu)勢(shì):

          • 對(duì)于表格型數(shù)據(jù)中常見(jiàn)的具有近似超平面邊界的決策流形,它們是表示有效的;
          • 它們的基本形式具有高度的可解釋性(例如,通過(guò)跟蹤決策節(jié)點(diǎn)),并且對(duì)于它們的集成形式有流行的事后可解釋性方法;
          • 訓(xùn)練非常快;

          2. DNN的優(yōu)勢(shì):

          • 有效地編碼多種數(shù)據(jù)類型,如圖像和表格數(shù)據(jù);
          • 減輕特征工程的需要,這是目前基于樹(shù)的表格數(shù)據(jù)學(xué)習(xí)方法的一個(gè)關(guān)鍵方面;
          • 從流式數(shù)據(jù)中學(xué)習(xí);
          • 端到端模型的表示學(xué)習(xí),這使得許多有價(jià)值的應(yīng)用場(chǎng)景能夠?qū)崿F(xiàn),包括數(shù)據(jù)高效的域適配;

          3. TabNet:

          • TabNet無(wú)需任何預(yù)處理即可輸入原始表格數(shù)據(jù),并使用基于梯度下降的優(yōu)化方法進(jìn)行訓(xùn)練,實(shí)現(xiàn)了端到端學(xué)習(xí)的靈活集成。

          • TabNet使用sequential attention來(lái)選擇在每個(gè)決策步驟中從哪些特征中推理,從而實(shí)現(xiàn)可解釋性和更好的學(xué)習(xí),因?yàn)閷W(xué)習(xí)能力用于最顯著的特征。這種特征選擇是基于實(shí)例的,例如,對(duì)于每個(gè)輸入,它可以是不同的,并且與其他基于實(shí)例的特征選擇方法不同,TabNet采用了一種深度特征選擇和推理的學(xué)習(xí)體系結(jié)構(gòu)。

          • TabNet在不同領(lǐng)域的分類和回歸問(wèn)題的不同數(shù)據(jù)集上優(yōu)于或等同于其他表格學(xué)習(xí)模型;

          • TabNet有兩種可解釋性:局部可解釋性,用于可視化特征的重要性及其組合方式;全局可解釋性,用于量化每個(gè)特征對(duì)訓(xùn)練模型的貢獻(xiàn)。

          • 最后,對(duì)于表格數(shù)據(jù),我們首次通過(guò)使用無(wú)監(jiān)督預(yù)訓(xùn)練來(lái)預(yù)測(cè)掩蔽特征,得到了顯著的性能提升;

          02

          TabNet


          類似于DTs的DNN building blocks


          ?
          • 使用從數(shù)據(jù)中學(xué)習(xí)的稀疏實(shí)例特征選擇;
          • 構(gòu)造一個(gè)連續(xù)的多步驟體系結(jié)構(gòu),其中每個(gè)步驟有助于基于所選特征的決策的一部分;
          • 通過(guò)對(duì)所選特征的非線性處理來(lái)提高學(xué)習(xí)能力;
          • 通過(guò)更高的維度和更多的步驟來(lái)模擬融合。

          TabNET的框架


          ?

          我們使用所有的原始數(shù)值特征并且將類別特征轉(zhuǎn)化為可以訓(xùn)練的embedding,我們并不考慮全局特征normalization。

          在每一輪我們將D維度的特征傳入,其中是batch size, TabNet的編碼是基于序列化的多步處理, 有個(gè)決策過(guò)程。在第步我們輸入第步的處理信息來(lái)決定使用哪些特征,并且輸出處理過(guò)的特征表示來(lái)集成到整體的決策。


          特征選擇


          我們使用可學(xué)習(xí)的mask, 用于顯著特征的soft選擇,通過(guò)最多的顯著特征的稀疏選擇,決策步的學(xué)習(xí)能力在不相關(guān)的上面不被浪費(fèi),從而使模型更具參數(shù)效率。masking是可乘的,,此處我們使用attentive transformer來(lái)獲得使用在前面步驟中處理過(guò)的特征的masks,.

          Sparsemax規(guī)范化通過(guò)將歐幾里得投影映射到概率simplex上鼓勵(lì)稀疏性,觀察到概率simplex在性能上更優(yōu)越,并與稀疏特征選擇的目標(biāo)一致,以便于解釋。注意: , 是一個(gè)可以訓(xùn)練的函數(shù)。

          是先驗(yàn)的scale項(xiàng),表示一個(gè)特殊的特征之前被使用的多少,,其中是縮放參數(shù)。

          • 當(dāng)的時(shí)候,特征只會(huì)在第一個(gè)決策步被使用,當(dāng)變大的時(shí)候, 更多的靈活性會(huì)在多個(gè)決策步被使用, 被初始化為1,,如果某個(gè)特征是沒(méi)什么用處的,那么對(duì)應(yīng)的就是0。

          為了控制選擇特征的稀疏性,此處加入sparsity的正則來(lái)控制數(shù)值穩(wěn)定性,

          其中對(duì)于數(shù)值穩(wěn)定性是一個(gè)很小的書(shū),我們?cè)僮罱K的loss上加入稀疏的正則,對(duì)應(yīng)的參數(shù)為.

          特征處理


          我們使用一個(gè)特征transformer來(lái)處理過(guò)濾的特征,然后拆分決策步驟輸出和后續(xù)步驟信息,,其中, ,對(duì)于具有高容量的參數(shù)有效且魯棒的學(xué)習(xí),特征變換器應(yīng)該包括在所有決策步驟之間共享的層(因?yàn)樵诓煌臎Q策步驟之間輸入相同的特征)以及決策步驟相關(guān)的層。上圖展示了作為兩個(gè)共享層和兩個(gè)決策步驟相關(guān)層的級(jí)聯(lián)的實(shí)現(xiàn)。

          每個(gè)FC層后面是BN和gated線性單元(GLU)非線性,最終通過(guò)歸一化連接到歸一化殘差連接。此處我們通過(guò)的正則來(lái)保證網(wǎng)絡(luò)的方差以穩(wěn)定學(xué)習(xí)。

          為了快速的訓(xùn)練,此處我們使用帶有BN的大的batch size,因此,除了應(yīng)用到輸入特征的,我們使用ghost BN形式,使用一個(gè)virtual batchsize 和momentum ,對(duì)于輸入特征,我們觀測(cè)到low-variance平均的好處,因此可以避免ghost BN,最終我們通過(guò)decision-tree形式的aggregation,我們構(gòu)建整體的決策embedding, ,再使用線性mapping, 得到最終的輸出。


          解釋性


          此處我們可以使用特征選擇的mask來(lái)捕捉在每一步的選擇的特征,如果:

          • ,那么第個(gè)樣本的第個(gè)特征對(duì)于我們的決策是沒(méi)有任何幫助的;

          如果是一個(gè)線性函數(shù),的稀疏應(yīng)該對(duì)應(yīng)的二者重要性,盡管每次決策步使用一個(gè)非線性處理,他們的輸出是以線性的方式組合,我們的目的是量化一個(gè)總體特征的重要性,除了分析每一步。組合不同步驟的Mask需要一個(gè)系數(shù)來(lái)衡量決策中每個(gè)步驟的相對(duì)重要性,我們提出:

          • 來(lái)表示在第步?jīng)Q策步對(duì)于第個(gè)樣本的累計(jì)決策貢獻(xiàn)。

          直覺(jué)上,如果,那么在第個(gè)決策步的所有特征就應(yīng)當(dāng)對(duì)整體的決策沒(méi)有任何幫助。當(dāng)它的值增長(zhǎng)的時(shí)候,它在整體線性的組合上會(huì)更為重要,在每次決策步的時(shí)候?qū)Q策mask進(jìn)行縮放,,我們對(duì)特征重要性mask進(jìn)行特征的集成, .


          表格自監(jiān)督學(xué)習(xí)


          我們提出了一個(gè)解碼器架構(gòu)來(lái)從TabNet編碼的表示中重建表格特征。解碼器由特征變換器組成,每個(gè)判決步驟后面是FC層。將輸出相加得到重構(gòu)特征。我們提出了一個(gè)從其他特征列中預(yù)測(cè)缺失特征列的任務(wù)??紤]一個(gè)二進(jìn)制掩碼,

          • TabNet的encoder輸入;
          • decoder輸入重構(gòu)特征, ;

          我們?cè)诰幋a器中初始化, 這么做模型只重點(diǎn)關(guān)注已知的特征,解碼器的最后一層FC層和進(jìn)行相乘輸出未知的特征,我們考慮在自監(jiān)督階段的重構(gòu)損失,

          使用真實(shí)值的標(biāo)準(zhǔn)偏差進(jìn)行Normalization是有幫助的,因?yàn)樘卣骺赡苡胁煌膔anges,我們?cè)诿看蔚鷷r(shí)以概率從伯努利分布中獨(dú)立采樣;


          03

          實(shí)驗(yàn)

          1. 基于實(shí)例的特征選擇

          • TabNet比所有其他的模型都要好;
          • TabNet的效果與全局特征選擇非常接近,它可以找到哪些特征是全局最優(yōu)的;
          • 刪除冗余特征之后,TabNet提升了全局特征選擇;

          2. 現(xiàn)實(shí)數(shù)據(jù)集上的表現(xiàn)

          • TabNet在多個(gè)數(shù)據(jù)集上的效果都取得了最好的效果;

          3. 自監(jiān)督學(xué)習(xí)

          • 無(wú)監(jiān)督預(yù)訓(xùn)練顯著提高了有監(jiān)督分類任務(wù)的性能,特別是在未標(biāo)記數(shù)據(jù)集比標(biāo)記數(shù)據(jù)集大得多的情況下;
          • 如上圖所示,在無(wú)監(jiān)督的預(yù)訓(xùn)練下,模型收斂更快??焖偈諗坑兄诔掷m(xù)學(xué)習(xí)和領(lǐng)域適應(yīng).

          04

          小結(jié)

          本文我們提出了TabNet,一種新的用于表格學(xué)習(xí)的深度學(xué)習(xí)體系結(jié)構(gòu)。TabNet使用一種順序attention機(jī)制來(lái)選擇語(yǔ)義上有意義的特征子集,以便在每個(gè)決策步驟中進(jìn)行處理。基于實(shí)例的特征選擇能夠有效地進(jìn)行學(xué)習(xí),因?yàn)槟P腿萘勘怀浞值赜糜谧铒@著的特征,并且通過(guò)選擇模板的可視化產(chǎn)生更具解釋性的決策。我們證明了TabNet在不同領(lǐng)域的表格數(shù)據(jù)集上的性能優(yōu)于以前的工作。最后,我們展示了無(wú)監(jiān)督預(yù)訓(xùn)練對(duì)于快速適應(yīng)和提高模型的效果。

          05

          參考文獻(xiàn)


          1. TabNet: https://arxiv.org/pdf/1908.07442.pdf

          往期精彩回顧





          本站知識(shí)星球“黃博的機(jī)器學(xué)習(xí)圈子”(92416895)

          本站qq群704220115。

          加入微信群請(qǐng)掃碼:

          瀏覽 97
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩AV在线电影 | 精品av国产日韩一区二区 | 漏逼视频免费观看 | 理论在线观看视频 | 天天操比|