<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICML 2021 (Long Oral) | 深入研究不平衡回歸問(wèn)題

          共 12859字,需瀏覽 26分鐘

           ·

          2021-05-19 17:52

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          作者丨Yuzhe Yang@知乎(已授權(quán))
          來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/369627086
          編輯丨極市平臺(tái)

          導(dǎo)讀

           

          本文介紹了一篇被ICML2021接收的工作:Long oral presentation:Delving into Deep Imbalanced Regression。該工作推廣了傳統(tǒng)不平衡分類問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從離散值域推廣到連續(xù)域。

          來(lái)給大家介紹一下我們的新工作,目前已被ICML 2021接收為 Long oral presentation:Delving into Deep Imbalanced Regression。這項(xiàng)工作在經(jīng)典的數(shù)據(jù)不平衡問(wèn)題下,探索了非常實(shí)際但極少被研究的問(wèn)題:數(shù)據(jù)不平衡回歸問(wèn)題。現(xiàn)有的處理不平衡數(shù)據(jù)/長(zhǎng)尾分布的方法絕大多數(shù)僅針對(duì)分類問(wèn)題,即目標(biāo)值是不同類別的離散值(索引);但是,許多實(shí)際的任務(wù)涉及連續(xù)的,甚至有時(shí)是無(wú)限多的目標(biāo)值。本文推廣了傳統(tǒng)不平衡分類問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從離散值域推廣到連續(xù)域。
          論文鏈接:https://arxiv.org/abs/2102.09554
          我們不僅提出了兩種簡(jiǎn)單有效的方法去提升不平衡回歸問(wèn)題上的模型表現(xiàn),也建立了五個(gè)新的benchmark DIR數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理,和醫(yī)療問(wèn)題上的不平衡回歸任務(wù)。目前代碼,數(shù)據(jù),和模型已經(jīng)在GitHub上開(kāi)源,鏈接如下:
          YyzHarry/imbalanced-regression
          https://github.com/YyzHarry/imbalanced-regression
          那么開(kāi)篇首先用概括一下本文的主要貢獻(xiàn):
          1. 我們提出了一個(gè)新的任務(wù),稱為深度不平衡回歸(Deep Imbalanced Regression,簡(jiǎn)寫(xiě)為DIR)。DIR任務(wù)定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí),并能泛化到整個(gè)目標(biāo)范圍;
          2. 我們同時(shí)提出了針對(duì)不平衡回歸的新的方法,標(biāo)簽分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),以解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問(wèn)題;
          3. 最后我們建立了五個(gè)新的DIR數(shù)據(jù)集,涵蓋了computer vision,NLP,和healthcare上的不平衡回歸任務(wù),來(lái)方便未來(lái)在不平衡數(shù)據(jù)上的研究。
          接下來(lái)我們進(jìn)入正文。按照慣例,我會(huì)先拋開(kāi)文章本身,大體梳理一下數(shù)據(jù)不平衡這個(gè)問(wèn)題在分類以及回歸上的一部分研究現(xiàn)狀,在此基礎(chǔ)上盡量詳細(xì)的介紹我們的思路和方法,省去不必要的細(xì)節(jié)。

          1. 研究背景與動(dòng)機(jī)

          數(shù)據(jù)不平衡在現(xiàn)實(shí)世界中是無(wú)處不在。現(xiàn)實(shí)數(shù)據(jù)通常不會(huì)是每個(gè)類別都具有理想的均勻分布,而是呈現(xiàn)出尾巴較長(zhǎng)的偏斜分布,其中某些目標(biāo)值的觀測(cè)值明顯較少。這種現(xiàn)象對(duì)深度模型提出了巨大挑戰(zhàn),并激發(fā)出了許多解決數(shù)據(jù)不平衡的現(xiàn)有的方法技術(shù)。
          具體來(lái)說(shuō),之前的解決方案可以大致分為基于數(shù)據(jù)的解決方案和基于模型的解決方案。基于數(shù)據(jù)的解決方案要么對(duì)少數(shù)群體類別進(jìn)行過(guò)度采樣,要么對(duì)多數(shù)群體進(jìn)行不足采樣,例如SMOTE算法[1],該算法通過(guò)線性插值同一類別中的樣本來(lái)生成少數(shù)群體類別的合成樣本。而基于模型的解決方案包括對(duì)損失函數(shù)的重加權(quán)(re-weighting)[2],或是直接修改損失函數(shù)[3],以及利用相關(guān)的特定學(xué)習(xí)技巧,例如 transfer learning[4],meta-learning[5],以及 two-stage training[6]。更完整的現(xiàn)有不平衡學(xué)習(xí)方法調(diào)研歡迎查看:我之前在不平衡分類問(wèn)題下的回答。(https://www.zhihu.com/question/372186043/answer/1501948720
          但是,現(xiàn)有的從不平衡數(shù)據(jù)中學(xué)習(xí)的解決方案,主要考慮的是具有categorical index的目標(biāo)值,也就是說(shuō)目標(biāo)值是不同的類別。例如下圖所示,子圖1是用于地點(diǎn)分類的典型的真實(shí)世界數(shù)據(jù)集,該數(shù)據(jù)集不平衡且標(biāo)簽分布具有長(zhǎng)尾效應(yīng),并且其標(biāo)簽是不同的類別,例如房屋,森林和博物館,他們都互不重疊。同樣,子圖2是現(xiàn)實(shí)世界中用于物種分類的不平衡數(shù)據(jù)集iNaturalist,其目標(biāo)值也屬于不同類別,并且具有hard boundaries,不同類之間有一個(gè)硬性的邊界,不同類別之間沒(méi)有重疊。
          現(xiàn)有的不平衡學(xué)習(xí)方案主要考慮的數(shù)據(jù)類型是具有categorical index的目標(biāo)值,也即目標(biāo)值是不同的類別,如地點(diǎn)分類、物種分類。其目標(biāo)值屬于不同類別,且不同類之間有一個(gè)硬性的邊界,不同類別之間沒(méi)有重疊。
          然而,許多現(xiàn)實(shí)世界中的任務(wù)可能涉及連續(xù)的,甚至有時(shí)是無(wú)限多個(gè)的目標(biāo)值。舉個(gè)栗子,在計(jì)算機(jī)視覺(jué)的應(yīng)用中,我們常常需要根據(jù)一個(gè)人的視覺(jué)外觀,即他們的照片,來(lái)推斷他們的年齡。在這里,年齡便是一個(gè)連續(xù)的目標(biāo)值,并且在目標(biāo)范圍內(nèi)可能會(huì)高度失衡。下圖是一個(gè)實(shí)際年齡估計(jì)數(shù)據(jù)集,該數(shù)據(jù)集在不同年齡之間具有歪斜的標(biāo)簽分布。在這種情況下,如果將不同年齡劃分為不同的類別來(lái)進(jìn)行學(xué)習(xí)的話,是不太可能得到最佳的結(jié)果,因?yàn)檫@種方法沒(méi)有利用到附近年齡人群之間特征的相似性。
          根據(jù)一個(gè)人的視覺(jué)外觀(照片)來(lái)推斷年齡。這里年齡便是一個(gè)連續(xù)的目標(biāo)值,并且在目標(biāo)范圍內(nèi)可能會(huì)高度失衡。右圖為大型age estimation數(shù)據(jù)集IMDB-WIKI,其在不同年齡之間具有歪斜的標(biāo)簽分布。
          同樣,在醫(yī)療應(yīng)用中也會(huì)發(fā)生類似的問(wèn)題。我們想推斷出不同患者群體的健康指標(biāo),例如他們的心率,血壓和血氧飽和度。而這些health的指標(biāo)也是連續(xù)的,并且它們通常在患者人群中具有非常不平衡,或是偏斜的分布。
          醫(yī)療應(yīng)用中的不平衡回歸問(wèn)題。大部分的health指標(biāo),如心率,血壓和血氧飽和度,一般均是連續(xù)的目標(biāo)值,并且通常在患者人群中高度失衡。右圖為真實(shí)數(shù)據(jù)集SHHS上,health condition score的歪斜的標(biāo)簽分布。
          此外,許多重要的現(xiàn)實(shí)生活應(yīng)用(例如經(jīng)濟(jì),危機(jī)管理,故障診斷或氣象學(xué)等)也有類似的需求,這些應(yīng)用中需要預(yù)測(cè)的連續(xù)目標(biāo)變量都往往存在許多稀有和極端值[7]。這個(gè)連續(xù)域的不平衡問(wèn)題,無(wú)論在線性模型還是深度模型里都是存在的。甚至在深度模型中更為嚴(yán)重。這是為什么呢?由于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)經(jīng)常是over-confident的,以至于這種不平衡被嚴(yán)重的放大了。
          因此,在這項(xiàng)工作中,我們定義并研究深度不平衡回歸問(wèn)題,Deep Imbalanced Regression(DIR),即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí)。具體來(lái)說(shuō),給定具有連續(xù)目標(biāo)值的數(shù)據(jù)集,DIR想要從分布不均衡和偏斜的數(shù)據(jù)中學(xué)習(xí),同時(shí)需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù),并且最終模型能夠generalize到整個(gè)支持的target range,也就是所有目標(biāo)值范圍上。對(duì)于DIR我們考慮用一個(gè)在整個(gè)連續(xù)目標(biāo)值范圍內(nèi)分布是平衡的測(cè)試集來(lái)測(cè)試模型的泛化能力,這樣能夠?yàn)镈IR提供非常全面并且沒(méi)有偏差的評(píng)估。這種setting也與不平衡的分類問(wèn)題的setting保持一致。
          深度不平衡回歸問(wèn)題,Deep Imbalanced Regression(DIR),即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí),同時(shí)需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù),并且使最終模型能夠generalize到整個(gè)支持的所有目標(biāo)值范圍上。

          2. 不平衡回歸的難點(diǎn)與挑戰(zhàn)

          需要注意到的是,相比于不平衡的分類問(wèn)題,DIR帶來(lái)了以下全新的挑戰(zhàn)。
          (一) 首先,給定連續(xù)的,并且可能無(wú)窮多的目標(biāo)值,類與類之間的hard boundaries便不再存在。那么當(dāng)直接應(yīng)用傳統(tǒng)的不平衡分類方法,例如重采樣或重加權(quán),因其是對(duì)于特定的離散的類別進(jìn)行操作,這就導(dǎo)致了這些方法不直接適用于連續(xù)域的情況。
          (二) 此外,連續(xù)標(biāo)簽本質(zhì)上在不同目標(biāo)值之間的距離是具有意義的。這些目標(biāo)值(標(biāo)簽)直接告訴了我們,哪些數(shù)據(jù)相隔更近,而哪些相隔更遠(yuǎn);而這個(gè)有意義的距離,會(huì)進(jìn)一步指導(dǎo)我們?cè)撊绾卫斫膺@個(gè)連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。例如,假設(shè)有兩個(gè)目標(biāo)標(biāo)簽和  ,它們?cè)谟?xùn)練數(shù)據(jù)中具有同樣的sample數(shù)量,然而,  位于一個(gè)具有高密度數(shù)據(jù)的鄰域中(在該鄰域范圍內(nèi)有許多樣本),而位于一個(gè)低密度數(shù)據(jù)的鄰域中。那么在這種情況下,并不具有相同程度的數(shù)據(jù)不平衡。
          連續(xù)標(biāo)簽在不同目標(biāo)值之間的距離是具有意義的,此距離會(huì)進(jìn)一步指導(dǎo)我們?cè)撊绾卫斫膺@個(gè)連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。圖中t1和t2在訓(xùn)練數(shù)據(jù)中具有同樣的數(shù)量,而因t1位于一個(gè)具有高密度數(shù)據(jù)的鄰域中,t2位于一個(gè)低密度數(shù)據(jù)的鄰域中,那么t1和t2并不具有相同程度的數(shù)據(jù)不平衡。
          (三) 最后,與分類問(wèn)題不同,對(duì)于DIR,某些目標(biāo)值可能就根本沒(méi)有數(shù)據(jù)。而這也激發(fā)了對(duì)目標(biāo)值做 extrapolation 以及 interpolation 的需求。
          與分類問(wèn)題不同,對(duì)于DIR,某些目標(biāo)值可能就根本沒(méi)有數(shù)據(jù);而這也激發(fā)了對(duì)目標(biāo)值做 extrapolation 以及 interpolation 的需求。
          總結(jié)上述的問(wèn)題,我們可以看到DIR相比與傳統(tǒng)的不平衡分類具有全新的難點(diǎn)與挑戰(zhàn)。那么,我們應(yīng)該如何進(jìn)行深度不平衡回歸呢?在接下來(lái)的兩節(jié),我們分別提出了兩個(gè)簡(jiǎn)單且有效的方法,標(biāo)簽分布平滑(label distribution smoothing,LDS)和特征分布平滑(feature distribution smoothing,F(xiàn)DS),分別通過(guò)利用在標(biāo)簽空間特征空間中臨近目標(biāo)之間的相似性,來(lái)提升模型在DIR任務(wù)上的表現(xiàn)。

          3. 標(biāo)簽分布平滑(LDS)

          我們首先從標(biāo)簽分布平滑(LDS)說(shuō)起,通過(guò)一個(gè)簡(jiǎn)單且比較 motivating 的例子開(kāi)始,來(lái)展示一下當(dāng)數(shù)據(jù)不平衡出現(xiàn)的時(shí)候,分類和回歸問(wèn)題之間的區(qū)別。
          Motivating Example: 我們使用兩個(gè)不同的數(shù)據(jù)集,(1) CIFAR-100[8],一個(gè)具有100類的分類數(shù)據(jù)集,以及 (2) IMDB-WIKI[9],一個(gè)大型圖像數(shù)據(jù)集,用于根據(jù)人的視覺(jué)外觀來(lái)估算其年齡。這兩個(gè)數(shù)據(jù)集本質(zhì)上具有完全不同的標(biāo)簽空間(label space):CIFAR-100是 categorical label space,也就是他的目標(biāo)值是 class index;而IMDB-WIKI是 continuous label space,他的目標(biāo)值則是年齡,age。我們將IMDB-WIKI的年齡范圍限制為0?99,以便讓兩個(gè)數(shù)據(jù)集具有相同的標(biāo)簽范圍。此外,我們還對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行了采樣,用來(lái)模擬數(shù)據(jù)不平衡,同時(shí)確保它們具有完全相同的標(biāo)簽的密度分布,如下圖所示。
          然后,我們分別在兩個(gè)數(shù)據(jù)集上訓(xùn)練一個(gè)普通的ResNet-50模型,并畫(huà)出了它們的測(cè)試error的分布。首先,如下左圖所示,在CIFAR-100上,我們觀察到測(cè)試誤差的分布實(shí)際上與標(biāo)簽密度的分布非常相關(guān),是highly correlated的。具體而言, 測(cè)試誤差作為一個(gè)class index的函數(shù),和categorical label space上的標(biāo)簽密度分布,具有一個(gè)很高的 (negative) Pearson correlation(皮爾森相關(guān)系數(shù)),這里是 ?0.76。那么這個(gè)現(xiàn)象是在我們預(yù)料之中的,因?yàn)閾碛懈鄻颖镜膍ajority classes比 minority classes是能更容易的學(xué)好的。
          但是,有趣的是,即使標(biāo)簽密度分布與CIFAR-100相同,具有連續(xù)的標(biāo)簽空間的 IMDB-WIKI的測(cè)試誤差分布也與CIFAR-100非常不同。尤其是,IMDB-WIKI的誤差分布更加平滑,并且不再與標(biāo)簽密度分布很好地相關(guān),這里的 Pearson correlation 只有 ?0.47。
          這種現(xiàn)象表明,對(duì)于連續(xù)標(biāo)簽,其經(jīng)驗(yàn)標(biāo)簽密度(empirical label density),也就是直接觀測(cè)到的標(biāo)簽密度,不能準(zhǔn)確反映模型或神經(jīng)網(wǎng)絡(luò)所看到的不平衡。因此,在連續(xù)的情況下,empirical label density是不能反映實(shí)際的標(biāo)簽密度分布。這是由于相臨近標(biāo)簽(例如,年齡接近的圖像)的數(shù)據(jù)樣本之間是具有相關(guān)性,或是互相依賴的。
          標(biāo)簽分布平滑: 那么,基于這個(gè)觀察,我們提出 Label Distribution Smoothing (LDS) ,來(lái)估計(jì)在連續(xù)標(biāo)簽情況下的有效label density distribution。我們的方法參考了在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域中的核密度估計(jì),kernel density estimation的思路,來(lái)在這種情況下估計(jì)expected density。具體而言,給定連續(xù)的經(jīng)驗(yàn)標(biāo)簽密度分布,LDS 使用了一個(gè) symmetric kernel distribution 對(duì)稱核函數(shù)  ,用經(jīng)驗(yàn)密度分布與之進(jìn)行卷積,來(lái)拿到一個(gè) kernel-smoothed的版本,我們稱之為 effective label density,也就是有效的標(biāo)簽密度,用來(lái)直觀體現(xiàn)臨近標(biāo)簽的數(shù)據(jù)樣本具有的信息重疊的問(wèn)題。那么我們也可以進(jìn)一步驗(yàn)證,由LDS計(jì)算出的有效標(biāo)簽密度分布結(jié)果現(xiàn)已與誤差分布良好相關(guān),皮爾森相關(guān)系數(shù)為 ?0.83。這表明了利用 LDS,我們能獲得實(shí)際影響回歸問(wèn)題的不平衡的標(biāo)簽分布。
          那么有了用LDS估計(jì)出的有效標(biāo)簽密度,之前用來(lái)解決類別不平衡問(wèn)題的方法,便可以直接應(yīng)用于DIR。比如說(shuō),一種直接的可以adapted 的方法是利用重加權(quán)方法,具體來(lái)說(shuō)就是,我們通過(guò)將損失函數(shù)乘以每個(gè)目標(biāo)值的LDS估計(jì)標(biāo)簽密度的倒數(shù)來(lái)對(duì)其進(jìn)行加權(quán)。之后在實(shí)驗(yàn)部分我們也會(huì)展示,利用LDS可以一致提升很多方法。

          4. 特征分布平滑(FDS)

          我們現(xiàn)在已經(jīng)知道,標(biāo)簽空間的連續(xù)性可以有效地用于解決DIR問(wèn)題。那么進(jìn)一步想,在目標(biāo)空間上的連續(xù)性應(yīng)該在特征空間中會(huì)產(chǎn)生相應(yīng)的連續(xù)性。也就是說(shuō),如果模型正常工作并且數(shù)據(jù)是平衡,則我們可以預(yù)期label相近的sample,他們對(duì)應(yīng)的feature的統(tǒng)計(jì)信息也應(yīng)該是彼此接近的。同樣,我們使用一個(gè)motivating的例子,來(lái)展示數(shù)據(jù)不平衡對(duì)DIR中feature的統(tǒng)計(jì)信息的影響。
          Motivating Example: 同樣,我們使用對(duì)IMDB-WIKI上訓(xùn)練的ResNet-50模型。我們主要focus在的學(xué)到的特征空間,即上圖中的  。我們?yōu)闃?biāo)簽空間引入了一種額外的結(jié)構(gòu)以供分析,我們把label space分為了等間隔的區(qū)間。我們用  表示目標(biāo)值的區(qū)間索引。在這個(gè)age estimation這個(gè)任務(wù)中,我們定義區(qū)間的長(zhǎng)度為1,也即我們關(guān)注的最小的年齡差是1?,F(xiàn)在,通過(guò)這種區(qū)間的結(jié)構(gòu),我們可以將具有相同目標(biāo)區(qū)間的要素分組到同一組。然后,我們針對(duì)每個(gè)區(qū)間中的數(shù)據(jù)計(jì)算其相應(yīng)的特征統(tǒng)計(jì)量(即均值和方差  )。
          接下來(lái),我們可以開(kāi)始可視化特征的統(tǒng)計(jì)量之間的相似性。首先,我們選擇一個(gè) anchor 區(qū)間,記為  ,然后獲得該區(qū)間的特征的統(tǒng)計(jì)信息,也就是  和  。同理,我們可以對(duì)其他所有區(qū)間也計(jì)算 mean 和 variance 。最后,我們計(jì)算這個(gè) anchor age 和其他所有 age 的 特征統(tǒng)計(jì)量的 cosine similarity,也就是余弦相似度,畫(huà)在了圖中。此外,我們還使用了紫色,黃色,和粉紅色,分別顯示了具有不同數(shù)據(jù)密度的區(qū)域。
          有趣的是,我們發(fā)現(xiàn) anchor age 和其臨近的區(qū)間的 特征統(tǒng)計(jì)量是高度相似的。特別是,在區(qū)間25-35之間,他們的mean 和 variance 的相似度都高達(dá) 90% 以上。需要要注意的是,Anchor age 30 剛好是在many-shot region,也就是他的訓(xùn)練數(shù)據(jù)是非常多的。因此,該圖也證實(shí)了我們的直覺(jué),即對(duì)于連續(xù)目標(biāo)值,當(dāng)有足夠的數(shù)據(jù)時(shí),特征的統(tǒng)計(jì)量在臨近點(diǎn)是相似的。
          不過(guò),該圖還顯示了對(duì)于數(shù)據(jù)樣本量很少的區(qū)域的問(wèn)題,例如0至6歲的年齡范圍。值得注意的是,在此范圍內(nèi),特征的均值和方差顯示出與30歲年齡段的特征統(tǒng)計(jì)量,具有出乎意料的高度相似性。這種不合理的相似性是由于數(shù)據(jù)不平衡造成的。具體來(lái)說(shuō),由于年齡0到6的圖像數(shù)量很少,因此該范圍的特征會(huì)從具有最大數(shù)據(jù)量的范圍(即30歲左右的范圍)繼承其先驗(yàn)。這也就造成了圖中所示的問(wèn)題。
          特征分布平滑: 受這些觀察的啟發(fā),我們提出了特征分布平滑,F(xiàn)eature Distribution Smoothing(FDS)。FDS對(duì)特征空間進(jìn)行分布的平滑,本質(zhì)上是在臨近的區(qū)間之間來(lái)傳遞特征的統(tǒng)計(jì)信息。此過(guò)程主要作用是去校準(zhǔn)特征分布的潛在的有偏差的估計(jì),尤其是對(duì)那些樣本很少的目標(biāo)值而言。具體來(lái)說(shuō),我們有一個(gè)模型,  代表一個(gè)encoder將輸入數(shù)據(jù)映射到隱層的特征,  作為一個(gè)predictor來(lái)輸出連續(xù)的預(yù)測(cè)目標(biāo)值。FDS首先會(huì)估計(jì)每個(gè)區(qū)間的統(tǒng)計(jì)信息。在不失一般性的前提下,我們用特征的協(xié)方差代替方差,以反映特征  內(nèi)部元素之間的關(guān)系。給定特征統(tǒng)計(jì)量,我們?cè)俅问褂脤?duì)稱核函數(shù) symmetric kernel 來(lái) smooth 特征均值和協(xié)方差的分布。這樣我們可以拿到統(tǒng)計(jì)信息的平滑版本?,F(xiàn)在,利用估計(jì)的和平滑的統(tǒng)計(jì)量,我們遵循標(biāo)準(zhǔn)的 whitening and re-coloring[10] 過(guò)程來(lái)校準(zhǔn)每個(gè)輸入樣本的特征表示。那么整個(gè)FDS的過(guò)程可以通過(guò)在最終特征圖之后插入一個(gè)特征的校準(zhǔn)層,來(lái)實(shí)現(xiàn)將FDS的集成到深度網(wǎng)絡(luò)中。最后,我們?cè)诿總€(gè)epoch 采用了對(duì)于 running statistics的 momentum update,也就是動(dòng)量更新。這個(gè)是為了獲得對(duì)訓(xùn)練過(guò)程中特征統(tǒng)計(jì)信息的一個(gè)更穩(wěn)定和更準(zhǔn)確的估計(jì)。
          那么就像之前提到的,F(xiàn)DS同樣可以與任何神經(jīng)網(wǎng)絡(luò)模型以及之前類別不平衡的方法相集成。在接下來(lái)的實(shí)驗(yàn)中,我們可以觀察到利用FDS同樣能一致提升很多方法。

          5. 基準(zhǔn)DIR數(shù)據(jù)集及實(shí)驗(yàn)分析

          基準(zhǔn)DIR數(shù)據(jù)集: 終于來(lái)到了激動(dòng)人心的實(shí)驗(yàn)部分 ;) 為了方便對(duì)不平衡算法進(jìn)行標(biāo)準(zhǔn)的測(cè)試,以及方便未來(lái)的research工作,我們?cè)诂F(xiàn)有的大型數(shù)據(jù)集基礎(chǔ)上,建立了五個(gè)DIR的基準(zhǔn)數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué)(computer vision),自然語(yǔ)言處理(natural language processing),和醫(yī)療(healthcare)的應(yīng)用。這些任務(wù)涵蓋了從單值(single value)預(yù)測(cè)(例如年齡,文本相似性得分,健康狀況得分),到密集值(dense value)預(yù)測(cè)(例如深度)。這些數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分布如下圖所示:
          • IMDB-WIKI-DIR(vision, age): 從包含人面部的圖像來(lái)推斷估計(jì)相應(yīng)的年齡。基于IMDB-WIKI[9]數(shù)據(jù)集,我們手動(dòng)構(gòu)建了驗(yàn)證集和測(cè)試集,使其保持了分布的平衡。
          • AgeDB-DIR(vision, age): 同樣是根據(jù)單個(gè)輸入圖像進(jìn)行年齡估算,基于AgeDB[11]數(shù)據(jù)集。注意到與IMDB-WIKI-DIR相比,即使兩個(gè)數(shù)據(jù)集是完全相同的task,他們的標(biāo)簽分布的不平衡也不相同。
          • NYUD2-DIR(vision, depth): 除了single value的prediction, 我們還基于NYU2數(shù)據(jù)集[12]構(gòu)建了進(jìn)行depth estimation的DIR任務(wù),是一個(gè)dense value prediction的任務(wù)。我們構(gòu)建了NYUD2-DIR數(shù)據(jù)集來(lái)進(jìn)行不平衡回歸的評(píng)估。
          • STS-B-DIR(NLP, text similarity score): 我們還在NLP領(lǐng)域中構(gòu)建了一個(gè)叫STS-B-DIR的DIR benchmark,基于STS-B數(shù)據(jù)集[13]。他的任務(wù)是推斷兩個(gè)輸入句子之間的語(yǔ)義文本的相似度得分。這個(gè)相似度分?jǐn)?shù)是連續(xù)的,范圍是0到5,并且分布不平衡。
          • SHHS-DIR(Healthcare, health condition score): 最后,我們?cè)趆ealthcare領(lǐng)域也構(gòu)建了一個(gè)DIR的benchmark,叫做 SHHS-DIR,基于SHHS數(shù)據(jù)集[14]。這項(xiàng)任務(wù)是推斷一個(gè)人的總體健康評(píng)分,該評(píng)分在0到100之間連續(xù)分布,評(píng)分越高則健康狀況越好。網(wǎng)絡(luò)的輸入是每個(gè)患者在一整晚睡眠過(guò)程中的高維PSG信號(hào),包括ECG心電信號(hào),EEG腦電信號(hào),以及他的呼吸信號(hào)。很明顯可以看到,總體健康分?jǐn)?shù)的分布也是極度不平衡的,并存在一定的target value是沒(méi)有數(shù)據(jù)的。
          在評(píng)估過(guò)程中,我們?cè)谄胶獾臏y(cè)試集上評(píng)估每種方法的性能。我們進(jìn)一步將目標(biāo)空間劃分為幾個(gè)不相交的子集:稱為many-shot,medium-shot,few-shot,還有zero-shot region,來(lái)反映訓(xùn)練數(shù)據(jù)中樣本數(shù)量的不同。比如,many-shot代表對(duì)于這個(gè)固定的區(qū)間,有超過(guò)100個(gè)training data sample。對(duì)于baseline方法,由于文獻(xiàn)中只有很少的不平衡回歸的方法,除了之前的使用合成樣本進(jìn)行不平衡回歸的工作[15][16]外,我們也提出了一系列不平衡回歸的baseline,包含了不同種類的學(xué)習(xí)方法(例如Focal loss[17]的regression版本Focal-R),具體詳見(jiàn)我們的文章。
          實(shí)驗(yàn): 由于實(shí)驗(yàn)較多,這里僅展示在IMDB-WIKI-DIR上的部分結(jié)果,所有的結(jié)果請(qǐng)?jiān)斠?jiàn)論文。如下圖所示,我們首先根據(jù)使用的基本策略的不同,將不同的方法分為4個(gè)部分,在每個(gè)部分里,我們進(jìn)一步將LDS,F(xiàn)DS以及LDS和FDS的組合應(yīng)用于基線方法。最后,我們報(bào)告了LDS + FDS相對(duì)于Vanilla模型的performance提升。如表所示,無(wú)論使用哪一類訓(xùn)練方法,LDS和FDS均具有非常出色的表現(xiàn),特別是在few-shot region上能達(dá)到相對(duì)誤差近40%的提升。
          實(shí)驗(yàn)分析之 為啥FDS能work: 我們進(jìn)一步來(lái)對(duì)提出的方法做一些進(jìn)一步的分析。首先是對(duì)FDS分析它是如何影響網(wǎng)絡(luò)的訓(xùn)練過(guò)程的。與先前的設(shè)置類似,我們展示出了anchor age 0的特征統(tǒng)計(jì)的相似度圖。如圖所示,由于目標(biāo)區(qū)間age 0中的樣本很少,因此特征統(tǒng)計(jì)量可能具有較大的偏差,例如0歲的統(tǒng)計(jì)量反而與40-80歲之間的區(qū)間最相似。相反,當(dāng)添加FDS時(shí),統(tǒng)計(jì)數(shù)據(jù)會(huì)得到更好的校準(zhǔn),從而僅在其附近具有較高的相似性,并且隨著目標(biāo)值變大,相似度會(huì)逐漸降低。我們進(jìn)一步可視化訓(xùn)練期間 running statistics 和 smoothed statistics之間的  距離。有趣的是,隨著訓(xùn)練的發(fā)展,平均的 距離是逐漸減小并趨于0的。這表明該模型學(xué)會(huì)了即使不進(jìn)行平滑操作,也可以生成更準(zhǔn)確的特征,最后可以在inference過(guò)程中,我們即可去掉平滑模塊,也能得到很好的結(jié)果。
          實(shí)驗(yàn)分析之 Extrapolation & Interpolation: 最后,在實(shí)際的DIR任務(wù)中,某些目標(biāo)值可能根本沒(méi)有數(shù)據(jù)(例如之前看到的SHHS-DIR和STS-B-DIR上的標(biāo)簽分布)。這激發(fā)了對(duì) target extrapolation 和 interpolation 的需求。如下圖所示,我們從IMDB-WIKI-DIR的訓(xùn)練集中建立了不同的子集,涵蓋了不同peak的標(biāo)簽分布,并且這些訓(xùn)練子集在某些區(qū)域中是沒(méi)有訓(xùn)練數(shù)據(jù)的,但是我們對(duì)訓(xùn)練的模型會(huì)在原始的測(cè)試集進(jìn)行評(píng)估,來(lái)分析zero-shot的generalization。下圖我們可視化了我們的方法相對(duì)于原始模型,在所有target value上的絕對(duì)的MAE的提升(子圖上半部分藍(lán)色是訓(xùn)練的標(biāo)簽分布,下半部分橙色是相對(duì)誤差的增益)。如前所述,我們的方法可以對(duì)所有區(qū)間得到顯著的性能提升,特別是對(duì)于zero-shot范圍,能夠更好的進(jìn)行Extrapolation & Interpolation。

          6. 結(jié)語(yǔ)

          最后總結(jié)一下本文,我們提出了一個(gè)新的任務(wù),稱為深度不平衡回歸(DIR),同時(shí)我們系統(tǒng)性地研究了DIR,并提出了對(duì)應(yīng)的簡(jiǎn)單而有效的新方法LDS和FDS,以解決具有連續(xù)目標(biāo)的學(xué)習(xí)不平衡數(shù)據(jù)的問(wèn)題,最后我們建立了五個(gè)新的benchmark來(lái)方便未來(lái)在不平衡數(shù)據(jù)上的回歸研究。本文有很直觀的問(wèn)題分析與解釋,以及用非常簡(jiǎn)潔并且通用的框架去提升連續(xù)域下的不平衡學(xué)習(xí)任務(wù)。
          我個(gè)人還是挺喜歡這篇文章的,因?yàn)楸疚牡某霭l(fā)點(diǎn)其實(shí)是另一個(gè)我們正在做的醫(yī)療AI相關(guān)項(xiàng)目,在過(guò)程中的一個(gè)環(huán)節(jié)我們遇到了頭疼的問(wèn)題---即想要用深度模型做一個(gè)連續(xù)variable的回歸,但是此variable的標(biāo)簽分布非常sparse且及其不平衡,而這恰恰是healthcare數(shù)據(jù)的常態(tài)。經(jīng)過(guò)一番調(diào)研我們發(fā)現(xiàn)目前并沒(méi)有很好解決這類問(wèn)題的方法,于是我們最終develop了LDS和FDS,并發(fā)現(xiàn)相比與baseline模型能極大的提升performance,算是驗(yàn)證了其在現(xiàn)實(shí)的任務(wù)上的有效性和實(shí)用性 ;) 希望我們的方法不僅局限于academic datasets,而是對(duì)其他實(shí)際的不平衡回歸問(wèn)題也有幫助。
          當(dāng)然,我們的工作還是存在其局限性,也留了一些坑。首先,無(wú)論是LDS還是FDS,雖然想法直觀,但都存在超參數(shù)的問(wèn)題(因引入了對(duì)稱核函數(shù)做smoothing),而不同任務(wù)的最優(yōu)參數(shù)可能不盡相同,需要根據(jù)特定任務(wù)的標(biāo)簽空間來(lái)測(cè)試決定合適值。其次,我們提出的方法雖能提升現(xiàn)有的模型表現(xiàn),但不平衡回歸問(wèn)題本身仍未完全解決,甚至還有很大的提升空間。最后,作為比較早的系統(tǒng)研究這個(gè)問(wèn)題的文章,我們并沒(méi)有給出理論上的探索與推導(dǎo),而這也是后續(xù)工作可以繼續(xù)挖掘的。希望本文能拋磚引玉,也非常歡迎大家follow我們的工作!如果大家有任何想要交流的技術(shù)問(wèn)題,歡迎留言多多交流。最后再次附上我們論文的相關(guān)鏈接:
          [項(xiàng)目主頁(yè)] :http://dir.csail.mit.edu/
          [論文] :https://arxiv.org/abs/2102.09554
          [代碼]:https://github.com/YyzHarry/imbalanced-regression

          參考

          • ^Chawla, N. V., et al. SMOTE: Synthetic minority over-sampling technique. JAIR, 2002.

          • ^Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.

          • ^Learning imbalanced datasets with label-distribution-aware margin loss. NeurIPS, 2019.

          • ^Liu, Z., et al. Large-scale long-tailed recognition in an open world. CVPR 2019.

          • ^Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.

          • ^Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.

          • ^Learning from imbalanced data: open challenges and future directions. 2016.

          • ^Krizhevsky, A., Hinton, G., et al. Learning multiple layers of features from tiny images. 2009.

          • ^abRothe, R., et al. Deep expectation of real and apparent age from a single image without facial landmarks. IJCV, 2018.

          • ^Sun, B., Feng, J., and Saenko, K. Return of frustratingly easy domain adaptation. AAAI, 2016.

          • ^Agedb: The first manually collected, in-the-wild age database. CVPR Workshop, 2017.

          • ^Indoor segmentation and support inference from rgbd images. ECCV, 2012.

          • ^Semeval-2017 task 1: Semantic textual similarity multilingual and crosslingual focused evaluation. International Workshop on Semantic Evaluation, 2017.

          • ^The sleep heart health study: design, rationale, and methods. Sleep, 20(12):1077–1085, 1997.

          • ^Branco, P., Torgo, L., and Ribeiro, R. P. Smogn: a preprocessing approach for imbalanced regression. 2017.

          • ^Torgo, L., Ribeiro, R. P., Pfahringer, B., and Branco, P. Smote for regression. In Portuguese conference on artificial intelligence, 2013.

          • ^Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. ICCV, 2017


          本文亮點(diǎn)總結(jié)


          1.提出了一個(gè)新的任務(wù),稱為深度不平衡回歸(Deep Imbalanced Regression,簡(jiǎn)寫(xiě)為DIR)。DIR任務(wù)定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí),并能泛化到整個(gè)目標(biāo)范圍;

          2.同時(shí)提出了針對(duì)不平衡回歸的新的方法,標(biāo)簽分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),以解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問(wèn)題;

          3.建立了五個(gè)新的DIR數(shù)據(jù)集,涵蓋了computer vision,NLP,和healthcare上的不平衡回歸任務(wù),來(lái)方便未來(lái)在不平衡數(shù)據(jù)上的研究。

          如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 57
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本电影一区二区三区 | 日韩三级电影在线观看 | 黄色一级A免费看 | 熟女久久久久久久 | 四虎欧美性爱 |