<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICML2021 | 深入研究不平衡回歸問(wèn)題

          共 12623字,需瀏覽 26分鐘

           ·

          2022-07-16 20:37

          來(lái)源知乎—Yuzhe Yang、深度學(xué)習(xí)與圖網(wǎng)絡(luò)
          https://zhuanlan.zhihu.com/p/369627086
          本文約8500,建議閱讀15分鐘

          本文大體梳理一下數(shù)據(jù)不平衡這個(gè)問(wèn)題在分類以及回歸上的一部分研究現(xiàn)狀。


          來(lái)給大家介紹一下我們的新工作,目前已被ICML 2021接收為 Long oral presentation:Delving into Deep Imbalanced Regression。這項(xiàng)工作在經(jīng)典的數(shù)據(jù)不平衡問(wèn)題下,探索了非常實(shí)際但極少被研究的問(wèn)題:數(shù)據(jù)不平衡回歸問(wèn)題。現(xiàn)有的處理不平衡數(shù)據(jù)/長(zhǎng)尾分布的方法絕大多數(shù)僅針對(duì)分類問(wèn)題,即目標(biāo)值是不同類別的離散值(索引);但是,許多實(shí)際的任務(wù)涉及連續(xù)的,甚至有時(shí)是無(wú)限多的目標(biāo)值。本文推廣了傳統(tǒng)不平衡分類問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從離散值域推廣到連續(xù)域。

          我們不僅提出了兩種簡(jiǎn)單有效的方法去提升不平衡回歸問(wèn)題上的模型表現(xiàn),也建立了五個(gè)新的benchmark DIR數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理,和醫(yī)療問(wèn)題上的不平衡回歸任務(wù)。目前代碼,數(shù)據(jù),和模型已經(jīng)在GitHub上開(kāi)源,鏈接如下:
          https://github.com/YyzHarry/imbalanced-regression

          那么開(kāi)篇首先用概括一下本文的主要貢獻(xiàn):

          1. 我們提出了一個(gè)新的任務(wù),稱為深度不平衡回歸(Deep Imbalanced Regression,簡(jiǎn)寫(xiě)為DIR)。DIR任務(wù)定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí),并能泛化到整個(gè)目標(biāo)范圍;
          2. 我們同時(shí)提出了針對(duì)不平衡回歸的新的方法,標(biāo)簽分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),以解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問(wèn)題;
          3. 最后我們建立了五個(gè)新的DIR數(shù)據(jù)集,涵蓋了computer vision,NLP,和healthcare上的不平衡回歸任務(wù),來(lái)方便未來(lái)在不平衡數(shù)據(jù)上的研究。

          接下來(lái)我們進(jìn)入正文。按照慣例,我會(huì)先拋開(kāi)文章本身,大體梳理一下數(shù)據(jù)不平衡這個(gè)問(wèn)題在分類以及回歸上的一部分研究現(xiàn)狀,在此基礎(chǔ)上盡量詳細(xì)的介紹我們的思路和方法,省去不必要的細(xì)節(jié)。


          01 研究背景與動(dòng)機(jī)

          數(shù)據(jù)不平衡在現(xiàn)實(shí)世界中是無(wú)處不在。現(xiàn)實(shí)數(shù)據(jù)通常不會(huì)是每個(gè)類別都具有理想的均勻分布,而是呈現(xiàn)出尾巴較長(zhǎng)的偏斜分布,其中某些目標(biāo)值的觀測(cè)值明顯較少。這種現(xiàn)象對(duì)深度模型提出了巨大挑戰(zhàn),并激發(fā)出了許多解決數(shù)據(jù)不平衡的現(xiàn)有的方法技術(shù)。

          具體來(lái)說(shuō),之前的解決方案可以大致分為基于數(shù)據(jù)的解決方案和基于模型的解決方案。基于數(shù)據(jù)的解決方案要么對(duì)少數(shù)群體類別進(jìn)行過(guò)度采樣,要么對(duì)多數(shù)群體進(jìn)行不足采樣,例如SMOTE算法[1],該算法通過(guò)線性插值同一類別中的樣本來(lái)生成少數(shù)群體類別的合成樣本。而基于模型的解決方案包括對(duì)損失函數(shù)的重加權(quán)(re-weighting)[2],或是直接修改損失函數(shù)[3],以及利用相關(guān)的特定學(xué)習(xí)技巧,例如 transfer learning[4],meta-learning[5],以及 two-stage training[6]。更完整的現(xiàn)有不平衡學(xué)習(xí)方法調(diào)研歡迎查看:我之前在不平衡分類問(wèn)題下的回答。

          https://www.zhihu.com/question/372186043/answer/1501948720

          但是,現(xiàn)有的從不平衡數(shù)據(jù)中學(xué)習(xí)的解決方案,主要考慮的是具有categorical index的目標(biāo)值,也就是說(shuō)目標(biāo)值是不同的類別。例如下圖所示,子圖1是用于地點(diǎn)分類的典型的真實(shí)世界數(shù)據(jù)集,該數(shù)據(jù)集不平衡且標(biāo)簽分布具有長(zhǎng)尾效應(yīng),并且其標(biāo)簽是不同的類別,例如房屋,森林和博物館,他們都互不重疊。同樣,子圖2是現(xiàn)實(shí)世界中用于物種分類的不平衡數(shù)據(jù)集iNaturalist,其目標(biāo)值也屬于不同類別,并且具有hard boundaries,不同類之間有一個(gè)硬性的邊界,不同類別之間沒(méi)有重疊。


          現(xiàn)有的不平衡學(xué)習(xí)方案主要考慮的數(shù)據(jù)類型是具有categorical index的目標(biāo)值,也即目標(biāo)值是不同的類別,如地點(diǎn)分類、物種分類。其目標(biāo)值屬于不同類別,且不同類之間有一個(gè)硬性的邊界,不同類別之間沒(méi)有重疊。


          然而,許多現(xiàn)實(shí)世界中的任務(wù)可能涉及連續(xù)的,甚至有時(shí)是無(wú)限多個(gè)的目標(biāo)值。舉個(gè)例子,在計(jì)算機(jī)視覺(jué)的應(yīng)用中,我們常常需要根據(jù)一個(gè)人的視覺(jué)外觀,即他們的照片,來(lái)推斷他們的年齡。在這里,年齡便是一個(gè)連續(xù)的目標(biāo)值,并且在目標(biāo)范圍內(nèi)可能會(huì)高度失衡。下圖是一個(gè)實(shí)際年齡估計(jì)數(shù)據(jù)集,該數(shù)據(jù)集在不同年齡之間具有歪斜的標(biāo)簽分布。在這種情況下,如果將不同年齡劃分為不同的類別來(lái)進(jìn)行學(xué)習(xí)的話,是不太可能得到最佳的結(jié)果,因?yàn)檫@種方法沒(méi)有利用到附近年齡人群之間特征的相似性。


          根據(jù)一個(gè)人的視覺(jué)外觀(照片)來(lái)推斷年齡。這里年齡便是一個(gè)連續(xù)的目標(biāo)值,并且在目標(biāo)范圍內(nèi)可能會(huì)高度失衡。右圖為大型age estimation數(shù)據(jù)集IMDB-WIKI,其在不同年齡之間具有歪斜的標(biāo)簽分布。

          同樣,在醫(yī)療應(yīng)用中也會(huì)發(fā)生類似的問(wèn)題。我們想推斷出不同患者群體的健康指標(biāo),例如他們的心率,血壓和血氧飽和度。而這些health的指標(biāo)也是連續(xù)的,并且它們通常在患者人群中具有非常不平衡,或是偏斜的分布。


          醫(yī)療應(yīng)用中的不平衡回歸問(wèn)題。大部分的health指標(biāo),如心率,血壓和血氧飽和度,一般均是連續(xù)的目標(biāo)值,并且通常在患者人群中高度失衡。右圖為真實(shí)數(shù)據(jù)集SHHS上,health condition score的歪斜的標(biāo)簽分布。

          此外,許多重要的現(xiàn)實(shí)生活應(yīng)用(例如經(jīng)濟(jì),危機(jī)管理,故障診斷或氣象學(xué)等)也有類似的需求,這些應(yīng)用中需要預(yù)測(cè)的連續(xù)目標(biāo)變量都往往存在許多稀有和極端值[7]。這個(gè)連續(xù)域的不平衡問(wèn)題,無(wú)論在線性模型還是深度模型里都是存在的。甚至在深度模型中更為嚴(yán)重。這是為什么呢?由于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)經(jīng)常是over-confident的,以至于這種不平衡被嚴(yán)重的放大了。

          因此,在這項(xiàng)工作中,我們定義并研究深度不平衡回歸問(wèn)題,Deep Imbalanced Regression(DIR),即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí)。具體來(lái)說(shuō),給定具有連續(xù)目標(biāo)值的數(shù)據(jù)集,DIR想要從分布不均衡和偏斜的數(shù)據(jù)中學(xué)習(xí),同時(shí)需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù),并且最終模型能夠generalize到整個(gè)支持的target range,也就是所有目標(biāo)值范圍上。對(duì)于DIR我們考慮用一個(gè)在整個(gè)連續(xù)目標(biāo)值范圍內(nèi)分布是平衡的測(cè)試集來(lái)測(cè)試模型的泛化能力,這樣能夠?yàn)镈IR提供非常全面并且沒(méi)有偏差的評(píng)估。這種setting也與不平衡的分類問(wèn)題的setting保持一致。

          深度不平衡回歸問(wèn)題,Deep Imbalanced Regression(DIR),即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí),同時(shí)需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù),并且使最終模型能夠generalize到整個(gè)支持的所有目標(biāo)值范圍上。


          02 不平衡回歸的難點(diǎn)與挑戰(zhàn)

          需要注意到的是,相比于不平衡的分類問(wèn)題,DIR帶來(lái)了以下全新的挑戰(zhàn)。

          (一)首先,給定連續(xù)的,并且可能無(wú)窮多的目標(biāo)值,類與類之間的hard boundaries便不再存在。那么當(dāng)直接應(yīng)用傳統(tǒng)的不平衡分類方法,例如重采樣或重加權(quán),因其是對(duì)于特定的離散的類別進(jìn)行操作,這就導(dǎo)致了這些方法不直接適用于連續(xù)域的情況。
          (二)此外,連續(xù)標(biāo)簽本質(zhì)上在不同目標(biāo)值之間的距離是具有意義的。這些目標(biāo)值(標(biāo)簽)直接告訴了我們,哪些數(shù)據(jù)相隔更近,而哪些相隔更遠(yuǎn);而這個(gè)有意義的距離,會(huì)進(jìn)一步指導(dǎo)我們?cè)撊绾卫斫膺@個(gè)連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。例如,假設(shè)有兩個(gè)目標(biāo)標(biāo)簽  和    ,它們?cè)谟?xùn)練數(shù)據(jù)中具有同樣的sample數(shù)量,然而,    位于一個(gè)具有高密度數(shù)據(jù)的鄰域中(在該鄰域范圍內(nèi)有許多樣本),而  位于一個(gè)低密度數(shù)據(jù)的鄰域中。那么在這種情況下,    并不具有相同程度的數(shù)據(jù)不平衡。

          連續(xù)標(biāo)簽在不同目標(biāo)值之間的距離是具有意義的,此距離會(huì)進(jìn)一步指導(dǎo)我們?cè)撊绾卫斫膺@個(gè)連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。圖中t1和t2在訓(xùn)練數(shù)據(jù)中具有同樣的數(shù)量,而因t1位于一個(gè)具有高密度數(shù)據(jù)的鄰域中,t2位于一個(gè)低密度數(shù)據(jù)的鄰域中,那么t1和t2并不具有相同程度的數(shù)據(jù)不平衡。

          (三)最后,與分類問(wèn)題不同,對(duì)于DIR,某些目標(biāo)值可能就根本沒(méi)有數(shù)據(jù)。而這也激發(fā)了對(duì)目標(biāo)值做 extrapolation 以及 interpolation 的需求。
          與分類問(wèn)題不同,對(duì)于DIR,某些目標(biāo)值可能就根本沒(méi)有數(shù)據(jù);而這也激發(fā)了對(duì)目標(biāo)值做 extrapolation 以及 interpolation 的需求。


          總結(jié)上述的問(wèn)題,我們可以看到DIR相比與傳統(tǒng)的不平衡分類具有全新的難點(diǎn)與挑戰(zhàn)。那么,我們應(yīng)該如何進(jìn)行深度不平衡回歸呢?在接下來(lái)的兩節(jié),我們分別提出了兩個(gè)簡(jiǎn)單且有效的方法,標(biāo)簽分布平滑(label distribution smoothing,LDS)和特征分布平滑(feature distribution smoothing,F(xiàn)DS),分別通過(guò)利用在標(biāo)簽空間和特征空間中臨近目標(biāo)之間的相似性,來(lái)提升模型在DIR任務(wù)上的表現(xiàn)。


          03 標(biāo)簽分布平滑(LDS)

          我們首先從標(biāo)簽分布平滑(LDS)說(shuō)起,通過(guò)一個(gè)簡(jiǎn)單且比較 motivating 的例子開(kāi)始,來(lái)展示一下當(dāng)數(shù)據(jù)不平衡出現(xiàn)的時(shí)候,分類和回歸問(wèn)題之間的區(qū)別。

          Motivating Example:我們使用兩個(gè)不同的數(shù)據(jù)集,(1) CIFAR-100[8],一個(gè)具有100類的分類數(shù)據(jù)集,以及 (2) IMDB-WIKI[9],一個(gè)大型圖像數(shù)據(jù)集,用于根據(jù)人的視覺(jué)外觀來(lái)估算其年齡。這兩個(gè)數(shù)據(jù)集本質(zhì)上具有完全不同的標(biāo)簽空間(label space):CIFAR-100是 categorical label space,也就是他的目標(biāo)值是 class index;而IMDB-WIKI是 continuous label space,他的目標(biāo)值則是年齡,age。我們將IMDB-WIKI的年齡范圍限制為0?99,以便讓兩個(gè)數(shù)據(jù)集具有相同的標(biāo)簽范圍。此外,我們還對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行了采樣,用來(lái)模擬數(shù)據(jù)不平衡,同時(shí)確保它們具有完全相同的標(biāo)簽的密度分布,如下圖所示。


          然后,我們分別在兩個(gè)數(shù)據(jù)集上訓(xùn)練一個(gè)普通的ResNet-50模型,并畫(huà)出了它們的測(cè)試error的分布。首先,如下左圖所示,在CIFAR-100上,我們觀察到測(cè)試誤差的分布實(shí)際上與標(biāo)簽密度的分布非常相關(guān),是highly correlated的。具體而言, 測(cè)試誤差作為一個(gè)class index的函數(shù),和categorical label space上的標(biāo)簽密度分布,具有一個(gè)很高的 (negative) Pearson correlation(皮爾森相關(guān)系數(shù)),這里是 ?0.76。那么這個(gè)現(xiàn)象是在我們預(yù)料之中的,因?yàn)閾碛懈鄻颖镜膍ajority classes比 minority classes是能更容易的學(xué)好的。

          但是,有趣的是,即使標(biāo)簽密度分布與CIFAR-100相同,具有連續(xù)的標(biāo)簽空間的 IMDB-WIKI的測(cè)試誤差分布也與CIFAR-100非常不同。尤其是,IMDB-WIKI的誤差分布更加平滑,并且不再與標(biāo)簽密度分布很好地相關(guān),這里的 Pearson correlation 只有 ?0.47。


          這種現(xiàn)象表明,對(duì)于連續(xù)標(biāo)簽,其經(jīng)驗(yàn)標(biāo)簽密度(empirical label density),也就是直接觀測(cè)到的標(biāo)簽密度,不能準(zhǔn)確反映模型或神經(jīng)網(wǎng)絡(luò)所看到的不平衡。因此,在連續(xù)的情況下,empirical label density是不能反映實(shí)際的標(biāo)簽密度分布。這是由于相臨近標(biāo)簽(例如,年齡接近的圖像)的數(shù)據(jù)樣本之間是具有相關(guān)性,或是互相依賴的。
          標(biāo)簽分布平滑:那么,基于這個(gè)觀察,我們提出 Label Distribution Smoothing (LDS) ,來(lái)估計(jì)在連續(xù)標(biāo)簽情況下的有效label density distribution。我們的方法參考了在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域中的核密度估計(jì),kernel density estimation的思路,來(lái)在這種情況下估計(jì)expected density。具體而言,給定連續(xù)的經(jīng)驗(yàn)標(biāo)簽密度分布,LDS 使用了一個(gè) symmetric kernel distribution 對(duì)稱核函數(shù),用經(jīng)驗(yàn)密度分布與之進(jìn)行卷積,來(lái)拿到一個(gè) kernel-smoothed的版本,我們稱之為 effective label density,也就是有效的標(biāo)簽密度,用來(lái)直觀體現(xiàn)臨近標(biāo)簽的數(shù)據(jù)樣本具有的信息重疊的問(wèn)題。那么我們也可以進(jìn)一步驗(yàn)證,由LDS計(jì)算出的有效標(biāo)簽密度分布結(jié)果現(xiàn)已與誤差分布良好相關(guān),皮爾森相關(guān)系數(shù)為 ?0.83。這表明了利用 LDS,我們能獲得實(shí)際影響回歸問(wèn)題的不平衡的標(biāo)簽分布。


          那么有了用LDS估計(jì)出的有效標(biāo)簽密度,之前用來(lái)解決類別不平衡問(wèn)題的方法,便可以直接應(yīng)用于DIR。比如說(shuō),一種直接的可以adapted 的方法是利用重加權(quán)方法,具體來(lái)說(shuō)就是,我們通過(guò)將損失函數(shù)乘以每個(gè)目標(biāo)值的LDS估計(jì)標(biāo)簽密度的倒數(shù)來(lái)對(duì)其進(jìn)行加權(quán)。之后在實(shí)驗(yàn)部分我們也會(huì)展示,利用LDS可以一致提升很多方法。


          04 特征分布平滑(FDS)

          我們現(xiàn)在已經(jīng)知道,標(biāo)簽空間的連續(xù)性可以有效地用于解決DIR問(wèn)題。那么進(jìn)一步想,在目標(biāo)空間上的連續(xù)性應(yīng)該在特征空間中會(huì)產(chǎn)生相應(yīng)的連續(xù)性。也就是說(shuō),如果模型正常工作并且數(shù)據(jù)是平衡,則我們可以預(yù)期label相近的sample,他們對(duì)應(yīng)的feature的統(tǒng)計(jì)信息也應(yīng)該是彼此接近的。同樣,我們使用一個(gè)motivating的例子,來(lái)展示數(shù)據(jù)不平衡對(duì)DIR中feature的統(tǒng)計(jì)信息的影響。

          Motivating Example:同樣,我們使用對(duì)IMDB-WIKI上訓(xùn)練的ResNet-50模型。我們主要focus在的學(xué)到的特征空間,即上圖中的    。我們?yōu)闃?biāo)簽空間引入了一種額外的結(jié)構(gòu)以供分析,我們把label space分為了等間隔的區(qū)間。我們用    表示目標(biāo)值的區(qū)間索引。在這個(gè)age estimation這個(gè)任務(wù)中,我們定義區(qū)間的長(zhǎng)度為1,也即我們關(guān)注的最小的年齡差是1。現(xiàn)在,通過(guò)這種區(qū)間的結(jié)構(gòu),我們可以將具有相同目標(biāo)區(qū)間的要素分組到同一組。然后,我們針對(duì)每個(gè)區(qū)間中的數(shù)據(jù)計(jì)算其相應(yīng)的特征統(tǒng)計(jì)量(即均值和方差    ,    )。
          接下來(lái),我們可以開(kāi)始可視化特征的統(tǒng)計(jì)量之間的相似性。首先,我們選擇一個(gè) anchor 區(qū)間,記為    ,然后獲得該區(qū)間的特征的統(tǒng)計(jì)信息,也就是    和    。同理,我們可以對(duì)其他所有區(qū)間也計(jì)算 mean 和 variance    ,    。最后,我們計(jì)算這個(gè) anchor age 和其他所有 age 的 特征統(tǒng)計(jì)量的 cosine similarity,也就是余弦相似度,畫(huà)在了圖中。此外,我們還使用了紫色,黃色,和粉紅色,分別顯示了具有不同數(shù)據(jù)密度的區(qū)域。
          有趣的是,我們發(fā)現(xiàn) anchor age 和其臨近的區(qū)間的 特征統(tǒng)計(jì)量是高度相似的。特別是,在區(qū)間25-35之間,他們的mean 和 variance 的相似度都高達(dá) 90% 以上。需要要注意的是,Anchor age 30 剛好是在many-shot region,也就是他的訓(xùn)練數(shù)據(jù)是非常多的。因此,該圖也證實(shí)了我們的直覺(jué),即對(duì)于連續(xù)目標(biāo)值,當(dāng)有足夠的數(shù)據(jù)時(shí),特征的統(tǒng)計(jì)量在臨近點(diǎn)是相似的。
          不過(guò),該圖還顯示了對(duì)于數(shù)據(jù)樣本量很少的區(qū)域的問(wèn)題,例如0至6歲的年齡范圍。值得注意的是,在此范圍內(nèi),特征的均值和方差顯示出與30歲年齡段的特征統(tǒng)計(jì)量,具有出乎意料的高度相似性。這種不合理的相似性是由于數(shù)據(jù)不平衡造成的。具體來(lái)說(shuō),由于年齡0到6的圖像數(shù)量很少,因此該范圍的特征會(huì)從具有最大數(shù)據(jù)量的范圍(即30歲左右的范圍)繼承其先驗(yàn)。這也就造成了圖中所示的問(wèn)題。
          特征分布平滑:受這些觀察的啟發(fā),我們提出了特征分布平滑,F(xiàn)eature Distribution Smoothing(FDS)。FDS對(duì)特征空間進(jìn)行分布的平滑,本質(zhì)上是在臨近的區(qū)間之間來(lái)傳遞特征的統(tǒng)計(jì)信息。此過(guò)程主要作用是去校準(zhǔn)特征分布的潛在的有偏差的估計(jì),尤其是對(duì)那些樣本很少的目標(biāo)值而言。具體來(lái)說(shuō),我們有一個(gè)模型,    代表一個(gè)encoder將輸入數(shù)據(jù)映射到隱層的特征,    作為一個(gè)predictor來(lái)輸出連續(xù)的預(yù)測(cè)目標(biāo)值。FDS首先會(huì)估計(jì)每個(gè)區(qū)間的統(tǒng)計(jì)信息。在不失一般性的前提下,我們用特征的協(xié)方差代替方差,以反映特征    內(nèi)部元素之間的關(guān)系。給定特征統(tǒng)計(jì)量,我們?cè)俅问褂脤?duì)稱核函數(shù) symmetric kernel    來(lái) smooth 特征均值和協(xié)方差的分布。這樣我們可以拿到統(tǒng)計(jì)信息的平滑版本。現(xiàn)在,利用估計(jì)的和平滑的統(tǒng)計(jì)量,我們遵循標(biāo)準(zhǔn)的 whitening and re-coloring[10] 過(guò)程來(lái)校準(zhǔn)每個(gè)輸入樣本的特征表示。那么整個(gè)FDS的過(guò)程可以通過(guò)在最終特征圖之后插入一個(gè)特征的校準(zhǔn)層,來(lái)實(shí)現(xiàn)將FDS的集成到深度網(wǎng)絡(luò)中。最后,我們?cè)诿總€(gè)epoch 采用了對(duì)于 running statistics的 momentum update,也就是動(dòng)量更新。這個(gè)是為了獲得對(duì)訓(xùn)練過(guò)程中特征統(tǒng)計(jì)信息的一個(gè)更穩(wěn)定和更準(zhǔn)確的估計(jì)。
          那么就像之前提到的,F(xiàn)DS同樣可以與任何神經(jīng)網(wǎng)絡(luò)模型以及之前類別不平衡的方法相集成。在接下來(lái)的實(shí)驗(yàn)中,我們可以觀察到利用FDS同樣能一致提升很多方法。

          05 基準(zhǔn)DIR數(shù)據(jù)集及實(shí)驗(yàn)分析

          基準(zhǔn)DIR數(shù)據(jù)集:終于來(lái)到了激動(dòng)人心的實(shí)驗(yàn)部分;為了方便對(duì)不平衡算法進(jìn)行標(biāo)準(zhǔn)的測(cè)試,以及方便未來(lái)的research工作,我們?cè)诂F(xiàn)有的大型數(shù)據(jù)集基礎(chǔ)上,建立了五個(gè)DIR的基準(zhǔn)數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué)(computer vision),自然語(yǔ)言處理(natural language processing),和醫(yī)療(healthcare)的應(yīng)用。這些任務(wù)涵蓋了從單值(single value)預(yù)測(cè)(例如年齡,文本相似性得分,健康狀況得分),到密集值(dense value)預(yù)測(cè)(例如深度)。這些數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分布如下圖所示:


          • IMDB-WIKI-DIR(vision, age):從包含人面部的圖像來(lái)推斷估計(jì)相應(yīng)的年齡。基于IMDB-WIKI[9]數(shù)據(jù)集,我們手動(dòng)構(gòu)建了驗(yàn)證集和測(cè)試集,使其保持了分布的平衡。
          • AgeDB-DIR(vision, age):同樣是根據(jù)單個(gè)輸入圖像進(jìn)行年齡估算,基于AgeDB[11]數(shù)據(jù)集。注意到與IMDB-WIKI-DIR相比,即使兩個(gè)數(shù)據(jù)集是完全相同的task,他們的標(biāo)簽分布的不平衡也不相同。
          • NYUD2-DIR(vision, depth):除了single value的prediction, 我們還基于NYU2數(shù)據(jù)集[12]構(gòu)建了進(jìn)行depth estimation的DIR任務(wù),是一個(gè)dense value prediction的任務(wù)。我們構(gòu)建了NYUD2-DIR數(shù)據(jù)集來(lái)進(jìn)行不平衡回歸的評(píng)估。
          • STS-B-DIR(NLP, text similarity score):我們還在NLP領(lǐng)域中構(gòu)建了一個(gè)叫STS-B-DIR的DIR benchmark,基于STS-B數(shù)據(jù)集[13]。他的任務(wù)是推斷兩個(gè)輸入句子之間的語(yǔ)義文本的相似度得分。這個(gè)相似度分?jǐn)?shù)是連續(xù)的,范圍是0到5,并且分布不平衡。
          • SHHS-DIR(Healthcare, health condition score):最后,我們?cè)趆ealthcare領(lǐng)域也構(gòu)建了一個(gè)DIR的benchmark,叫做 SHHS-DIR,基于SHHS數(shù)據(jù)集[14]。這項(xiàng)任務(wù)是推斷一個(gè)人的總體健康評(píng)分,該評(píng)分在0到100之間連續(xù)分布,評(píng)分越高則健康狀況越好。網(wǎng)絡(luò)的輸入是每個(gè)患者在一整晚睡眠過(guò)程中的高維PSG信號(hào),包括ECG心電信號(hào),EEG腦電信號(hào),以及他的呼吸信號(hào)。很明顯可以看到,總體健康分?jǐn)?shù)的分布也是極度不平衡的,并存在一定的target value是沒(méi)有數(shù)據(jù)的。

          在評(píng)估過(guò)程中,我們?cè)谄胶獾臏y(cè)試集上評(píng)估每種方法的性能。我們進(jìn)一步將目標(biāo)空間劃分為幾個(gè)不相交的子集:稱為many-shot,medium-shot,few-shot,還有zero-shot region,來(lái)反映訓(xùn)練數(shù)據(jù)中樣本數(shù)量的不同。比如,many-shot代表對(duì)于這個(gè)固定的區(qū)間,有超過(guò)100個(gè)training data sample。對(duì)于baseline方法,由于文獻(xiàn)中只有很少的不平衡回歸的方法,除了之前的使用合成樣本進(jìn)行不平衡回歸的工作[15][16]外,我們也提出了一系列不平衡回歸的baseline,包含了不同種類的學(xué)習(xí)方法(例如Focal loss[17]的regression版本Focal-R),具體詳見(jiàn)我們的文章。


          實(shí)驗(yàn):由于實(shí)驗(yàn)較多,這里僅展示在IMDB-WIKI-DIR上的部分結(jié)果,所有的結(jié)果請(qǐng)?jiān)斠?jiàn)論文。如下圖所示,我們首先根據(jù)使用的基本策略的不同,將不同的方法分為4個(gè)部分,在每個(gè)部分里,我們進(jìn)一步將LDS,F(xiàn)DS以及LDS和FDS的組合應(yīng)用于基線方法。最后,我們報(bào)告了LDS + FDS相對(duì)于Vanilla模型的performance提升。如表所示,無(wú)論使用哪一類訓(xùn)練方法,LDS和FDS均具有非常出色的表現(xiàn),特別是在few-shot region上能達(dá)到相對(duì)誤差近40%的提升。


          實(shí)驗(yàn)分析之 為啥FDS能work:我們進(jìn)一步來(lái)對(duì)提出的方法做一些進(jìn)一步的分析。首先是對(duì)FDS分析它是如何影響網(wǎng)絡(luò)的訓(xùn)練過(guò)程的。與先前的設(shè)置類似,我們展示出了anchor age 0的特征統(tǒng)計(jì)的相似度圖。如圖所示,由于目標(biāo)區(qū)間age 0中的樣本很少,因此特征統(tǒng)計(jì)量可能具有較大的偏差,例如0歲的統(tǒng)計(jì)量反而與40-80歲之間的區(qū)間最相似。相反,當(dāng)添加FDS時(shí),統(tǒng)計(jì)數(shù)據(jù)會(huì)得到更好的校準(zhǔn),從而僅在其附近具有較高的相似性,并且隨著目標(biāo)值變大,相似度會(huì)逐漸降低。我們進(jìn)一步可視化訓(xùn)練期間 running statistics 和 smoothed statistics之間的    距離。有趣的是,隨著訓(xùn)練的發(fā)展,平均的    距離是逐漸減小并趨于0的。這表明該模型學(xué)會(huì)了即使不進(jìn)行平滑操作,也可以生成更準(zhǔn)確的特征,最后可以在inference過(guò)程中,我們即可去掉平滑模塊,也能得到很好的結(jié)果。


          實(shí)驗(yàn)分析之 Extrapolation & Interpolation:最后,在實(shí)際的DIR任務(wù)中,某些目標(biāo)值可能根本沒(méi)有數(shù)據(jù)(例如之前看到的SHHS-DIR和STS-B-DIR上的標(biāo)簽分布)。這激發(fā)了對(duì) target extrapolation 和 interpolation 的需求。如下圖所示,我們從IMDB-WIKI-DIR的訓(xùn)練集中建立了不同的子集,涵蓋了不同peak的標(biāo)簽分布,并且這些訓(xùn)練子集在某些區(qū)域中是沒(méi)有訓(xùn)練數(shù)據(jù)的,但是我們對(duì)訓(xùn)練的模型會(huì)在原始的測(cè)試集進(jìn)行評(píng)估,來(lái)分析zero-shot的generalization。下圖我們可視化了我們的方法相對(duì)于原始模型,在所有target value上的絕對(duì)的MAE的提升(子圖上半部分藍(lán)色是訓(xùn)練的標(biāo)簽分布,下半部分橙色是相對(duì)誤差的增益)。如前所述,我們的方法可以對(duì)所有區(qū)間得到顯著的性能提升,特別是對(duì)于zero-shot范圍,能夠更好的進(jìn)行Extrapolation & Interpolation。



          06 結(jié)語(yǔ)

          最后總結(jié)一下本文,我們提出了一個(gè)新的任務(wù),稱為深度不平衡回歸(DIR),同時(shí)我們系統(tǒng)性地研究了DIR,并提出了對(duì)應(yīng)的簡(jiǎn)單而有效的新方法LDS和FDS,以解決具有連續(xù)目標(biāo)的學(xué)習(xí)不平衡數(shù)據(jù)的問(wèn)題,最后我們建立了五個(gè)新的benchmark來(lái)方便未來(lái)在不平衡數(shù)據(jù)上的回歸研究。本文有很直觀的問(wèn)題分析與解釋,以及用非常簡(jiǎn)潔并且通用的框架去提升連續(xù)域下的不平衡學(xué)習(xí)任務(wù)。

          我個(gè)人還是挺喜歡這篇文章的,因?yàn)楸疚牡某霭l(fā)點(diǎn)其實(shí)是另一個(gè)我們正在做的醫(yī)療AI相關(guān)項(xiàng)目,在過(guò)程中的一個(gè)環(huán)節(jié)我們遇到了頭疼的問(wèn)題---即想要用深度模型做一個(gè)連續(xù)variable的回歸,但是此variable的標(biāo)簽分布非常sparse且及其不平衡,而這恰恰是healthcare數(shù)據(jù)的常態(tài)。經(jīng)過(guò)一番調(diào)研我們發(fā)現(xiàn)目前并沒(méi)有很好解決這類問(wèn)題的方法,于是我們最終develop了LDS和FDS,并發(fā)現(xiàn)相比與baseline模型能極大的提升performance,算是驗(yàn)證了其在現(xiàn)實(shí)的任務(wù)上的有效性和實(shí)用性;希望我們的方法不僅局限于academic datasets,而是對(duì)其他實(shí)際的不平衡回歸問(wèn)題也有幫助。

          當(dāng)然,我們的工作還是存在其局限性,也留了一些坑。首先,無(wú)論是LDS還是FDS,雖然想法直觀,但都存在超參數(shù)的問(wèn)題(因引入了對(duì)稱核函數(shù)做smoothing),而不同任務(wù)的最優(yōu)參數(shù)可能不盡相同,需要根據(jù)特定任務(wù)的標(biāo)簽空間來(lái)測(cè)試決定合適值。其次,我們提出的方法雖能提升現(xiàn)有的模型表現(xiàn),但不平衡回歸問(wèn)題本身仍未完全解決,甚至還有很大的提升空間。最后,作為比較早的系統(tǒng)研究這個(gè)問(wèn)題的文章,我們并沒(méi)有給出理論上的探索與推導(dǎo),而這也是后續(xù)工作可以繼續(xù)挖掘的。希望本文能拋磚引玉,也非常歡迎大家follow我們的工作!如果大家有任何想要交流的技術(shù)問(wèn)題,歡迎留言多多交流。最后再次附上我們論文的相關(guān)鏈接:

          項(xiàng)目主頁(yè)

          http://dir.csail.mit.edu/

          論文

          https://arxiv.org/abs/2102.09554

          代碼

          https://github.com/YyzHarry/imbalanced-regression


          參考


          1. Chawla, N. V., et al. SMOTE: Synthetic minority over-sampling technique. JAIR, 2002.

          2. Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.

          3. Learning imbalanced datasets with label-distribution-aware margin loss. NeurIPS, 2019.

          4. Liu, Z., et al. Large-scale long-tailed recognition in an open world. CVPR 2019.

          5. Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.

          6. Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.

          7. Learning from imbalanced data: open challenges and future directions. 2016.

          8. Krizhevsky, A., Hinton, G., et al. Learning multiple layers of features from tiny images. 2009.

          9. abRothe, R., et al. Deep expectation of real and apparent age from a single image without facial landmarks. IJCV, 2018.

          10. Sun, B., Feng, J., and Saenko, K. Return of frustratingly easy domain adaptation. AAAI, 2016.

          11. Agedb: The first manually collected, in-the-wild age database. CVPR Workshop, 2017.

          12. Indoor segmentation and support inference from rgbd images. ECCV, 2012.

          13. Semeval-2017 task 1: Semantic textual similarity multilingual and crosslingual focused evaluation. International Workshop on Semantic Evaluation, 2017.

          14. The sleep heart health study: design, rationale, and methods. Sleep, 20(12):1077–1085, 1997.

          15. Branco, P., Torgo, L., and Ribeiro, R. P. Smogn: a preprocessing approach for imbalanced regression. 2017.

          16. Torgo, L., Ribeiro, R. P., Pfahringer, B., and Branco, P. Smote for regression. In Portuguese conference on artificial intelligence, 2013.

          17. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. ICCV, 2017.


          編輯:王菁

          校對(duì):龔力



          瀏覽 76
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  97色色免费视频 | 蜜桃成人中文字幕 | 成人一级片 | 美女扒开屁股 | 天天爽夜夜爽精品成人免费 |