日本一区二区三区四区五区六区,国产精品内射久久久久欢欢,国产无码在线影院,91玉足脚交白嫩脚丫,日韩91成人精品久久久电影,午夜操操逼,久久久成人视频,天天日日日

↑ 點擊藍(lán)字 關(guān)注極市平臺

作者丨Yuzhe Yang@知乎（已授權(quán)）

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/369627086

編輯丨極市平臺

極市導(dǎo)讀

本文介紹了一篇被ICML2021接收的工作：Long oral presentation：Delving into Deep Imbalanced Regression。該工作推廣了傳統(tǒng)不平衡分類問題的范式，將數(shù)據(jù)不平衡問題從離散值域推廣到連續(xù)域。>>加入極市CV技術(shù)交流群，走在計算機(jī)視覺的最前沿

來給大家介紹一下我們的新工作，目前已被ICML 2021接收為 Long oral presentation：Delving into Deep Imbalanced Regression。這項工作在經(jīng)典的數(shù)據(jù)不平衡問題下，探索了非常實際但極少被研究的問題：數(shù)據(jù)不平衡回歸問題。現(xiàn)有的處理不平衡數(shù)據(jù)/長尾分布的方法絕大多數(shù)僅針對分類問題，即目標(biāo)值是不同類別的離散值（索引）；但是，許多實際的任務(wù)涉及連續(xù)的，甚至有時是無限多的目標(biāo)值。本文推廣了傳統(tǒng)不平衡分類問題的范式，將數(shù)據(jù)不平衡問題從離散值域推廣到連續(xù)域。

論文鏈接：https://arxiv.org/abs/2102.09554

我們不僅提出了兩種簡單有效的方法去提升不平衡回歸問題上的模型表現(xiàn)，也建立了五個新的benchmark DIR數(shù)據(jù)集，涵蓋了計算機(jī)視覺，自然語言處理，和醫(yī)療問題上的不平衡回歸任務(wù)。目前代碼，數(shù)據(jù)，和模型已經(jīng)在GitHub上開源，鏈接如下：

YyzHarry/imbalanced-regression

https://github.com/YyzHarry/imbalanced-regression

那么開篇首先用概括一下本文的主要貢獻(xiàn)：

我們提出了一個新的任務(wù)，稱為深度不平衡回歸（Deep Imbalanced Regression，簡寫為DIR）。DIR任務(wù)定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí)，并能泛化到整個目標(biāo)范圍；
我們同時提出了針對不平衡回歸的新的方法，標(biāo)簽分布平滑（label distribution smoothing, LDS）和特征分布平滑（feature distribution smoothing, FDS），以解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問題；
最后我們建立了五個新的DIR數(shù)據(jù)集，涵蓋了computer vision，NLP，和healthcare上的不平衡回歸任務(wù)，來方便未來在不平衡數(shù)據(jù)上的研究。

接下來我們進(jìn)入正文。按照慣例，我會先拋開文章本身，大體梳理一下數(shù)據(jù)不平衡這個問題在分類以及回歸上的一部分研究現(xiàn)狀，在此基礎(chǔ)上盡量詳細(xì)的介紹我們的思路和方法，省去不必要的細(xì)節(jié)。

1. 研究背景與動機(jī)

數(shù)據(jù)不平衡在現(xiàn)實世界中是無處不在。現(xiàn)實數(shù)據(jù)通常不會是每個類別都具有理想的均勻分布，而是呈現(xiàn)出尾巴較長的偏斜分布，其中某些目標(biāo)值的觀測值明顯較少。這種現(xiàn)象對深度模型提出了巨大挑戰(zhàn)，并激發(fā)出了許多解決數(shù)據(jù)不平衡的現(xiàn)有的方法技術(shù)。

具體來說，之前的解決方案可以大致分為基于數(shù)據(jù)的解決方案和基于模型的解決方案。基于數(shù)據(jù)的解決方案要么對少數(shù)群體類別進(jìn)行過度采樣，要么對多數(shù)群體進(jìn)行不足采樣，例如SMOTE算法[1]，該算法通過線性插值同一類別中的樣本來生成少數(shù)群體類別的合成樣本。而基于模型的解決方案包括對損失函數(shù)的重加權(quán)（re-weighting）[2]，或是直接修改損失函數(shù)[3]，以及利用相關(guān)的特定學(xué)習(xí)技巧，例如 transfer learning[4]，meta-learning[5]，以及 two-stage training[6]。更完整的現(xiàn)有不平衡學(xué)習(xí)方法調(diào)研歡迎查看：我之前在不平衡分類問題下的回答。（https://www.zhihu.com/question/372186043/answer/1501948720）

但是，現(xiàn)有的從不平衡數(shù)據(jù)中學(xué)習(xí)的解決方案，主要考慮的是具有categorical index的目標(biāo)值，也就是說目標(biāo)值是不同的類別。例如下圖所示，子圖1是用于地點分類的典型的真實世界數(shù)據(jù)集，該數(shù)據(jù)集不平衡且標(biāo)簽分布具有長尾效應(yīng)，并且其標(biāo)簽是不同的類別，例如房屋，森林和博物館，他們都互不重疊。同樣，子圖2是現(xiàn)實世界中用于物種分類的不平衡數(shù)據(jù)集iNaturalist，其目標(biāo)值也屬于不同類別，并且具有hard boundaries，不同類之間有一個硬性的邊界，不同類別之間沒有重疊。

現(xiàn)有的不平衡學(xué)習(xí)方案主要考慮的數(shù)據(jù)類型是具有categorical index的目標(biāo)值，也即目標(biāo)值是不同的類別，如地點分類、物種分類。其目標(biāo)值屬于不同類別，且不同類之間有一個硬性的邊界，不同類別之間沒有重疊。

然而，許多現(xiàn)實世界中的任務(wù)可能涉及連續(xù)的，甚至有時是無限多個的目標(biāo)值。舉個栗子，在計算機(jī)視覺的應(yīng)用中，我們常常需要根據(jù)一個人的視覺外觀，即他們的照片，來推斷他們的年齡。在這里，年齡便是一個連續(xù)的目標(biāo)值，并且在目標(biāo)范圍內(nèi)可能會高度失衡。下圖是一個實際年齡估計數(shù)據(jù)集，該數(shù)據(jù)集在不同年齡之間具有歪斜的標(biāo)簽分布。在這種情況下，如果將不同年齡劃分為不同的類別來進(jìn)行學(xué)習(xí)的話，是不太可能得到最佳的結(jié)果，因為這種方法沒有利用到附近年齡人群之間特征的相似性。

根據(jù)一個人的視覺外觀（照片）來推斷年齡。這里年齡便是一個連續(xù)的目標(biāo)值，并且在目標(biāo)范圍內(nèi)可能會高度失衡。右圖為大型age estimation數(shù)據(jù)集IMDB-WIKI，其在不同年齡之間具有歪斜的標(biāo)簽分布。

同樣，在醫(yī)療應(yīng)用中也會發(fā)生類似的問題。我們想推斷出不同患者群體的健康指標(biāo)，例如他們的心率，血壓和血氧飽和度。而這些health的指標(biāo)也是連續(xù)的，并且它們通常在患者人群中具有非常不平衡，或是偏斜的分布。

醫(yī)療應(yīng)用中的不平衡回歸問題。大部分的health指標(biāo)，如心率，血壓和血氧飽和度，一般均是連續(xù)的目標(biāo)值，并且通常在患者人群中高度失衡。右圖為真實數(shù)據(jù)集SHHS上，health condition score的歪斜的標(biāo)簽分布。

此外，許多重要的現(xiàn)實生活應(yīng)用（例如經(jīng)濟(jì)，危機(jī)管理，故障診斷或氣象學(xué)等）也有類似的需求，這些應(yīng)用中需要預(yù)測的連續(xù)目標(biāo)變量都往往存在許多稀有和極端值[7]。這個連續(xù)域的不平衡問題，無論在線性模型還是深度模型里都是存在的。甚至在深度模型中更為嚴(yán)重。這是為什么呢？由于神經(jīng)網(wǎng)絡(luò)的預(yù)測經(jīng)常是over-confident的，以至于這種不平衡被嚴(yán)重的放大了。

因此，在這項工作中，我們定義并研究深度不平衡回歸問題，Deep Imbalanced Regression（DIR），即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí)。具體來說，給定具有連續(xù)目標(biāo)值的數(shù)據(jù)集，DIR想要從分布不均衡和偏斜的數(shù)據(jù)中學(xué)習(xí)，同時需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù)，并且最終模型能夠generalize到整個支持的target range，也就是所有目標(biāo)值范圍上。對于DIR我們考慮用一個在整個連續(xù)目標(biāo)值范圍內(nèi)分布是平衡的測試集來測試模型的泛化能力，這樣能夠為DIR提供非常全面并且沒有偏差的評估。這種setting也與不平衡的分類問題的setting保持一致。

深度不平衡回歸問題，Deep Imbalanced Regression（DIR），即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí)，同時需要處理某些目標(biāo)區(qū)域的潛在缺失數(shù)據(jù)，并且使最終模型能夠generalize到整個支持的所有目標(biāo)值范圍上。

2. 不平衡回歸的難點與挑戰(zhàn)

需要注意到的是，相比于不平衡的分類問題，DIR帶來了以下全新的挑戰(zhàn)。

（一） 首先，給定連續(xù)的，并且可能無窮多的目標(biāo)值，類與類之間的hard boundaries便不再存在。那么當(dāng)直接應(yīng)用傳統(tǒng)的不平衡分類方法，例如重采樣或重加權(quán)，因其是對于特定的離散的類別進(jìn)行操作，這就導(dǎo)致了這些方法不直接適用于連續(xù)域的情況。

（二） 此外，連續(xù)標(biāo)簽本質(zhì)上在不同目標(biāo)值之間的距離是具有意義的。這些目標(biāo)值（標(biāo)簽）直接告訴了我們，哪些數(shù)據(jù)相隔更近，而哪些相隔更遠(yuǎn)；而這個有意義的距離，會進(jìn)一步指導(dǎo)我們該如何理解這個連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。例如，假設(shè)有兩個目標(biāo)標(biāo)簽和，它們在訓(xùn)練數(shù)據(jù)中具有同樣的sample數(shù)量，然而，位于一個具有高密度數(shù)據(jù)的鄰域中（在該鄰域范圍內(nèi)有許多樣本），而位于一個低密度數(shù)據(jù)的鄰域中。那么在這種情況下，和并不具有相同程度的數(shù)據(jù)不平衡。

連續(xù)標(biāo)簽在不同目標(biāo)值之間的距離是具有意義的，此距離會進(jìn)一步指導(dǎo)我們該如何理解這個連續(xù)區(qū)間上的數(shù)據(jù)不平衡的程度。圖中t1和t2在訓(xùn)練數(shù)據(jù)中具有同樣的數(shù)量，而因t1位于一個具有高密度數(shù)據(jù)的鄰域中，t2位于一個低密度數(shù)據(jù)的鄰域中，那么t1和t2并不具有相同程度的數(shù)據(jù)不平衡。

（三） 最后，與分類問題不同，對于DIR，某些目標(biāo)值可能就根本沒有數(shù)據(jù)。而這也激發(fā)了對目標(biāo)值做 extrapolation 以及 interpolation 的需求。

與分類問題不同，對于DIR，某些目標(biāo)值可能就根本沒有數(shù)據(jù)；而這也激發(fā)了對目標(biāo)值做 extrapolation 以及 interpolation 的需求。

總結(jié)上述的問題，我們可以看到DIR相比與傳統(tǒng)的不平衡分類具有全新的難點與挑戰(zhàn)。那么，我們應(yīng)該如何進(jìn)行深度不平衡回歸呢？在接下來的兩節(jié)，我們分別提出了兩個簡單且有效的方法，標(biāo)簽分布平滑（label distribution smoothing，LDS）和特征分布平滑（feature distribution smoothing，F(xiàn)DS），分別通過利用在標(biāo)簽空間和特征空間中臨近目標(biāo)之間的相似性，來提升模型在DIR任務(wù)上的表現(xiàn)。

3. 標(biāo)簽分布平滑（LDS）

我們首先從標(biāo)簽分布平滑（LDS）說起，通過一個簡單且比較 motivating 的例子開始，來展示一下當(dāng)數(shù)據(jù)不平衡出現(xiàn)的時候，分類和回歸問題之間的區(qū)別。

Motivating Example： 我們使用兩個不同的數(shù)據(jù)集，(1) CIFAR-100[8]，一個具有100類的分類數(shù)據(jù)集，以及 (2) IMDB-WIKI[9]，一個大型圖像數(shù)據(jù)集，用于根據(jù)人的視覺外觀來估算其年齡。這兩個數(shù)據(jù)集本質(zhì)上具有完全不同的標(biāo)簽空間（label space）：CIFAR-100是 categorical label space，也就是他的目標(biāo)值是 class index；而IMDB-WIKI是 continuous label space，他的目標(biāo)值則是年齡，age。我們將IMDB-WIKI的年齡范圍限制為0?99，以便讓兩個數(shù)據(jù)集具有相同的標(biāo)簽范圍。此外，我們還對兩個數(shù)據(jù)集進(jìn)行了采樣，用來模擬數(shù)據(jù)不平衡，同時確保它們具有完全相同的標(biāo)簽的密度分布，如下圖所示。

然后，我們分別在兩個數(shù)據(jù)集上訓(xùn)練一個普通的ResNet-50模型，并畫出了它們的測試error的分布。首先，如下左圖所示，在CIFAR-100上，我們觀察到測試誤差的分布實際上與標(biāo)簽密度的分布非常相關(guān)，是highly correlated的。具體而言, 測試誤差作為一個class index的函數(shù)，和categorical label space上的標(biāo)簽密度分布，具有一個很高的 (negative) Pearson correlation（皮爾森相關(guān)系數(shù)），這里是 ?0.76。那么這個現(xiàn)象是在我們預(yù)料之中的，因為擁有更多樣本的majority classes比 minority classes是能更容易的學(xué)好的。

但是，有趣的是，即使標(biāo)簽密度分布與CIFAR-100相同，具有連續(xù)的標(biāo)簽空間的 IMDB-WIKI的測試誤差分布也與CIFAR-100非常不同。尤其是，IMDB-WIKI的誤差分布更加平滑，并且不再與標(biāo)簽密度分布很好地相關(guān)，這里的 Pearson correlation 只有 ?0.47。

這種現(xiàn)象表明，對于連續(xù)標(biāo)簽，其經(jīng)驗標(biāo)簽密度（empirical label density），也就是直接觀測到的標(biāo)簽密度，不能準(zhǔn)確反映模型或神經(jīng)網(wǎng)絡(luò)所看到的不平衡。因此，在連續(xù)的情況下，empirical label density是不能反映實際的標(biāo)簽密度分布。這是由于相臨近標(biāo)簽（例如，年齡接近的圖像）的數(shù)據(jù)樣本之間是具有相關(guān)性，或是互相依賴的。

標(biāo)簽分布平滑： 那么，基于這個觀察，我們提出 Label Distribution Smoothing (LDS) ，來估計在連續(xù)標(biāo)簽情況下的有效label density distribution。我們的方法參考了在統(tǒng)計學(xué)習(xí)領(lǐng)域中的核密度估計，kernel density estimation的思路，來在這種情況下估計expected density。具體而言，給定連續(xù)的經(jīng)驗標(biāo)簽密度分布，LDS 使用了一個 symmetric kernel distribution 對稱核函數(shù) ，用經(jīng)驗密度分布與之進(jìn)行卷積，來拿到一個 kernel-smoothed的版本，我們稱之為 effective label density，也就是有效的標(biāo)簽密度，用來直觀體現(xiàn)臨近標(biāo)簽的數(shù)據(jù)樣本具有的信息重疊的問題。那么我們也可以進(jìn)一步驗證，由LDS計算出的有效標(biāo)簽密度分布結(jié)果現(xiàn)已與誤差分布良好相關(guān)，皮爾森相關(guān)系數(shù)為 ?0.83。這表明了利用 LDS，我們能獲得實際影響回歸問題的不平衡的標(biāo)簽分布。

那么有了用LDS估計出的有效標(biāo)簽密度，之前用來解決類別不平衡問題的方法，便可以直接應(yīng)用于DIR。比如說，一種直接的可以adapted 的方法是利用重加權(quán)方法，具體來說就是，我們通過將損失函數(shù)乘以每個目標(biāo)值的LDS估計標(biāo)簽密度的倒數(shù)來對其進(jìn)行加權(quán)。之后在實驗部分我們也會展示，利用LDS可以一致提升很多方法。

4. 特征分布平滑（FDS）

我們現(xiàn)在已經(jīng)知道，標(biāo)簽空間的連續(xù)性可以有效地用于解決DIR問題。那么進(jìn)一步想，在目標(biāo)空間上的連續(xù)性應(yīng)該在特征空間中會產(chǎn)生相應(yīng)的連續(xù)性。也就是說，如果模型正常工作并且數(shù)據(jù)是平衡，則我們可以預(yù)期label相近的sample，他們對應(yīng)的feature的統(tǒng)計信息也應(yīng)該是彼此接近的。同樣，我們使用一個motivating的例子，來展示數(shù)據(jù)不平衡對DIR中feature的統(tǒng)計信息的影響。

Motivating Example： 同樣，我們使用對IMDB-WIKI上訓(xùn)練的ResNet-50模型。我們主要focus在的學(xué)到的特征空間，即上圖中的。我們?yōu)闃?biāo)簽空間引入了一種額外的結(jié)構(gòu)以供分析，我們把label space分為了等間隔的區(qū)間。我們用表示目標(biāo)值的區(qū)間索引。在這個age estimation這個任務(wù)中，我們定義區(qū)間的長度為1，也即我們關(guān)注的最小的年齡差是1。現(xiàn)在，通過這種區(qū)間的結(jié)構(gòu)，我們可以將具有相同目標(biāo)區(qū)間的要素分組到同一組。然后，我們針對每個區(qū)間中的數(shù)據(jù)計算其相應(yīng)的特征統(tǒng)計量（即均值和方差 , ）。

接下來，我們可以開始可視化特征的統(tǒng)計量之間的相似性。首先，我們選擇一個 anchor 區(qū)間，記為，然后獲得該區(qū)間的特征的統(tǒng)計信息，也就是和。同理，我們可以對其他所有區(qū)間也計算 mean 和 variance , 。最后，我們計算這個 anchor age 和其他所有 age 的特征統(tǒng)計量的 cosine similarity，也就是余弦相似度，畫在了圖中。此外，我們還使用了紫色，黃色，和粉紅色，分別顯示了具有不同數(shù)據(jù)密度的區(qū)域。

有趣的是，我們發(fā)現(xiàn) anchor age 和其臨近的區(qū)間的特征統(tǒng)計量是高度相似的。特別是，在區(qū)間25-35之間，他們的mean 和 variance 的相似度都高達(dá) 90% 以上。需要要注意的是，Anchor age 30 剛好是在many-shot region，也就是他的訓(xùn)練數(shù)據(jù)是非常多的。因此，該圖也證實了我們的直覺，即對于連續(xù)目標(biāo)值，當(dāng)有足夠的數(shù)據(jù)時，特征的統(tǒng)計量在臨近點是相似的。

不過，該圖還顯示了對于數(shù)據(jù)樣本量很少的區(qū)域的問題，例如0至6歲的年齡范圍。值得注意的是，在此范圍內(nèi)，特征的均值和方差顯示出與30歲年齡段的特征統(tǒng)計量，具有出乎意料的高度相似性。這種不合理的相似性是由于數(shù)據(jù)不平衡造成的。具體來說，由于年齡0到6的圖像數(shù)量很少，因此該范圍的特征會從具有最大數(shù)據(jù)量的范圍（即30歲左右的范圍）繼承其先驗。這也就造成了圖中所示的問題。

特征分布平滑： 受這些觀察的啟發(fā)，我們提出了特征分布平滑，F(xiàn)eature Distribution Smoothing（FDS）。FDS對特征空間進(jìn)行分布的平滑，本質(zhì)上是在臨近的區(qū)間之間來傳遞特征的統(tǒng)計信息。此過程主要作用是去校準(zhǔn)特征分布的潛在的有偏差的估計，尤其是對那些樣本很少的目標(biāo)值而言。具體來說，我們有一個模型，代表一個encoder將輸入數(shù)據(jù)映射到隱層的特征，作為一個predictor來輸出連續(xù)的預(yù)測目標(biāo)值。FDS首先會估計每個區(qū)間的統(tǒng)計信息。在不失一般性的前提下，我們用特征的協(xié)方差代替方差，以反映特征內(nèi)部元素之間的關(guān)系。給定特征統(tǒng)計量，我們再次使用對稱核函數(shù) symmetric kernel 來 smooth 特征均值和協(xié)方差的分布。這樣我們可以拿到統(tǒng)計信息的平滑版本。現(xiàn)在，利用估計的和平滑的統(tǒng)計量，我們遵循標(biāo)準(zhǔn)的 whitening and re-coloring[10] 過程來校準(zhǔn)每個輸入樣本的特征表示。那么整個FDS的過程可以通過在最終特征圖之后插入一個特征的校準(zhǔn)層，來實現(xiàn)將FDS的集成到深度網(wǎng)絡(luò)中。最后，我們在每個epoch 采用了對于 running statistics的 momentum update，也就是動量更新。這個是為了獲得對訓(xùn)練過程中特征統(tǒng)計信息的一個更穩(wěn)定和更準(zhǔn)確的估計。

那么就像之前提到的，F(xiàn)DS同樣可以與任何神經(jīng)網(wǎng)絡(luò)模型以及之前類別不平衡的方法相集成。在接下來的實驗中，我們可以觀察到利用FDS同樣能一致提升很多方法。

5. 基準(zhǔn)DIR數(shù)據(jù)集及實驗分析

基準(zhǔn)DIR數(shù)據(jù)集： 終于來到了激動人心的實驗部分 ;) 為了方便對不平衡算法進(jìn)行標(biāo)準(zhǔn)的測試，以及方便未來的research工作，我們在現(xiàn)有的大型數(shù)據(jù)集基礎(chǔ)上，建立了五個DIR的基準(zhǔn)數(shù)據(jù)集，涵蓋了計算機(jī)視覺（computer vision），自然語言處理（natural language processing），和醫(yī)療（healthcare）的應(yīng)用。這些任務(wù)涵蓋了從單值（single value）預(yù)測（例如年齡，文本相似性得分，健康狀況得分），到密集值（dense value）預(yù)測（例如深度）。這些數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分布如下圖所示：

IMDB-WIKI-DIR（vision, age）： 從包含人面部的圖像來推斷估計相應(yīng)的年齡。基于IMDB-WIKI[9]數(shù)據(jù)集，我們手動構(gòu)建了驗證集和測試集，使其保持了分布的平衡。
AgeDB-DIR（vision, age）： 同樣是根據(jù)單個輸入圖像進(jìn)行年齡估算，基于AgeDB[11]數(shù)據(jù)集。注意到與IMDB-WIKI-DIR相比，即使兩個數(shù)據(jù)集是完全相同的task，他們的標(biāo)簽分布的不平衡也不相同。
NYUD2-DIR（vision, depth）： 除了single value的prediction, 我們還基于NYU2數(shù)據(jù)集[12]構(gòu)建了進(jìn)行depth estimation的DIR任務(wù)，是一個dense value prediction的任務(wù)。我們構(gòu)建了NYUD2-DIR數(shù)據(jù)集來進(jìn)行不平衡回歸的評估。
STS-B-DIR（NLP, text similarity score）： 我們還在NLP領(lǐng)域中構(gòu)建了一個叫STS-B-DIR的DIR benchmark，基于STS-B數(shù)據(jù)集[13]。他的任務(wù)是推斷兩個輸入句子之間的語義文本的相似度得分。這個相似度分?jǐn)?shù)是連續(xù)的，范圍是0到5，并且分布不平衡。
SHHS-DIR（Healthcare, health condition score）： 最后，我們在healthcare領(lǐng)域也構(gòu)建了一個DIR的benchmark，叫做 SHHS-DIR，基于SHHS數(shù)據(jù)集[14]。這項任務(wù)是推斷一個人的總體健康評分，該評分在0到100之間連續(xù)分布，評分越高則健康狀況越好。網(wǎng)絡(luò)的輸入是每個患者在一整晚睡眠過程中的高維PSG信號，包括ECG心電信號，EEG腦電信號，以及他的呼吸信號。很明顯可以看到，總體健康分?jǐn)?shù)的分布也是極度不平衡的，并存在一定的target value是沒有數(shù)據(jù)的。

在評估過程中，我們在平衡的測試集上評估每種方法的性能。我們進(jìn)一步將目標(biāo)空間劃分為幾個不相交的子集：稱為many-shot，medium-shot，few-shot，還有zero-shot region，來反映訓(xùn)練數(shù)據(jù)中樣本數(shù)量的不同。比如，many-shot代表對于這個固定的區(qū)間，有超過100個training data sample。對于baseline方法，由于文獻(xiàn)中只有很少的不平衡回歸的方法，除了之前的使用合成樣本進(jìn)行不平衡回歸的工作[15][16]外，我們也提出了一系列不平衡回歸的baseline，包含了不同種類的學(xué)習(xí)方法（例如Focal loss[17]的regression版本Focal-R），具體詳見我們的文章。

實驗： 由于實驗較多，這里僅展示在IMDB-WIKI-DIR上的部分結(jié)果，所有的結(jié)果請詳見論文。如下圖所示，我們首先根據(jù)使用的基本策略的不同，將不同的方法分為4個部分，在每個部分里，我們進(jìn)一步將LDS，F(xiàn)DS以及LDS和FDS的組合應(yīng)用于基線方法。最后，我們報告了LDS + FDS相對于Vanilla模型的performance提升。如表所示，無論使用哪一類訓(xùn)練方法，LDS和FDS均具有非常出色的表現(xiàn)，特別是在few-shot region上能達(dá)到相對誤差近40%的提升。

實驗分析之為啥FDS能work： 我們進(jìn)一步來對提出的方法做一些進(jìn)一步的分析。首先是對FDS分析它是如何影響網(wǎng)絡(luò)的訓(xùn)練過程的。與先前的設(shè)置類似，我們展示出了anchor age 0的特征統(tǒng)計的相似度圖。如圖所示，由于目標(biāo)區(qū)間age 0中的樣本很少，因此特征統(tǒng)計量可能具有較大的偏差，例如0歲的統(tǒng)計量反而與40-80歲之間的區(qū)間最相似。相反，當(dāng)添加FDS時，統(tǒng)計數(shù)據(jù)會得到更好的校準(zhǔn)，從而僅在其附近具有較高的相似性，并且隨著目標(biāo)值變大，相似度會逐漸降低。我們進(jìn)一步可視化訓(xùn)練期間 running statistics 和 smoothed statistics之間的距離。有趣的是，隨著訓(xùn)練的發(fā)展，平均的 距離是逐漸減小并趨于0的。這表明該模型學(xué)會了即使不進(jìn)行平滑操作，也可以生成更準(zhǔn)確的特征，最后可以在inference過程中，我們即可去掉平滑模塊，也能得到很好的結(jié)果。

實驗分析之 Extrapolation & Interpolation： 最后，在實際的DIR任務(wù)中，某些目標(biāo)值可能根本沒有數(shù)據(jù)（例如之前看到的SHHS-DIR和STS-B-DIR上的標(biāo)簽分布）。這激發(fā)了對 target extrapolation 和 interpolation 的需求。如下圖所示，我們從IMDB-WIKI-DIR的訓(xùn)練集中建立了不同的子集，涵蓋了不同peak的標(biāo)簽分布，并且這些訓(xùn)練子集在某些區(qū)域中是沒有訓(xùn)練數(shù)據(jù)的，但是我們對訓(xùn)練的模型會在原始的測試集進(jìn)行評估，來分析zero-shot的generalization。下圖我們可視化了我們的方法相對于原始模型，在所有target value上的絕對的MAE的提升（子圖上半部分藍(lán)色是訓(xùn)練的標(biāo)簽分布，下半部分橙色是相對誤差的增益）。如前所述，我們的方法可以對所有區(qū)間得到顯著的性能提升，特別是對于zero-shot范圍，能夠更好的進(jìn)行Extrapolation & Interpolation。

6. 結(jié)語

最后總結(jié)一下本文，我們提出了一個新的任務(wù)，稱為深度不平衡回歸（DIR），同時我們系統(tǒng)性地研究了DIR，并提出了對應(yīng)的簡單而有效的新方法LDS和FDS，以解決具有連續(xù)目標(biāo)的學(xué)習(xí)不平衡數(shù)據(jù)的問題，最后我們建立了五個新的benchmark來方便未來在不平衡數(shù)據(jù)上的回歸研究。本文有很直觀的問題分析與解釋，以及用非常簡潔并且通用的框架去提升連續(xù)域下的不平衡學(xué)習(xí)任務(wù)。

我個人還是挺喜歡這篇文章的，因為本文的出發(fā)點其實是另一個我們正在做的醫(yī)療AI相關(guān)項目，在過程中的一個環(huán)節(jié)我們遇到了頭疼的問題---即想要用深度模型做一個連續(xù)variable的回歸，但是此variable的標(biāo)簽分布非常sparse且及其不平衡，而這恰恰是healthcare數(shù)據(jù)的常態(tài)。經(jīng)過一番調(diào)研我們發(fā)現(xiàn)目前并沒有很好解決這類問題的方法，于是我們最終develop了LDS和FDS，并發(fā)現(xiàn)相比與baseline模型能極大的提升performance，算是驗證了其在現(xiàn)實的任務(wù)上的有效性和實用性 ;) 希望我們的方法不僅局限于academic datasets，而是對其他實際的不平衡回歸問題也有幫助。

當(dāng)然，我們的工作還是存在其局限性，也留了一些坑。首先，無論是LDS還是FDS，雖然想法直觀，但都存在超參數(shù)的問題（因引入了對稱核函數(shù)做smoothing），而不同任務(wù)的最優(yōu)參數(shù)可能不盡相同，需要根據(jù)特定任務(wù)的標(biāo)簽空間來測試決定合適值。其次，我們提出的方法雖能提升現(xiàn)有的模型表現(xiàn)，但不平衡回歸問題本身仍未完全解決，甚至還有很大的提升空間。最后，作為比較早的系統(tǒng)研究這個問題的文章，我們并沒有給出理論上的探索與推導(dǎo)，而這也是后續(xù)工作可以繼續(xù)挖掘的。希望本文能拋磚引玉，也非常歡迎大家follow我們的工作！如果大家有任何想要交流的技術(shù)問題，歡迎留言多多交流。最后再次附上我們論文的相關(guān)鏈接：

[項目主頁] ：http://dir.csail.mit.edu/

[論文] ：https://arxiv.org/abs/2102.09554

[代碼]：https://github.com/YyzHarry/imbalanced-regression

參考

^Chawla, N. V., et al. SMOTE: Synthetic minority over-sampling technique. JAIR, 2002.
^Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.
^Learning imbalanced datasets with label-distribution-aware margin loss. NeurIPS, 2019.
^Liu, Z., et al. Large-scale long-tailed recognition in an open world. CVPR 2019.
^Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.
^Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.
^Learning from imbalanced data: open challenges and future directions. 2016.
^Krizhevsky, A., Hinton, G., et al. Learning multiple layers of features from tiny images. 2009.
^abRothe, R., et al. Deep expectation of real and apparent age from a single image without facial landmarks. IJCV, 2018.
^Sun, B., Feng, J., and Saenko, K. Return of frustratingly easy domain adaptation. AAAI, 2016.
^Agedb: The first manually collected, in-the-wild age database. CVPR Workshop, 2017.
^Indoor segmentation and support inference from rgbd images. ECCV, 2012.
^Semeval-2017 task 1: Semantic textual similarity multilingual and crosslingual focused evaluation. International Workshop on Semantic Evaluation, 2017.
^The sleep heart health study: design, rationale, and methods. Sleep, 20(12):1077–1085, 1997.
^Branco, P., Torgo, L., and Ribeiro, R. P. Smogn: a preprocessing approach for imbalanced regression. 2017.
^Torgo, L., Ribeiro, R. P., Pfahringer, B., and Branco, P. Smote for regression. In Portuguese conference on artificial intelligence, 2013.
^Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. ICCV, 2017

本文亮點總結(jié)

1.提出了一個新的任務(wù)，稱為深度不平衡回歸（Deep Imbalanced Regression，簡寫為DIR）。DIR任務(wù)定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí)，并能泛化到整個目標(biāo)范圍；

2.同時提出了針對不平衡回歸的新的方法，標(biāo)簽分布平滑（label distribution smoothing, LDS）和特征分布平滑（feature distribution smoothing, FDS），以解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問題；

3.建立了五個新的DIR數(shù)據(jù)集，涵蓋了computer vision，NLP，和healthcare上的不平衡回歸任務(wù)，來方便未來在不平衡數(shù)據(jù)上的研究。

如果覺得有用，就請分享到朋友圈吧！

△點擊卡片關(guān)注極市平臺，獲取最新CV干貨

公眾號后臺回復(fù)“pytorch”獲取Pytorch 官方書籍英文版電子版～