ICCV 2021 Workshop|醫(yī)學(xué)影像等小數(shù)據(jù)集能否用Transformer替代CNN?

極市導(dǎo)讀
?本文解讀了一篇ICCV 2021 workshop的工作,該工作本文研究比較了CNN和ViTs在三種不同初始化策略下在醫(yī)學(xué)圖像任務(wù)中的表現(xiàn),研究了自監(jiān)督預(yù)訓(xùn)練對(duì)醫(yī)學(xué)圖像領(lǐng)域的影響,最后得出結(jié)論:醫(yī)學(xué)圖像分析可以從CNN無(wú)縫過(guò)渡到ViTs,同時(shí)獲得更好的可解釋性特性。>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿
前言
醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集具有標(biāo)注樣本少、圖像非自然的特點(diǎn),transformer已經(jīng)證明了在自然圖像領(lǐng)域下的成功,而能否應(yīng)用于醫(yī)學(xué)領(lǐng)域等少量標(biāo)注樣本的非自然圖像領(lǐng)域呢?
本文研究比較了CNN和ViTs在三種不同初始化策略下在醫(yī)學(xué)圖像任務(wù)中的表現(xiàn),研究了自監(jiān)督預(yù)訓(xùn)練對(duì)醫(yī)學(xué)圖像領(lǐng)域的影響,并得出了三個(gè)結(jié)論。

論文地址:https://arxiv.org/abs/2108.09038
代碼:https://github.com/ChrisMats/medical_transformers
Background
目前已經(jīng)提出了許多使transformers適應(yīng)視覺(jué)任務(wù)的方法。在自然圖像領(lǐng)域,transformers已被證明在標(biāo)準(zhǔn)視覺(jué)任務(wù)(如ImageNet分類、以及目標(biāo)檢測(cè)和語(yǔ)義分割)上優(yōu)于CNN。與卷積相比,transformers的中心注意力機(jī)制提供了幾個(gè)關(guān)鍵的優(yōu)勢(shì):(1)它捕獲遠(yuǎn)程關(guān)系,(2)它具有通過(guò)動(dòng)態(tài)計(jì)算的self-attention權(quán)重(捕獲Tokens之間的關(guān)系)進(jìn)行自適應(yīng)建模的能力,(3)它提供了一種內(nèi)置的突顯性,使人們能夠洞察模型關(guān)注的是什么。
然而,有證據(jù)表明,vision transformer需要非常大的數(shù)據(jù)集才能超越CNN中,只有當(dāng)谷歌的3億張私人圖像數(shù)據(jù)集JFT-300M用于預(yù)訓(xùn)練時(shí),ViT的好處才變得明顯起來(lái)。他們對(duì)這種規(guī)模的數(shù)據(jù)的依賴是transformers廣泛應(yīng)用的障礙。這個(gè)問(wèn)題在醫(yī)學(xué)成像領(lǐng)域尤其嚴(yán)重,那里的數(shù)據(jù)集較小,而且往往伴隨著不太可靠的標(biāo)簽。
CNN和ViTs一樣,在數(shù)據(jù)稀缺時(shí)性能較差。標(biāo)準(zhǔn)的解決方案是使用遷移學(xué)習(xí):通常,模型在較大的數(shù)據(jù)集(如ImageNet)上預(yù)先訓(xùn)練,然后使用較小的、專門的數(shù)據(jù)集針對(duì)特定任務(wù)進(jìn)行微調(diào)。在ImageNet上預(yù)先訓(xùn)練的CNN通常在最終性能和減少的訓(xùn)練時(shí)間方面都優(yōu)于那些在醫(yī)學(xué)領(lǐng)域從頭開始訓(xùn)練的CNN。
自監(jiān)督是一種處理未標(biāo)記數(shù)據(jù)的學(xué)習(xí)方法,最近得到了廣泛的關(guān)注。研究表明,在微調(diào)前對(duì)目標(biāo)域中的CNN進(jìn)行自監(jiān)督預(yù)訓(xùn)練可以提高性能。ImageNet的初始化有助于自監(jiān)督CNN更快地收斂,通常具有更好的預(yù)測(cè)性能。
這些處理醫(yī)學(xué)圖像領(lǐng)域缺乏數(shù)據(jù)的技術(shù)已被證明對(duì)CNN有效,但尚不清楚vision transformer是否也有類似的好處。一些研究表明,使用ImageNet對(duì)CNN進(jìn)行醫(yī)學(xué)圖像分析的預(yù)訓(xùn)練并不依賴于特征復(fù)用(feature reuse)(遵循傳統(tǒng)觀點(diǎn)),而是由于更好的初始化和權(quán)重調(diào)整。這讓人質(zhì)疑transformers是否能從這些技術(shù)中獲益。如果他們這樣做了,幾乎沒(méi)有什么能阻止ViTs成為醫(yī)學(xué)圖像的主導(dǎo)架構(gòu)。
在這項(xiàng)工作中,論文探索ViTs是否可以很容易地替代CNN用于醫(yī)學(xué)成像任務(wù),以及這樣做是否有優(yōu)勢(shì)。論文考慮一個(gè)典型從業(yè)者的用例,它配備了有限的計(jì)算預(yù)算和訪問(wèn)傳統(tǒng)醫(yī)學(xué)數(shù)據(jù)集的權(quán)限,著眼于“即插即用(plug-and-play)”的解決方案。為此,論文在三個(gè)主流的公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
通過(guò)這些實(shí)驗(yàn),得出以下結(jié)論:
在ImageNet上預(yù)先訓(xùn)練的ViTs在數(shù)據(jù)有限的情況下表現(xiàn)出與CNN相當(dāng)?shù)男阅堋?/strong> 在應(yīng)用標(biāo)準(zhǔn)訓(xùn)練方案和設(shè)置時(shí),遷移學(xué)習(xí)有利于ViTs。 當(dāng)自監(jiān)督的預(yù)訓(xùn)之后是監(jiān)督的微調(diào)時(shí),ViTs的表現(xiàn)要好于CNN。
這些發(fā)現(xiàn)表明,醫(yī)學(xué)圖像分析可以從CNN無(wú)縫過(guò)渡到ViTs,同時(shí)獲得更好的可解釋性特性。
Methods
論文調(diào)查的主要問(wèn)題是ViTs是否可以作為CNN的即插即用替代品用于醫(yī)療診斷任務(wù)。為此,進(jìn)行了一系列實(shí)驗(yàn),以比較ViTs和CNN在相似條件下的差異,將超參數(shù)調(diào)整保持在最低限度。為了確保比較的公正性和可解釋性,選擇了具有代表性的ResNet50,以及帶有16x16 Tokens的Deit-S作為ViT。之所以選擇這些型號(hào),是因?yàn)樗鼈冊(cè)趨?shù)數(shù)量、內(nèi)存需求和計(jì)算方面具有可比性。
如上所述,當(dāng)數(shù)據(jù)不太豐富時(shí),CNN依賴初始化策略來(lái)提高性能,醫(yī)學(xué)圖像就是這種情況。標(biāo)準(zhǔn)的方法是使用遷移學(xué)習(xí)-用ImageNet上預(yù)訓(xùn)練的權(quán)重來(lái)初始化模型,并在目標(biāo)域上微調(diào)。
因此,論文考慮了三種初始化策略:(1)隨機(jī)初始化權(quán)重,(2)使用監(jiān)督ImageNet預(yù)訓(xùn)練權(quán)值的遷移學(xué)習(xí),(3)在目標(biāo)數(shù)據(jù)集上的自監(jiān)督預(yù)訓(xùn)練,在初始化之后,如(2)所示。將這些策略應(yīng)用于三個(gè)標(biāo)準(zhǔn)醫(yī)學(xué)成像數(shù)據(jù)集,以覆蓋不同的目標(biāo)域:
APTOS 2019-在此數(shù)據(jù)集中,任務(wù)是將糖尿病視網(wǎng)膜病變圖像分類為5類疾病嚴(yán)重程度。Aptos 2019包含3662張高分辨率視網(wǎng)膜圖像。
ISIC 2019-任務(wù)是將25,333張皮膚鏡圖像從九種不同的皮膚損傷診斷類別中分類。
CBIS-DDSM-此數(shù)據(jù)集包含10,239張乳房X光照片,任務(wù)是檢測(cè)乳房X光照片中是否存在腫塊。
Experiments

CNN與ViTs在不同初始化策略下的比較
1. 隨機(jī)初始化的transformer有用嗎?
首先將Deit-S與具有隨機(jī)初始化權(quán)重的ResNet50進(jìn)行比較(Kaiming初始化)。上表中的結(jié)果表明,在這種設(shè)置下,CNN在所有方面都遠(yuǎn)遠(yuǎn)超過(guò)ViTs。這些結(jié)果與之前在自然圖像領(lǐng)域的觀察結(jié)果一致,在自然圖像領(lǐng)域,在有限數(shù)據(jù)上訓(xùn)練的ViTs表現(xiàn)優(yōu)于類似大小的CNN,這一趨勢(shì)被歸因于ViT缺乏歸納偏差。由于大多數(shù)醫(yī)學(xué)成像數(shù)據(jù)集的大小適中,隨機(jī)初始化的ViTs的用處似乎是有限的。
2. ImageNet上的預(yù)訓(xùn)練transformer在醫(yī)學(xué)圖像領(lǐng)域工作嗎?
在醫(yī)學(xué)圖像數(shù)據(jù)集上,隨機(jī)初始化在實(shí)踐中很少使用。標(biāo)準(zhǔn)步驟是通過(guò)用ImageNet預(yù)先訓(xùn)練的權(quán)重初始化網(wǎng)絡(luò),然后對(duì)來(lái)自目標(biāo)域的數(shù)據(jù)進(jìn)行微調(diào)來(lái)訓(xùn)練CNN。在這里,論文調(diào)查了這種方法是否可以有效地應(yīng)用于ViTs。為了測(cè)試這一點(diǎn),論文使用已在ImageNet上以完全監(jiān)督的方式預(yù)先訓(xùn)練的權(quán)重來(lái)初始化所有模型。然后,使用上述過(guò)程進(jìn)行微調(diào)。
上表中的結(jié)果表明,CNN和ViTs都從ImageNet初始化中獲得了顯著的好處。事實(shí)上,ViT似乎受益更多,因?yàn)樗鼈兊谋憩F(xiàn)與CNN不相上下。這表明,當(dāng)使用ImageNet進(jìn)行初始化時(shí),CNN可以用ViTs代替,而不會(huì)影響使用中等大小訓(xùn)練數(shù)據(jù)的醫(yī)學(xué)成像任務(wù)的性能。
3.醫(yī)學(xué)圖像領(lǐng)域的transformer使用自監(jiān)督是否有益?
最近的自我監(jiān)督學(xué)習(xí)方案,如Dino和BYOL,都采用監(jiān)督學(xué)習(xí)的方法。此外,如果將它們用于預(yù)訓(xùn)練和有監(jiān)督的微調(diào),它們可以達(dá)到新的SOTA。雖然這一現(xiàn)象在較大的數(shù)據(jù)系統(tǒng)中已經(jīng)在CNN和ViTs中得到證實(shí),但目前還不清楚ViTs的自我監(jiān)督預(yù)訓(xùn)練是否有助于醫(yī)學(xué)成像任務(wù),特別是在中等和低尺寸數(shù)據(jù)上。
為了驗(yàn)證這一點(diǎn),論文采用了Dino的自監(jiān)督學(xué)習(xí)方案,該方案可以很容易地應(yīng)用于CNN和ViTs。Dino使用自蒸餾(self-distillation)來(lái)鼓勵(lì)學(xué)生和教師網(wǎng)絡(luò)在不同的擴(kuò)充輸入的情況下產(chǎn)生相似的表示。自監(jiān)督預(yù)訓(xùn)練從ImageNet初始化開始,然后按照原論文作者建議的默認(rèn)設(shè)置對(duì)目標(biāo)醫(yī)療領(lǐng)域數(shù)據(jù)應(yīng)用自我監(jiān)督學(xué)習(xí)-除了三個(gè)小的變化:(1)基本學(xué)習(xí)率設(shè)置為0.0001,(2)初始權(quán)重衰減設(shè)置為10‘5,并使用余弦進(jìn)度表增加到10’4,以及(3)使用的均方根均值為0.99。CNN和ViTs使用相同的設(shè)置;兩者都使用256的批次大小進(jìn)行了300個(gè)周期的預(yù)訓(xùn)練,然后進(jìn)行了微調(diào)。
上表中報(bào)告的結(jié)果顯示,ViTs和CNN在自監(jiān)督的預(yù)訓(xùn)練中都表現(xiàn)得更好。在這種情況下,ViTs的表現(xiàn)似乎優(yōu)于CNN,盡管差距很小。對(duì)自然圖像的研究表明,VITS和CNN之間的差距將隨著更多的數(shù)據(jù)而擴(kuò)大。
Conclusion
本文研究比較了CNN和ViTs在三種不同初始化策略下在醫(yī)學(xué)圖像任務(wù)中的表現(xiàn)。研究了自監(jiān)督預(yù)訓(xùn)練對(duì)醫(yī)學(xué)圖像領(lǐng)域的影響。
結(jié)果表明,ViTs和CNNS的改善幅度很小,但持續(xù)不變。雖然使用自監(jiān)督ViTs獲得了最佳的整體性能,但有趣的是,在這種低數(shù)據(jù)區(qū)域中,我們還沒(méi)有看到有利于先前在具有更多數(shù)據(jù)的自然圖像領(lǐng)域中報(bào)告的ViTs的強(qiáng)大優(yōu)勢(shì),例如在中,由于專家標(biāo)注的成本,很少有大的標(biāo)記的醫(yī)學(xué)圖像數(shù)據(jù)集,但是可能收集大量未標(biāo)記的圖像。這表明,這是一個(gè)誘人的機(jī)會(huì),可以將自監(jiān)督應(yīng)用于大型醫(yī)學(xué)圖像數(shù)據(jù)集,其中只有一小部分被標(biāo)記。
總結(jié)發(fā)現(xiàn),對(duì)于醫(yī)學(xué)圖像領(lǐng)域:
正如預(yù)期的那樣,如果簡(jiǎn)單地從頭開始訓(xùn)練,在低數(shù)據(jù)制度下,ViTs比CNN更糟糕。 遷移學(xué)習(xí)彌合了CNN和ViTs之間的性能差距;性能相似。 通過(guò)自監(jiān)督的預(yù)訓(xùn)練+微調(diào)獲得最佳性能,ViTs與同類CNN相比略有優(yōu)勢(shì)。
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“transformer”獲取最新Transformer綜述論文下載~

#?CV技術(shù)社群邀請(qǐng)函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開發(fā)者互動(dòng)交流~

