醫(yī)學(xué)圖像領(lǐng)域,是時候用視覺Transformer替代CNN了嗎?
點擊下方卡片,關(guān)注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
本文轉(zhuǎn)載自:集智書童

1簡介
在自動醫(yī)學(xué)圖像診斷的領(lǐng)域中卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法已經(jīng)統(tǒng)治了將近十年之久。最近,vision transformers(ViTs)作為CNN的一個有競爭力的替代方法出現(xiàn)了,它具有差不多的性能,同時還具有一些有趣的特性,同時也已經(jīng)被證明對醫(yī)學(xué)成像任務(wù)有益。
在這項工作中,作者探討了是時候用基于transformer的模型了?還是應(yīng)該繼續(xù)使用CNN,還是可以簡單地切換到transformer?
如果是,那么切換到vit進行醫(yī)學(xué)影像診斷有哪些優(yōu)點和缺點?作者在3種主流醫(yī)學(xué)圖像數(shù)據(jù)集上進行了一系列實驗來考慮這些問題。
研究結(jié)果表明,雖然CNN在從頭開始訓(xùn)練時表現(xiàn)更好,但在ImageNet上預(yù)訓(xùn)練時,使用默認超參數(shù)的vision transformer與CNN相當(dāng),而在使用自監(jiān)督預(yù)訓(xùn)練時vision transformer則優(yōu)于CNN。
2介紹
對于vision transformer來說,注意力機制提供了幾個關(guān)鍵的優(yōu)勢:
它捕獲了long-range relationships; 它具有通過動態(tài)進行自適應(yīng)建模的能力; 它提供了一種內(nèi)置的顯著性,可以洞察模型關(guān)注于的是什么。
然而,有證據(jù)表明,vision transformer需要非常大的數(shù)據(jù)集才能超過CNN,ViT的性能只有在谷歌私有圖像數(shù)據(jù)集JFT-300M進行預(yù)訓(xùn)練才能夠得到體現(xiàn)。這個問題在醫(yī)學(xué)成像領(lǐng)域尤其嚴重,因為該領(lǐng)域的數(shù)據(jù)集更小,往往伴有不太可靠的標(biāo)簽。
與ViT一樣,當(dāng)數(shù)據(jù)匱乏時,CNN的性能會更差。標(biāo)準(zhǔn)的解決方案是使用遷移學(xué)習(xí):通常,模型在ImageNet等較大的數(shù)據(jù)集上進行預(yù)訓(xùn)練,然后使用較小的專門數(shù)據(jù)集對特定任務(wù)進行微調(diào)。
在醫(yī)學(xué)領(lǐng)域,在ImageNet進行預(yù)訓(xùn)練的模型在最終表現(xiàn)和減少的訓(xùn)練時間方面都優(yōu)于從零開始訓(xùn)練的模型。
自監(jiān)督是一種處理未標(biāo)記數(shù)據(jù)的學(xué)習(xí)方法,近年來受到了廣泛關(guān)注。已有研究表明,在進行微調(diào)之前,在目標(biāo)域進行自監(jiān)督預(yù)訓(xùn)練可以提高CNN的性能。同時從ImageNet初始化有助于自監(jiān)督CNN收斂更快,通常也具有更好的預(yù)測性能。
這些處理醫(yī)學(xué)圖像領(lǐng)域數(shù)據(jù)匱乏的技術(shù)已被證明對CNN有效,但目前尚不清楚vision transformer是否同樣受益。一些研究表明,使用ImageNet進行醫(yī)學(xué)圖像分析的預(yù)訓(xùn)練CNN并不依賴于特征重用,而是由于更好的初始化和權(quán)重縮放。那么vision transformer是否能從這些技術(shù)中獲益?如果可以,就沒有什么能阻止vit成為醫(yī)學(xué)圖像的主導(dǎo)架構(gòu)。
在這項工作中,作者探索了vit是否可以替代CNNs,同時考慮到易用性、數(shù)據(jù)集限制以及計算限制,作者著眼于“即插即用”解決方案。為此,作者在3個主流的公開數(shù)據(jù)集上進行了實驗。通過這些實驗發(fā)現(xiàn):
在數(shù)據(jù)有限時,CNNs與ViTs在ImageNet上預(yù)訓(xùn)練的性能差不多; 遷移學(xué)習(xí)有利于ViTs; 當(dāng)使用自監(jiān)督預(yù)訓(xùn)練之后再用有監(jiān)督的微調(diào)時,ViTs比CNNs表現(xiàn)更好。
這些發(fā)現(xiàn)表明,醫(yī)學(xué)圖像分析可以從CNN無縫過渡到ViTs,同時獲得更好的可解釋性。
3本文方法
作者研究的主題是,ViTs是否可以直接替代CNNs用于醫(yī)療診斷任務(wù)。為此,作者進行了一系列實驗,在類似條件下比較ViTs和CNNs,保持超參數(shù)調(diào)優(yōu)到最小。為了確保比較的公平性和可解釋性,作者選擇ResNet50作為CNN模型,使用 token作為ViT的DEIT-S。之所以選擇這些模型,是因為它們在參數(shù)數(shù)量、內(nèi)存需求和計算方面具有可比性。
如上所述,當(dāng)數(shù)據(jù)不夠豐富時,CNNs依賴于初始化策略來提高性能,醫(yī)學(xué)圖像就是如此。標(biāo)準(zhǔn)的方法是使用遷移學(xué)習(xí)(用ImageNet上預(yù)訓(xùn)練的權(quán)值初始化模型),并在目標(biāo)域上進行微調(diào)。
因此,作者考慮3種初始化策略:
隨機初始化權(quán)值 使用ImageNet預(yù)訓(xùn)練權(quán)值進行遷移學(xué)習(xí) 初始化后對目標(biāo)數(shù)據(jù)集進行自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)
數(shù)據(jù)增強策略:
normalization; color jitter: brightness contrast saturation hue horizontal flip vertical flip random resized crops
數(shù)據(jù)集:
APTOS 2019
在這個數(shù)據(jù)集中,任務(wù)是將糖尿病視網(wǎng)膜病變圖像分類為疾病嚴重程度的5類。APTOS 2019包含3662張高分辨率視網(wǎng)膜圖像。
ISIC 2019
這里的任務(wù)是將25333張皮膚鏡圖像在9種不同的皮膚病變診斷類別中進行分類。
CBIS-DDSM
該數(shù)據(jù)集包含10239張乳房x線照片,任務(wù)是檢測乳房x線照片中腫塊的存在。
數(shù)據(jù)集被分為train/test/valid(80/10/10),除了APTOS,由于其規(guī)模小,APTOS被分為70/15/15。所有監(jiān)督訓(xùn)練都使用ADAM優(yōu)化器,基本學(xué)習(xí)率為,warm-up周期為1000次迭代。當(dāng)驗證指標(biāo)達到飽和時,學(xué)習(xí)率會下降10倍,直到達到最終值。重復(fù)每個實驗5次,并選擇每次運行中驗證分數(shù)最高的checkpoint。
4實驗

4.1 隨機初始化Transformer模型是否有效?
將DEIT-S與具有隨機初始化權(quán)值(Kaiming初始化)的ResNet50進行比較。在這些實驗中,通過網(wǎng)格搜索將基礎(chǔ)學(xué)習(xí)率設(shè)置為0.0003。
表1的結(jié)果表明,在這種設(shè)置下,CNNs在各方面都大大優(yōu)于ViTs。
這些結(jié)果與之前在自然圖像領(lǐng)域的觀察結(jié)果一致,在有限的數(shù)據(jù)上訓(xùn)練CNNs優(yōu)于ViTs,這一趨勢歸因于ViT缺乏歸納偏差。由于大多數(shù)醫(yī)學(xué)影像數(shù)據(jù)集大小適中,隨機初始化的ViTs的用處似乎有限。
4.2 ImageNet上預(yù)訓(xùn)練ViTs是否適用于醫(yī)學(xué)圖像領(lǐng)域?
在醫(yī)學(xué)圖像數(shù)據(jù)集中,隨機初始化在實際應(yīng)用中很少使用。標(biāo)準(zhǔn)步驟是使用ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò),然后對來自目標(biāo)域的數(shù)據(jù)進行微調(diào)。
在這里,作者也研究了這種方法是否可以有效地應(yīng)用于ViTs。為了測試這一點,作者用在ImageNet上預(yù)訓(xùn)練過權(quán)重初始化所有模型。然后進行微調(diào)。表1中的結(jié)果表明,CNNs和ViTs都從ImageNet初始化中得到了顯著提升。事實上,ViTs受益更多,表現(xiàn)與CNN相當(dāng)。
這表明,當(dāng)使用ImageNet初始化時,可以用普通的ViTs替換CNNs,而不會影響使用中等規(guī)模訓(xùn)練數(shù)據(jù)的醫(yī)學(xué)成像任務(wù)的性能。
4.3 ViT是否能從醫(yī)療圖像領(lǐng)域的自監(jiān)督中獲益?
表1中結(jié)果顯示,ViTs和CNNs在自監(jiān)督的預(yù)訓(xùn)練中表現(xiàn)得更好。在這種情況下,ViTs的表現(xiàn)優(yōu)于CNNs,盡管差距很小。對自然圖像的研究表明ViTs和CNNs將隨著更多的數(shù)據(jù)增長。
5討論
作者比較了3種初始化策略下的醫(yī)學(xué)圖像任務(wù)cnn和vit的性能。實驗結(jié)果證實了之前的發(fā)現(xiàn),并提供了新的見解。
在醫(yī)學(xué)圖像中,正如之前在自然圖像領(lǐng)域所說的那樣,作者發(fā)現(xiàn),在低數(shù)據(jù)模式下從零開始訓(xùn)練時,cnn優(yōu)于vit。這一趨勢在所有數(shù)據(jù)集上都是一致的,并且很好地符合“Transformer缺乏歸納偏差”的論點。
令人驚訝的是,當(dāng)使用監(jiān)督ImageNet預(yù)訓(xùn)練權(quán)重初始化時,CNN和ViT性能之間的差距在醫(yī)療任務(wù)中消失了。在cnn上進行ImageNet預(yù)訓(xùn)練的好處是眾所周知的,但出乎意料的是,ViTs的受益也如此之大。這表明,可以通過與任務(wù)更密切相關(guān)的其他領(lǐng)域的遷移學(xué)習(xí)獲得進一步的改進,cnn的情況就是如此。
作者研究了自監(jiān)督預(yù)訓(xùn)練對醫(yī)學(xué)圖像域的影響。研究結(jié)果表明,vit和cnn有微小但一致的改善。而最佳的整體性能是使用自監(jiān)督+ViTs獲得的。
總結(jié)發(fā)現(xiàn),對于醫(yī)學(xué)圖像領(lǐng)域:
如果從零開始訓(xùn)練,那么在低數(shù)據(jù)下,vit比cnn更糟糕; 遷移學(xué)習(xí)在cnn和vit之間架起了橋梁;性能是相似的; 最好的表現(xiàn)是通過自監(jiān)督預(yù)訓(xùn)練+微調(diào)獲得的,其中ViTs比CNNs有小的優(yōu)勢。
6可解釋性
在醫(yī)學(xué)圖像任務(wù)中,vit似乎可以取代cnn,還有其他選擇vit而不是cnn的原因嗎?
我們應(yīng)該考慮可視化transformer attention maps的額外好處。transformer的自注意機制內(nèi)置了一個attention maps,它提供了模型如何做出決策的新方式。
cnn自然不適合把自己的突出形象表現(xiàn)出來。流行的CNN可解釋性方法,如類激活映射(CAM)和grada-CAM,由于池化層的存在,提供了粗糙的可視化。與CNN有限的接受域相比,transformer token提供了更精細的注意力圖像,而自注意映射明確地模擬了圖像中每個區(qū)域之間的交互。雖然可解釋性的質(zhì)量差異還有待量化,但許多人已經(jīng)注意到transformer的注意力在可解釋性方面所帶來的質(zhì)量改進。

圖1中展示了來自每個數(shù)據(jù)集的示例,以及ResNet-50的grade-cam可視化和 DEIT-S CLS token的前50%自注意。注意ViTs的自注意如何提供一個清晰的、局部的注意力圖,例如ISIC的皮膚病變邊界的注意力,APTOS的出血和滲出物的注意力,以及CBIS-DDSM的乳腺致密區(qū)域的注意力。這種關(guān)注粒度很難通過cnn實現(xiàn)。
