深度學(xué)習(xí)中的類(lèi)別激活熱圖可視化
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
推薦閱讀
來(lái)源:公眾號(hào)?AI公園?
作者:Valentina Alto
編譯:ronghuaiyang
使用Keras實(shí)現(xiàn)圖像分類(lèi)中的激活熱圖的可視化,幫助更有針對(duì)性的改進(jìn)模型。
類(lèi)別激活圖(CAM)是一種用于計(jì)算機(jī)視覺(jué)分類(lèi)任務(wù)的強(qiáng)大技術(shù)。它允許研究人員檢查被分類(lèi)的圖像,并了解圖像的哪些部分/像素對(duì)模型的最終輸出有更大的貢獻(xiàn)。
基本上,假設(shè)我們構(gòu)建一個(gè)CNN,目標(biāo)是將人的照片分類(lèi)為“男人”和“女人”,然后我們給它提供一個(gè)新照片,它返回標(biāo)簽“男人”。有了CAM工具,我們就能看到圖片的哪一部分最能激活“Man”類(lèi)。如果我們想提高模型的準(zhǔn)確性,必須了解需要修改哪些層,或者我們是否想用不同的方式預(yù)處理訓(xùn)練集圖像,這將非常有用。
在本文中,我將向你展示這個(gè)過(guò)程背后的思想。為了達(dá)到這個(gè)目的,我會(huì)使用一個(gè)在ImageNet上預(yù)訓(xùn)練好的CNN, Resnet50。
我在這個(gè)實(shí)驗(yàn)中要用到的圖像是,這只金毛獵犬:

首先,讓我們?cè)谶@張圖上嘗試一下我們預(yù)訓(xùn)練模型,讓它返回三個(gè)最有可能的類(lèi)別:
from?keras.applications.resnet50?import?ResNet50
from?keras.preprocessing?import?image
from?keras.applications.resnet50?import?preprocess_input,?decode_predictions
import?numpy?as?npmodel?=?ResNet50(weights='imagenet')img_path?=?'golden.jpg'
img?=?image.load_img(img_path,?target_size=(224,?224))
x?=?image.img_to_array(img)
x?=?np.expand_dims(x,?axis=0)
x?=?preprocess_input(x)preds?=?model.predict(x)
#?decode?the?results?into?a?list?of?tuples?(class,?description,?probability)
print('Predicted:',?decode_predictions(preds,?top=3)[0])

如你所見(jiàn),第一個(gè)結(jié)果恰好返回了我們正在尋找的類(lèi)別:Golden retriver。
現(xiàn)在我們的目標(biāo)是識(shí)別出我們的照片中最能激活黃金標(biāo)簽的部分。為此,我們將使用一種稱(chēng)為“梯度加權(quán)類(lèi)別激活映射(Grad-CAM)”的技術(shù)(官方論文:https://arxiv.org/abs/1610.02391)。
這個(gè)想法是這樣的:想象我們有一個(gè)訓(xùn)練好的CNN,我們給它提供一個(gè)新的圖像。它將為該圖像返回一個(gè)類(lèi)。然后,如果我們?nèi)∽詈笠粋€(gè)卷積層的輸出特征圖,并根據(jù)輸出類(lèi)別對(duì)每個(gè)通道的梯度對(duì)每個(gè)通道加權(quán),我們就得到了一個(gè)熱圖,它表明了輸入圖像中哪些部分對(duì)該類(lèi)別激活程度最大。
讓我們看看使用Keras的實(shí)現(xiàn)。首先,讓我們檢查一下我們預(yù)先訓(xùn)練過(guò)的ResNet50的結(jié)構(gòu),以確定我們想要檢查哪個(gè)層。由于網(wǎng)絡(luò)結(jié)構(gòu)很長(zhǎng),我將在這里只顯示最后的block:
from?keras.utils?import?plot_model
plot_model(model)

讓我們使用最后一個(gè)激活層activation_49來(lái)提取我們的feature map。
golden?=?model.output[:,?np.argmax(preds[0])]
last_conv_layer?=?model.get_layer('activation_49')
from?keras?import?backend?as?K
grads?=?K.gradients(golden,?last_conv_layer.output)[0]
pooled_grads?=?K.mean(grads,?axis=(0,?1,?2))
iterate?=?K.function([model.input],?[pooled_grads,?last_conv_layer.output[0]])
pooled_grads_value,?conv_layer_output_value?=?iterate([x])
for?i?in?range(pooled_grads.shape[0]):
????conv_layer_output_value[:,?:,?i]?*=?pooled_grads_value[i]
heatmap?=?np.mean(conv_layer_output_value,?axis=-1)
import?matplotlib.pyplot?as?plt
heatmap?=?np.maximum(heatmap,?0)
heatmap?/=?np.max(heatmap)
plt.matshow(heatmap)

這個(gè)熱圖上看不出什么東西出來(lái)。因此,我們將該熱圖與輸入圖像合并如下:
import?cv2
img?=?cv2.imread(img_path)
heatmap?=?cv2.resize(heatmap,?(img.shape[1],?img.shape[0]))
heatmap?=?np.uint8(255?*?heatmap)
heatmap?=?cv2.applyColorMap(heatmap,?cv2.COLORMAP_JET)
merged=?heatmap?*?0.4?+?imgplt.imshow(merged)

如你所見(jiàn),圖像的某些部分(如鼻子部分)特別的指示出了輸入圖像的類(lèi)別。

英文原文:https://valentinaalto.medium.com/class-activation-maps-in-deep-learning-14101e2ec7e1
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


