點(diǎn)擊上方“AI算法與圖像處理”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

來(lái)源：機(jī)器之心

世界上從來(lái)不缺少摳圖工具，但始終缺少更完美的摳圖工具（尤其是對(duì)于手殘黨來(lái)說(shuō)）。

在傳統(tǒng)年代，人們能想到最精準(zhǔn)的摳圖方法，大概是 Photoshop 之類的專業(yè)圖像處理軟件，顯然這種處理方式會(huì)很繁瑣。隨著人工智能技術(shù)的發(fā)展，從業(yè)者開始嘗試將最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)融入到圖像處理工作之中。這些開源算法最終變成了各種各樣的在線摳圖程序，最重要的是——它們的操作方法非常簡(jiǎn)單且完全免費(fèi)。

比如「Remove.bg」，你只需要上傳圖片，網(wǎng)站就能識(shí)別其中的主體并去除背景，最終返回一張透明背景的 PNG 格式圖片。盡管在前景與背景之間邊界處理上存在瑕疵，但借助 AI 來(lái)?yè)笀D確實(shí)比自己動(dòng)手要便捷，不是嗎？

網(wǎng)站地址：https://www.remove.bg/

近日，一款名為「ObjectCut」的圖像處理新工具進(jìn)入了大家的視野。你甚至不需事先將圖片下載到本地，只需要輸入圖片網(wǎng)址，即可得到一張去除背景后的圖片。

https://objectcut.com/

使用教程演示。

項(xiàng)目作者表示，這一工具所使用方法基于 CVPR 2019 論文《BASNet: Boundary-Aware Salient Object Detection》，并使用了一些相關(guān)的公開數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練，包括 ECSSD、SOD、DUTS 等。

論文地址：https://openaccess.thecvf.com/content_CVPR_2019/papers/Qin_BASNet_Boundary-Aware_Salient_Object_Detection_CVPR_2019_paper.pdf

巧合的是，前段時(shí)間在社交網(wǎng)絡(luò)上大火的「隔空移物」神器 AR Cut & Paste，也是基于 BASNet 來(lái)執(zhí)行顯著目標(biāo)檢測(cè)和背景移除的，不管是盆栽、衣服還是書本，可見即可拷，一鍵操作就能將任何主體挪進(jìn) Photoshop 變?yōu)閳D像素材。

所以，大家都在用的 BASNet，為何如此神奇？

BASNet 論文詳解

深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于顯著目標(biāo)檢測(cè)（Salient object detection），并獲得了 SOTA 的性能。但先前研究的重點(diǎn)大多集中在區(qū)域準(zhǔn)確率而非邊界質(zhì)量上。

因此，在本文中，來(lái)自加拿大阿爾伯塔大學(xué)的研究者提出了一種預(yù)測(cè)優(yōu)化架構(gòu) BASNet，以及一種用于邊界感知顯著目標(biāo)檢測(cè)（Boundary-Aware Salient object detection）的新型混合損失。論文的第一作者秦雪彬曾就讀于山東農(nóng)業(yè)大學(xué)和北京大學(xué)，現(xiàn)在是阿爾伯塔大學(xué)的博士后研究員。

具體而言，該架構(gòu)由密集監(jiān)督的編碼器 - 解碼器網(wǎng)絡(luò)和殘差優(yōu)化模塊組成。它們分別負(fù)責(zé)顯著性預(yù)測(cè)和顯著圖優(yōu)化。混合損失通過(guò)集合二進(jìn)制交叉熵（Binary Cross Entropy, BCE）、結(jié)構(gòu)相似性（Structural SIMilarity, SSIM）和交并比（Intersectionover-Union, IoU）損失，指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)輸入圖像和真值（ground-truth）之間的轉(zhuǎn)換。

借助于混合損失，預(yù)測(cè)優(yōu)化架構(gòu)能夠有效地分割顯著目標(biāo)區(qū)域，并準(zhǔn)確地預(yù)測(cè)具有清晰邊界的精細(xì)結(jié)構(gòu)。

在六個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，無(wú)論是在區(qū)域評(píng)估還是在邊界評(píng)估方面，該研究提出的方法都優(yōu)于當(dāng)前 SOTA 方法。

如下圖 2 所示，本研究提出的 BASNet 包含兩個(gè)模塊，分別是預(yù)測(cè)模塊（Predict Module）和殘差優(yōu)化模塊（Residual Refinement Module, RRM）。

預(yù)測(cè)模塊是一個(gè)類 U-Net 的密集監(jiān)督式編碼器 - 解碼器網(wǎng)絡(luò)，它學(xué)習(xí)預(yù)測(cè)出自輸入圖像的顯著圖；多尺度殘差精煉模塊通過(guò)學(xué)習(xí)顯著圖和真值之間的殘差來(lái)優(yōu)化預(yù)測(cè)模塊得到的顯著圖。

BASNet 整體架構(gòu)。

預(yù)測(cè)模塊

受 U-Net[57] 和 SegNet[2] 的啟發(fā)，研究者在設(shè)計(jì)中將顯著目標(biāo)預(yù)測(cè)模塊作為編碼器 - 解碼器網(wǎng)絡(luò)，因?yàn)檫@種架構(gòu)能夠同時(shí)捕獲高級(jí)全局上下文和低級(jí)細(xì)節(jié)。為了減少過(guò)擬合，每個(gè)解碼器階段的最后一層都受到了 HED[67] 啟發(fā)的真值的監(jiān)督。編碼器部分具有一個(gè)輸入卷積層和六個(gè)由基本殘差塊組成的階段。輸入卷積層和前四個(gè)階段均采用 ResNet-34[16]。

優(yōu)化模塊

優(yōu)化模塊（RM）[22, 6] 通常被設(shè)計(jì)成殘差塊，通過(guò)學(xué)習(xí)顯著圖和真值之間的殘差 S_residual 來(lái)細(xì)化預(yù)測(cè)的粗略顯著圖 S_coarse，其中：

在提出優(yōu)化模塊之前，研究者定義了術(shù)語(yǔ)「粗略（coarse）」。在此，粗略包含兩方面的意思：一種是模糊和有噪聲的邊界（如下圖 3(b) 中 one-dimension(1D) 所示）。另一種情況是不均勻預(yù)測(cè)的區(qū)域概率（如圖 3(c) 所示）。

實(shí)際預(yù)測(cè)的粗略顯著圖通常包含兩種情況（見圖 3(d)）。如下圖 4(a) 所示，基于局部上下文的殘差細(xì)化模塊（RRM LC）最初是用于邊界優(yōu)化。

為了在粗略顯著圖中同時(shí)優(yōu)化區(qū)域和邊界，研究者提出了一種新的殘差優(yōu)化模塊，它采用殘差編碼器 - 解碼器架構(gòu) RRM_ Ours（如上圖 2 和下圖 4(c) 所示）。

RRM_Ours 的主要架構(gòu)與預(yù)測(cè)模塊相似，但更加簡(jiǎn)單，包含輸入層、編碼器、橋、解碼器和輸出層。與預(yù)測(cè)模塊不同的是，它的編碼器和解碼器都有 4 個(gè)階段，每個(gè)階段都只有一個(gè)卷積層。

混合損失

訓(xùn)練損失被定義為所有輸出的總和：

為了獲得高質(zhì)區(qū)域分割和清晰邊界，研究者提出將 ?^ (k) 定義為一個(gè)混合損失：

其中，?^ (k)_ bce 表示 BCE 損失，? ^(k)_ ssim 表示 SSIM 損失， ? ^(k)_ iou 表示 IoU 損失，這三種損失的影響如下圖 5 所示：

實(shí)驗(yàn)設(shè)置及結(jié)果

研究者在 6 個(gè)常用的基準(zhǔn)數(shù)據(jù)集上對(duì)該方法展開評(píng)估，它們分別為 SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS 和 DUTS。

實(shí)驗(yàn)采用的評(píng)估指標(biāo)有 4 種，分別為精確率 - 召回率（Rrecision-Recall, PR）曲線、F 度量（F-measure）、平均絕對(duì)誤差（Mean Absolute Error, MAE）和 relaxed F-measure of boundary（relaxF^b_β）。

研究者首先驗(yàn)證了模型中每個(gè)關(guān)鍵組件的有效性?？刂谱兞垦芯堪瑑刹糠謨?nèi)容：架構(gòu)和損失，并且相關(guān)實(shí)驗(yàn)在 ECSSD 數(shù)據(jù)集上展開。

下表 1 展示了控制變量研究的結(jié)果?？梢钥吹?，BASNet 架構(gòu)在這些配置下實(shí)現(xiàn)了最佳性能：

為了進(jìn)一步闡釋損失的定性效果，研究者在不同的損失設(shè)置下對(duì) BASNet 進(jìn)行訓(xùn)練，結(jié)果如下圖 7 所示。很明顯，本研究提出的混合損失取得了非常好的定性結(jié)果。

此外，為了評(píng)估分割顯著性目標(biāo)（salient object）的質(zhì)量，研究者在圖 6 中展示了 ECSSD、DUT-OMRON、PASCAL-S、HKU-IS 和 DUTS-TE 等 5 個(gè)最大數(shù)據(jù)集的 PR 曲線和 F-measure 曲線。

如下表 2 所示，研究者展示了 BASNet 與其他 15 種方法在 SOD、ECSSD 等 6 個(gè)數(shù)據(jù)集上的最大 F-measure（maxF_β）、relaxed boundary F-measure（relaxF^b_β）和 MAE 結(jié)果比較：

最后，為了進(jìn)一步闡釋 BASNet 的優(yōu)越性能，研究者在下圖 8 中展示了與其他 7 種同類方法的定性比較結(jié)果，可以看到，BASNet 可以對(duì)不同挑戰(zhàn)性場(chǎng)景中的顯著性目標(biāo)實(shí)現(xiàn)準(zhǔn)確分割。

下載1：動(dòng)手學(xué)深度學(xué)習(xí)

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：動(dòng)手學(xué)深度學(xué)習(xí)，即可下載547頁(yè)《動(dòng)手學(xué)深度學(xué)習(xí)》電子書和源碼。該書是面向中文讀者的能運(yùn)行、可討論的深度學(xué)習(xí)教科書，它將文字、公式、圖像、代碼和運(yùn)行結(jié)果結(jié)合在一起。本書將全面介紹深度學(xué)習(xí)從模型構(gòu)造到模型訓(xùn)練，以及它們?cè)谟?jì)算機(jī)視覺和自然語(yǔ)言處理中的應(yīng)用。

下載2

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載20個(gè)有趣的OpenCV實(shí)戰(zhàn)項(xiàng)目

個(gè)人微信（如果沒有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

一鍵摳圖&效果炸裂、隔空移物，這篇CVPR華人論文幫你搞定

重磅干貨，第一時(shí)間送達(dá)

一鍵摳圖&效果炸裂、隔空移物，這篇CVPR華人論文幫你搞定

重磅干貨，第一時(shí)間送達(dá)