點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
來(lái)源:機(jī)器之心
世界上從來(lái)不缺少摳圖工具,但始終缺少更完美的摳圖工具(尤其是對(duì)于手殘黨來(lái)說(shuō))。

在傳統(tǒng)年代,人們能想到最精準(zhǔn)的摳圖方法,大概是 Photoshop 之類的專業(yè)圖像處理軟件,顯然這種處理方式會(huì)很繁瑣。隨著人工智能技術(shù)的發(fā)展,從業(yè)者開始嘗試將最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)融入到圖像處理工作之中。這些開源算法最終變成了各種各樣的在線摳圖程序,最重要的是——它們的操作方法非常簡(jiǎn)單且完全免費(fèi)。
比如「Remove.bg」,你只需要上傳圖片,網(wǎng)站就能識(shí)別其中的主體并去除背景,最終返回一張透明背景的 PNG 格式圖片。盡管在前景與背景之間邊界處理上存在瑕疵,但借助 AI 來(lái)?yè)笀D確實(shí)比自己動(dòng)手要便捷,不是嗎?
網(wǎng)站地址:https://www.remove.bg/近日,一款名為「ObjectCut」的圖像處理新工具進(jìn)入了大家的視野。你甚至不需事先將圖片下載到本地,只需要輸入圖片網(wǎng)址,即可得到一張去除背景后的圖片。

項(xiàng)目作者表示,這一工具所使用方法基于 CVPR 2019 論文《BASNet: Boundary-Aware Salient Object Detection》,并使用了一些相關(guān)的公開數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,包括 ECSSD、SOD、DUTS 等。
論文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Qin_BASNet_Boundary-Aware_Salient_Object_Detection_CVPR_2019_paper.pdf巧合的是,前段時(shí)間在社交網(wǎng)絡(luò)上大火的「隔空移物」神器 AR Cut & Paste,也是基于 BASNet 來(lái)執(zhí)行顯著目標(biāo)檢測(cè)和背景移除的,不管是盆栽、衣服還是書本,可見即可拷,一鍵操作就能將任何主體挪進(jìn) Photoshop 變?yōu)閳D像素材。深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于顯著目標(biāo)檢測(cè)(Salient object detection),并獲得了 SOTA 的性能。但先前研究的重點(diǎn)大多集中在區(qū)域準(zhǔn)確率而非邊界質(zhì)量上。因此,在本文中,來(lái)自加拿大阿爾伯塔大學(xué)的研究者提出了一種預(yù)測(cè)優(yōu)化架構(gòu) BASNet,以及一種用于邊界感知顯著目標(biāo)檢測(cè)(Boundary-Aware Salient object detection)的新型混合損失。論文的第一作者秦雪彬曾就讀于山東農(nóng)業(yè)大學(xué)和北京大學(xué),現(xiàn)在是阿爾伯塔大學(xué)的博士后研究員。具體而言,該架構(gòu)由密集監(jiān)督的編碼器 - 解碼器網(wǎng)絡(luò)和殘差優(yōu)化模塊組成。它們分別負(fù)責(zé)顯著性預(yù)測(cè)和顯著圖優(yōu)化。混合損失通過(guò)集合二進(jìn)制交叉熵(Binary Cross Entropy, BCE)、結(jié)構(gòu)相似性(Structural SIMilarity, SSIM)和交并比(Intersectionover-Union, IoU)損失,指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)輸入圖像和真值(ground-truth)之間的轉(zhuǎn)換。借助于混合損失,預(yù)測(cè)優(yōu)化架構(gòu)能夠有效地分割顯著目標(biāo)區(qū)域,并準(zhǔn)確地預(yù)測(cè)具有清晰邊界的精細(xì)結(jié)構(gòu)。在六個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,無(wú)論是在區(qū)域評(píng)估還是在邊界評(píng)估方面,該研究提出的方法都優(yōu)于當(dāng)前 SOTA 方法。如下圖 2 所示,本研究提出的 BASNet 包含兩個(gè)模塊,分別是預(yù)測(cè)模塊(Predict Module)和殘差優(yōu)化模塊(Residual Refinement Module, RRM)。預(yù)測(cè)模塊是一個(gè)類 U-Net 的密集監(jiān)督式編碼器 - 解碼器網(wǎng)絡(luò),它學(xué)習(xí)預(yù)測(cè)出自輸入圖像的顯著圖;多尺度殘差精煉模塊通過(guò)學(xué)習(xí)顯著圖和真值之間的殘差來(lái)優(yōu)化預(yù)測(cè)模塊得到的顯著圖。
受 U-Net[57] 和 SegNet[2] 的啟發(fā),研究者在設(shè)計(jì)中將顯著目標(biāo)預(yù)測(cè)模塊作為編碼器 - 解碼器網(wǎng)絡(luò),因?yàn)檫@種架構(gòu)能夠同時(shí)捕獲高級(jí)全局上下文和低級(jí)細(xì)節(jié)。為了減少過(guò)擬合,每個(gè)解碼器階段的最后一層都受到了 HED[67] 啟發(fā)的真值的監(jiān)督。編碼器部分具有一個(gè)輸入卷積層和六個(gè)由基本殘差塊組成的階段。輸入卷積層和前四個(gè)階段均采用 ResNet-34[16]。優(yōu)化模塊(RM)[22, 6] 通常被設(shè)計(jì)成殘差塊,通過(guò)學(xué)習(xí)顯著圖和真值之間的殘差 S_residual 來(lái)細(xì)化預(yù)測(cè)的粗略顯著圖 S_coarse,其中:
在提出優(yōu)化模塊之前,研究者定義了術(shù)語(yǔ)「粗略(coarse)」。在此,粗略包含兩方面的意思:一種是模糊和有噪聲的邊界(如下圖 3(b) 中 one-dimension(1D) 所示)。另一種情況是不均勻預(yù)測(cè)的區(qū)域概率(如圖 3(c) 所示)。實(shí)際預(yù)測(cè)的粗略顯著圖通常包含兩種情況(見圖 3(d))。如下圖 4(a) 所示,基于局部上下文的殘差細(xì)化模塊(RRM LC)最初是用于邊界優(yōu)化。
為了在粗略顯著圖中同時(shí)優(yōu)化區(qū)域和邊界,研究者提出了一種新的殘差優(yōu)化模塊,它采用殘差編碼器 - 解碼器架構(gòu) RRM_ Ours(如上圖 2 和下圖 4(c) 所示)。RRM_Ours 的主要架構(gòu)與預(yù)測(cè)模塊相似,但更加簡(jiǎn)單,包含輸入層、編碼器、橋、解碼器和輸出層。與預(yù)測(cè)模塊不同的是,它的編碼器和解碼器都有 4 個(gè)階段,每個(gè)階段都只有一個(gè)卷積層。

為了獲得高質(zhì)區(qū)域分割和清晰邊界,研究者提出將 ?^ (k) 定義為一個(gè)混合損失:
其中,?^ (k)_ bce 表示 BCE 損失,? ^(k)_ ssim 表示 SSIM 損失, ? ^(k)_ iou 表示 IoU 損失,這三種損失的影響如下圖 5 所示:
實(shí)驗(yàn)設(shè)置及結(jié)果研究者在 6 個(gè)常用的基準(zhǔn)數(shù)據(jù)集上對(duì)該方法展開評(píng)估,它們分別為 SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS 和 DUTS。實(shí)驗(yàn)采用的評(píng)估指標(biāo)有 4 種,分別為精確率 - 召回率(Rrecision-Recall, PR)曲線、F 度量(F-measure)、平均絕對(duì)誤差(Mean Absolute Error, MAE)和 relaxed F-measure of boundary(relaxF^b_β)。研究者首先驗(yàn)證了模型中每個(gè)關(guān)鍵組件的有效性??刂谱兞垦芯堪瑑刹糠謨?nèi)容:架構(gòu)和損失,并且相關(guān)實(shí)驗(yàn)在 ECSSD 數(shù)據(jù)集上展開。下表 1 展示了控制變量研究的結(jié)果??梢钥吹?,BASNet 架構(gòu)在這些配置下實(shí)現(xiàn)了最佳性能:
為了進(jìn)一步闡釋損失的定性效果,研究者在不同的損失設(shè)置下對(duì) BASNet 進(jìn)行訓(xùn)練,結(jié)果如下圖 7 所示。很明顯,本研究提出的混合損失取得了非常好的定性結(jié)果。
此外,為了評(píng)估分割顯著性目標(biāo)(salient object)的質(zhì)量,研究者在圖 6 中展示了 ECSSD、DUT-OMRON、PASCAL-S、HKU-IS 和 DUTS-TE 等 5 個(gè)最大數(shù)據(jù)集的 PR 曲線和 F-measure 曲線。
如下表 2 所示,研究者展示了 BASNet 與其他 15 種方法在 SOD、ECSSD 等 6 個(gè)數(shù)據(jù)集上的最大 F-measure(maxF_β)、relaxed boundary F-measure(relaxF^b_β)和 MAE 結(jié)果比較:
最后,為了進(jìn)一步闡釋 BASNet 的優(yōu)越性能,研究者在下圖 8 中展示了與其他 7 種同類方法的定性比較結(jié)果,可以看到,BASNet 可以對(duì)不同挑戰(zhàn)性場(chǎng)景中的顯著性目標(biāo)實(shí)現(xiàn)準(zhǔn)確分割。
下載1:動(dòng)手學(xué)深度學(xué)習(xí)
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):動(dòng)手學(xué)深度學(xué)習(xí),即可下載547頁(yè)《動(dòng)手學(xué)深度學(xué)習(xí)》電子書和源碼。該書是面向中文讀者的能運(yùn)行、可討論的深度學(xué)習(xí)教科書,它將文字、公式、圖像、代碼和運(yùn)行結(jié)果結(jié)合在一起。本書將全面介紹深度學(xué)習(xí)從模型構(gòu)造到模型訓(xùn)練,以及它們?cè)谟?jì)算機(jī)視覺和自然語(yǔ)言處理中的應(yīng)用。
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載20個(gè)有趣的OpenCV實(shí)戰(zhàn)項(xiàng)目請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
