<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          無需用戶輸入,Adobe提出自動生成高質(zhì)量合成圖像新方法

          共 3117字,需瀏覽 7分鐘

           ·

          2022-02-17 19:32

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          沒有用戶輸入,也能生成高質(zhì)量的合成圖像嗎?

          編輯:邁威AI研習(xí)社

          圖像合成是指組合不同圖像中的部分區(qū)域以合成一張新的圖像,一個常見的用例是肖像圖片的背景替換。為了獲得高質(zhì)量的合成圖像,經(jīng)常需要專業(yè)人員手動執(zhí)行多個編輯步驟,例如圖像分割、摳圖、前景色彩去污,即使使用復(fù)雜的圖像編輯工具,這些步驟也是非常耗時的。

          近日,Adobe 聯(lián)合約翰霍普金斯大學(xué)的研究者提出了一種無需用戶輸入即可生成高質(zhì)量合成圖像的新方法。該方法能夠進(jìn)行端到端的訓(xùn)練,以優(yōu)化對前景和背景圖像上下文和顏色信息的利用,其中在優(yōu)化過程中考慮了合成質(zhì)量。

          具體而言,受拉普拉斯金字塔融合(Laplacian pyramid blending)的啟發(fā),該研究提出一種密集連接的多流融合網(wǎng)絡(luò),以有效融合來自不同前景和背景圖像的信息。

          此外,該研究還引入了一種自學(xué)式(self-taught)的策略,以逐步訓(xùn)練從簡單到復(fù)雜的用例,進(jìn)而彌補(bǔ)訓(xùn)練數(shù)據(jù)不足的問題。實(shí)驗(yàn)表明,該方法能夠自動生成高質(zhì)量的合成圖像,并在定性和定量評估中均優(yōu)于現(xiàn)有方法。


          論文鏈接:https://arxiv.org/pdf/2011.02146.pdf


          論文簡介


          該研究提出了一種基于深度學(xué)習(xí)的圖像合成框架,可以在給定一對前景和背景圖像的情況下直接生成合成的肖像圖像。前景分割網(wǎng)絡(luò)與細(xì)化網(wǎng)絡(luò)一起用于提取肖像蒙版。基于肖像蒙版,研究者又提出了一種端到端多流融合(MLF)網(wǎng)絡(luò),從而以不同比例合成前景和背景圖像。

          MLF 網(wǎng)絡(luò)的設(shè)計思想來自拉普拉斯金字塔混合方法。它使用兩個編碼器分別提取前景和背景圖像的不同級別的特征圖,然后通過解碼器逐級融合,以重建最終的合成結(jié)果。該方法是全自動的,著重于緩解由于前景遮擋和顏色凈化不完善導(dǎo)致的邊界偽影。大體而言,該論文解決了圖像合成中顏色、外觀協(xié)調(diào)的正交問題。

          此外,該研究提出了一種從易到難的自學(xué)式數(shù)據(jù)增強(qiáng)方案,以生成用于訓(xùn)練 MLF 網(wǎng)絡(luò)的高質(zhì)量合成數(shù)據(jù)?;舅枷胧鞘褂迷诟唵螖?shù)據(jù)上進(jìn)行訓(xùn)練的 MLF 網(wǎng)絡(luò),以組合更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)性能提升。


          在合成圖像和真實(shí)圖像上評估的實(shí)驗(yàn)結(jié)果表明,該方法較以往方法更加有效。用戶研究的結(jié)果也驗(yàn)證了該方法卓越的感知質(zhì)量。


          深度圖像合成


          雖然在該論文中僅將其實(shí)現(xiàn)用于肖像合成,但該框架是通用的。研究者也希望將其用于其他圖像合成的應(yīng)用。

          該框架將一對前景和背景圖像作為輸入,并生成合成圖像。它由三個部分組成:前景分割網(wǎng)絡(luò)、蒙版細(xì)化網(wǎng)絡(luò)和多流融合網(wǎng)絡(luò)。、

          首先,分割網(wǎng)絡(luò)自動從前景圖像中提取對象蒙版,然后蒙版細(xì)化網(wǎng)絡(luò)將圖像和蒙版作為輸入以細(xì)化蒙版邊界,最后將重新定義的蒙版和前景背景圖像一起傳輸?shù)蕉嗔魅诤暇W(wǎng)絡(luò)以生成合成結(jié)果。

          多流融合圖像合成網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如下所示:


          從易到難的數(shù)據(jù)增強(qiáng)


          為了訓(xùn)練多流融合(MLF)網(wǎng)絡(luò),每個訓(xùn)練樣本都是三元組 [FG、BG、C]。其中 FG 是前景圖像,BG 是背景圖像,C 是 FG 和 BG 的目標(biāo)合成圖像。研究者希望 MLF 網(wǎng)絡(luò)學(xué)習(xí)在 FG 和 BG 之間產(chǎn)生視覺上的最佳合成效果,因此目標(biāo)圖像 C 的質(zhì)量是該方法的關(guān)鍵。但是手動創(chuàng)建高質(zhì)量的合成數(shù)據(jù)集需要專家級的人工操作,這就限制了訓(xùn)練數(shù)據(jù)收集的可擴(kuò)展性。

          為了解決該問題并生成無需人工干預(yù)就能進(jìn)行大規(guī)模圖像合成的數(shù)據(jù)集,該研究提出了一種使用自學(xué)式方案且易于處理的數(shù)據(jù)擴(kuò)展方法?;舅枷胧鞘褂?MLF 網(wǎng)絡(luò)生成更具挑戰(zhàn)性的數(shù)據(jù)以提升自身性能。

          該研究首先在一些簡單的三元組上訓(xùn)練 MLF 網(wǎng)絡(luò),其中前景圖像 FG 是具有簡單彩色背景的肖像圖像。然后收集了很多這樣的簡單肖像圖像,并使用 MLF 網(wǎng)絡(luò)為下一個訓(xùn)練階段生成更具挑戰(zhàn)性的訓(xùn)練三元組。

          該數(shù)據(jù)增強(qiáng)方案的結(jié)構(gòu)示意圖如下所示:


          下圖為自學(xué)式數(shù)據(jù)增強(qiáng)算法生成的三元組(前景、背景和目標(biāo))圖像,可以看出,該算法可以生成近乎完美的高質(zhì)量目標(biāo)圖像。


          實(shí)驗(yàn)


          研究者通過定量和定性評估來評估該深層圖像合成方法,并進(jìn)行了用戶研究,以評估用戶對合成結(jié)果的感知質(zhì)量偏好。最后,該研究還進(jìn)行了一些控制變量實(shí)驗(yàn)。實(shí)驗(yàn)所用數(shù)據(jù)集:DUTS、MSRA-10K 和 Portrait 分割數(shù)據(jù)集。該研究在這些數(shù)據(jù)集上訓(xùn)練了分割和細(xì)化網(wǎng)絡(luò)。在實(shí)現(xiàn)細(xì)節(jié)上,細(xì)分和優(yōu)化模塊通過 ADAM 算法進(jìn)行了優(yōu)化,學(xué)習(xí)速率為 2×10^?3,批處理大小是 8。所有用于細(xì)分和優(yōu)化模塊的訓(xùn)練樣本均調(diào)整為 256×256。

          該論文提出的方法與傳統(tǒng)基于混合的合成方法(如拉普拉斯金字塔混合法)進(jìn)行了比較。該研究還使用了 SOTA 摳圖方法評估基于摳圖的圖像合成方法。此外,該研究還比較了一種稱為復(fù)制粘貼(copypaste)的基線方法,該方法將從細(xì)化分割模塊估計的細(xì)化分割蒙版用于該合成的軟 alpha 蒙版。

          為了公平比較,所有被比較的方法都使用與該方法相同的細(xì)化蒙版。對于羽化(feathering)方法,研究者采用σ=2 的高斯模糊來軟化蒙版。對于拉普拉斯金字塔混合方法,該研究使用 OpenCV 實(shí)現(xiàn)。由于基于摳圖的方法需要三元圖(trimap),因此研究者對細(xì)化模板進(jìn)行了二值化處理,然后通過將寬度為 16 的窄邊界帶標(biāo)記為未知邊界來生成偽三元圖。

          樣本三元圖以及各種方法的生成效果如下圖 7 所示。需要注意的是,在基于摳圖的合成方法中采用了自動消色算法,以提高其合成質(zhì)量。



          如下表 1 所示,該研究根據(jù)合成數(shù)據(jù)評估的定量結(jié)果證明了該方法的有效性。注意:定量結(jié)果僅在未知區(qū)域上計算得到。



          此外,與其他方法對比的用戶研究結(jié)果如下表 2 所示:



          控制變量實(shí)驗(yàn)


          研究者進(jìn)行了 3 次控制變量實(shí)驗(yàn),在 SynTest 上的定量結(jié)果如下表 3 所示。其中 w/o-DataAug 代表沒有使用該方法的數(shù)據(jù)擴(kuò)展而訓(xùn)練的的網(wǎng)絡(luò),Single-Enc 代表一個具有單流編碼器的網(wǎng)絡(luò),w/o-RefNet 代表沒有分割細(xì)化的網(wǎng)絡(luò)的基線。該評估結(jié)果是僅在未知區(qū)域上得到的。


          真實(shí)圖像上控制變量實(shí)驗(yàn)的結(jié)果可參見下圖 8:



          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實(shí)戰(zhàn)項目,助力快速學(xué)校計算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項目20講,即可下載含有20個基于OpenCV實(shí)現(xiàn)20個實(shí)戰(zhàn)項目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 67
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  丁香五月婷婷在线观看 | 青娱乐永久在线视频 | 在线中文字幕亚洲 | 中文字幕日韩三级 | 人人射人人 |