一個(gè)用于styleGAN圖像處理的編碼器
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)

源碼鏈接:https://github.com/omertov/encoder4editing
最近,通過(guò)使用預(yù)先訓(xùn)練過(guò)的無(wú)條件生成器來(lái)執(zhí)行圖像編輯的各種方法出現(xiàn)了激增。然而,在真實(shí)圖像上應(yīng)用這些方法仍然是一個(gè)挑戰(zhàn),因?yàn)樗厝恍枰獙D像反轉(zhuǎn)到它們的潛在空間。為了成功地反轉(zhuǎn)真實(shí)圖像,需要找到一種潛在的代碼來(lái)準(zhǔn)確地重建輸入圖像,更重要的是,允許對(duì)其進(jìn)行有意義的操作。本文詳細(xì)研究了最先進(jìn)的無(wú)條件生成器StyleGAN的潛在空間。作者識(shí)別并分析在樣式潛在空間中存在的扭曲-可編輯性權(quán)衡和扭曲-感知權(quán)衡。然后,作者提出了兩個(gè)設(shè)計(jì)編碼器的原則,使其能夠控制與StyleGAN最初訓(xùn)練的區(qū)域的倒置的接近性。作者提出了一個(gè)基于作者的兩個(gè)原則的編碼器,這是專為促進(jìn)編輯真實(shí)圖像,通過(guò)平衡這些權(quán)衡。通過(guò)對(duì)其在包括汽車和馬在內(nèi)的眾多具有挑戰(zhàn)性的領(lǐng)域的性能進(jìn)行定性和定量評(píng)價(jià),作者證明了作者的反演方法,以及常見(jiàn)的編輯技術(shù),在只有很小的重建精度下降的情況下,獲得了較高的真實(shí)圖像編輯質(zhì)量。
提出了定量和定性的結(jié)果證明distortion-editability distortion-perception權(quán)衡,和反相接近的好處w .作者評(píng)估作者的編碼器,顯示作者的方法及其適用性的泛化為各種具有挑戰(zhàn)性的領(lǐng)域,與面部域不同,沒(méi)有共同的結(jié)構(gòu)和可能包含大量的模式。在下圖中,作者展示了編碼器在多個(gè)領(lǐng)域中獲得的反轉(zhuǎn),以及使用各種編輯方法執(zhí)行的幾個(gè)操作??梢钥吹?,只有輕微的失真退化,作者能夠?qū)崿F(xiàn)合理的編輯圖像,同時(shí)保留原始圖像的內(nèi)容和質(zhì)量。
總結(jié)一下,作者提出了四個(gè)主要貢獻(xiàn):
作者分析了柱體的復(fù)雜潛伏空間,提出了柱體結(jié)構(gòu)的新觀點(diǎn)。
作者展示了扭曲、感知和可編輯性之間固有的權(quán)衡。
作者描述了這種權(quán)衡,并設(shè)計(jì)了兩種編碼器來(lái)控制它們。
作者提出了e4e,一種新的編碼器,是專門設(shè)計(jì)的,允許隨后編輯倒轉(zhuǎn)的真實(shí)圖像。

作者的e4e網(wǎng)絡(luò)架構(gòu)。編碼器接收一個(gè)輸入圖像,并輸出一個(gè)樣式代碼w和一組偏移量1..N 1,其中N為StyleGAN s風(fēng)格調(diào)制層數(shù)。作者通過(guò)復(fù)制w向量N次并將每個(gè)i加到對(duì)應(yīng)的元素來(lái)獲得最終的潛在表示法。在訓(xùn)練期間,Ld-reg正則化鼓勵(lì)最終表示的不同條目之間存在較小的差異,從而保持接近W。Ladv將每個(gè)潛在代碼引導(dǎo)到StyleGAN映射網(wǎng)絡(luò)的范圍內(nèi),從而使最終的表示更接近于Wk。由于應(yīng)用了這兩個(gè)正則化項(xiàng),編碼器的最終學(xué)習(xí)表示接近于W。

作者展示了源圖像的三聯(lián)體,它的反演,以及對(duì)多個(gè)域的反演圖像應(yīng)用的編輯。在奇數(shù)行,作者的基線編碼器(A)獲得反演。在偶數(shù)行,作者使用配置D,對(duì)接近w的圖像進(jìn)行編碼,觀察反演圖像的失真和感知質(zhì)量之間的權(quán)衡。例如,在白馬的圖像中,使用構(gòu)型A觀察倒像的低失真(例如馬鞍被保留)。但是,感知質(zhì)量比D得到的要低(如馬頭不真實(shí))。關(guān)于可編輯性,請(qǐng)注意,在女性的左上角圖像中,姿態(tài)編輯并沒(méi)有忠實(shí)地改變a中的頭發(fā)。相反,D以失真的細(xì)微退化為代價(jià),獲得了一個(gè)真實(shí)且視覺(jué)愉悅的編輯結(jié)果。從上到下,從左到右的編輯是:頭部姿勢(shì),性別,日光,觀點(diǎn)(x3),馬姿勢(shì),騎馬者,貓姿勢(shì)。

扭曲感知和扭曲編輯的權(quán)衡。放大細(xì)節(jié)。左邊的圖像是源圖像。在頂部一行,作者展示了一系列圖像,其中最左邊的圖像是通過(guò)pSp得到的重建圖像,最右邊的圖像是通過(guò)e4e得到的重建圖像。當(dāng)作者向右移動(dòng)時(shí),反轉(zhuǎn)越接近W,失真越嚴(yán)重,感知質(zhì)量越好。然后,作者使用StyleFlow對(duì)每個(gè)倒置和插值圖像執(zhí)行性別編輯。注意,當(dāng)用于編輯的潛在代碼接近W時(shí),感知質(zhì)量變得明顯更好。例如,觀察最左邊編輯過(guò)的圖像中不真實(shí)的頭發(fā)。
作者的主要貢獻(xiàn)有兩方面:
作者提出了鼓勵(lì)將真實(shí)圖像的編碼映射到表現(xiàn)良好的Wk區(qū)域的方法;
作者設(shè)計(jì)了一個(gè)編碼器,并根據(jù)失真和可編輯性之間的權(quán)衡,演示了其性能。
作者也討論了評(píng)估重構(gòu)和可編輯性的困難,并提出了建立在常用措施上的評(píng)估協(xié)議。從某種意義上說(shuō),作者提出的方法是對(duì)圖像處理方法的一種補(bǔ)充,可以提高真實(shí)圖像的編輯質(zhì)量。
一般來(lái)說(shuō),作者的編碼器鼓勵(lì)映射接近W,這工作得很好,因?yàn)閃周圍的空間仍然是令人驚訝的高度表達(dá)。此外,該原理還可用于圖像反演以外的問(wèn)題。例如,它可以應(yīng)用于地圖潛在的向量代表多個(gè)圖像,或者說(shuō)兩個(gè)的組合,如身份和姿態(tài)的解離表示,或混合的兩個(gè)圖片,一個(gè)合適的潛在目標(biāo)圖像的代碼可能存在于鄰近w。作者計(jì)劃去探索這個(gè)研究方向。
作者的反演方案是通用的,作者已經(jīng)在五個(gè)具有挑戰(zhàn)性和多樣化的領(lǐng)域展示了它的性能。然而,請(qǐng)注意,有些領(lǐng)域比其他領(lǐng)域更難。人臉結(jié)構(gòu)良好,簡(jiǎn)化了編碼器的訓(xùn)練。例如,馬的領(lǐng)域就復(fù)雜得多,因?yàn)樗欠墙Y(jié)構(gòu)化的,并且有許多模式。因此,訓(xùn)練這樣一個(gè)領(lǐng)域的編碼器是非常具有挑戰(zhàn)性的。在未來(lái),作者將考慮像Sendik等人那樣的多模態(tài)生成器,并將編碼器開(kāi)發(fā)成多模態(tài)潛在空間。
最后,在這里作者考慮到一個(gè)給定的潛在空間的反轉(zhuǎn)。在未來(lái),考慮對(duì)生成器進(jìn)行微調(diào),并訓(xùn)練編碼器和解碼器,使其針對(duì)特定的下游任務(wù)實(shí)現(xiàn)共同目標(biāo),將是一件有趣且具有挑戰(zhàn)性的事情。
論文鏈接:https://arxiv.org/pdf/2102.02766.pdf
每日?qǐng)?jiān)持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學(xué)。
- END -
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

