CVPR 2021 | 基于模型的圖像風格遷移
作者:侯云鐘 知乎
https://zhuanlan.zhihu.com/p/371101640
本文從另外一個角度解讀,澳洲國立大學鄭良老師實驗室CVPR 2021新工作《Visualizing Adapted Knowledge in Domain Transfer》。一般而言,我們需要同時利用 兩張圖片 完成圖像的風格遷移(style transfer):一張圖片指導內容(content);一張圖片指導風格(style)。在本文中, 我們探尋如何在僅利用一張圖片作為內容指導的情況下,通過訓練好的模型作為指導,將該圖片遷移至一種未曾見過的風格。我們首先展示一些示例結果,如下圖,在只利用目標(target)圖片的情況下,我們可以將其有效遷移至未曾見過的源(source)圖片風格。

基于模型的圖像風格遷移。在沒有利用源圖片(c)作為圖像風格指導的情況下,我們僅利用目標圖片(a),即可將其遷移至源域風格(b)。
題目:Visualizing Adapted Knowledge in Domain Transfer
論文地址:https://arxiv.org/abs/2104.10602
作者:Yunzhong Hou, Liang Zheng
代碼:https://github.com/hou-yz/DA_visualization
基于圖片的圖像風格遷移
不論是風格遷移(style transfer)還是圖像變換(image translation)工作,想要在保持圖片內容的條件下變換圖像的風格,都需要同時利用兩張圖片:一張圖片
指示內容;一張圖片
指示風格。此外,它們還需要一個特定的評價網絡
,來推動圖像風格的變換。在風格遷移中(如neural style transfer [1]),
可能是ImageNet預訓練VGG的特征分布;在圖像變化中(如cyclegan [2]),
可能是兩個域分別對應的判別器網絡(discriminator)。

neural style transfer [1] 利用內容圖像、風格圖像、和基于ImageNet預訓練的VGG的評價網絡

cyclegan [2] 利用內容圖像數(shù)據集、風格圖像數(shù)據集(兩者互易)、和判別器形式的評價網絡
對于傳統(tǒng)的風格遷移,可以形式化的記為
,其中
為生成圖片,
分別代表風格圖像和內容圖像,
代表某一特定評價網絡。
基于模型的圖像風格遷移
在本文中,不同于兩張圖片,我們利用訓練好的兩個模型,來指導圖像的風格遷移。特別的,我們考慮域遷移(domain adaptation)的任務情景:給定源域(source domain)和目標域(target domain),以及訓練好的適用于源域的網絡
和適用于目標域的網絡
,且默認這兩個網絡共享分類層
(域遷移中常見設置)。

域遷移:可以得到分別適用于源域和目標域的兩個神經網絡模型,以此推動圖像風格遷移
基于這兩個網絡,我們探尋能否將目標域圖像直接遷移至源域風格。我們可以進一步給出任務目標的形式化定義
,其中圖片
指導生成圖片
的內容。對比傳統(tǒng)的圖像風格遷移
,基于模型的風格遷移存在以下區(qū)別:
不能基于 內容-風格 圖像對
訓練,而是憑借源域模型
和目標域模型
指導圖像風格差異;風格遷移的標準不依賴于特定的評價網絡
,而仍是依賴源域模型
和目標域模型
。
Source-Free Image Translation 方法
,我們設計了一套方法,完成基于模型的圖像風格遷移任務。特別的,我們只利用目標域圖片
作為內容指導(即作為
),而完全避免在圖像遷移的過程中利用源域圖片
。由此,我們的方法也得名source-free image translation(SFIT),即不依賴源域數(shù)據的圖像風格遷移。
,我們訓練一個生成器
來將其遷移至(源域)風格,生成圖片
。面對原始的內容圖片
和生成的風格化圖片
,傳統(tǒng)的基于圖像的風格遷移和本文中提出的基于模型的風格遷移存在以下區(qū)別:基于圖片的風格遷移(neural style transfer)約束生成圖片
內容上接近
(content loss: 評價網絡
特征圖之差),風格上接近
(style loss: 評價網絡
特征圖分布的區(qū)別)基于模型的風格遷移(SFIT)約束這內容圖片
和生成的風格化圖片
在經過(預訓練且固定的)目標域模型
和源域模型
后,能獲得相似的輸出。我們通過約束最終輸出的相似和特征圖的分布相似,完成對生成圖片內容和風格上的約束。
損失函數(shù)設計

傳統(tǒng)的style loss約束兩張圖片在同一個評價網絡
上特征圖分布相似;relationship preserving loss約束兩張圖片分別經過源域模型
和目標域模型
后,得到的特征圖歸一化分布相似。

為何約束不同網絡的特征圖分布可以遷移風格?
和一個適用于目標域的網絡
共享分類層
(域遷移中常見設置),我們可以認為這兩個網絡在通道維度上語義是相對對齊的(共享分類層,需要global average pooling之后的特征向量在通道上對齊,才能在兩個不同的域上都獲得較好的結果)。鑒于此,我們可以認為,
和
這兩個網絡以一種松散的方式,保持著類似于同一網絡的特性,即通道維度語義對齊。
實驗結果



Reference
[1]. Gatys, L. A., Ecker, A. S., & Bethge, M. (2016). Image style transfer using convolutional neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition(pp. 2414-2423).
[2]. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. InProceedings of the IEEE international conference on computer vision(pp. 2223-2232).
[3]. Li, Y., Wang, N., Liu, J., & Hou, X. (2017, August). Demystifying neural style transfer. InProceedings of the 26th International Joint Conference on Artificial Intelligence(pp. 2230-2236).
文僅交流,侵刪
猜您喜歡:
附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》

