<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          從遷移學(xué)習(xí)到圖像合成

          共 4528字,需瀏覽 10分鐘

           ·

          2021-07-26 18:32

          點擊下方卡片,關(guān)注“新機器視覺”公眾號

          視覺/圖像重磅干貨,第一時間送達

          來源:知乎—牛力

          地址:https://zhuanlan.zhihu.com/p/376423478


          01

          遷移學(xué)習(xí)
          遷移學(xué)習(xí)現(xiàn)在很火,在人工智能各個領(lǐng)域都有廣泛應(yīng)用。遷移學(xué)習(xí)是一個大家族,按照遷移對象可以分為不同域 (domain) 之間的遷移,不同種類 (category) 之間的遷移,不同模型 (model) 之間的遷移,不同模態(tài) (modality) 之間的遷移,不同任務(wù) (task) 之間的遷移等等。
          具體來說,不同域之間的遷移包括域適應(yīng) (domain adaptation) , 域泛化 (domain generalization) 等。不同種類之間的遷移包括零樣本學(xué)習(xí) (zero-shot learning) ,少樣本學(xué)習(xí) (few-shot learning) 等。不同模型之間的遷移主要包括知識蒸餾 (knowledge distillation)。不同模態(tài)之間的遷移包括多視圖學(xué)習(xí) (multi-view learning) , 特權(quán)信息學(xué)習(xí) (learning using privileged information) 等。不同任務(wù)之間的遷移包括多任務(wù)學(xué)習(xí) (multi-task learning) ,自監(jiān)督學(xué)習(xí) (self-supervised learning) 等。自監(jiān)督學(xué)習(xí)可以看成是其中某些任務(wù)不需要人工標注的多任務(wù)學(xué)習(xí)。
          我對上述研究方向多多少少都有所涉獵,博士期間主要做域適應(yīng)、域泛化、多視圖學(xué)習(xí)、特權(quán)信息學(xué)習(xí)等, 博士后期間轉(zhuǎn)向做零樣本學(xué)習(xí),入職上交之后繼續(xù)做零樣本學(xué)習(xí)、開始做少樣本學(xué)習(xí)、自監(jiān)督學(xué)習(xí)等,其中兩個重點研究的方向是零樣本語義分割和少樣本圖像生成,感興趣的話可以看一下我之前的公眾號文章。


          02

          從遷移學(xué)習(xí)到圖像合成
           后來,我因為陰差陽錯進入到圖像合成這個領(lǐng)域,意識到遷移學(xué)習(xí)和圖像合成之間的內(nèi)在關(guān)聯(lián),便把研究方向從遷移學(xué)習(xí)擴展到圖像合成。圖像合成 (image composition) 是指把一張圖片的前景剪切下來,粘貼到另外一張背景圖片上,得到一張合成圖。但是得到的合成圖可能會有很多問題,比如前景和背景顏色光照不一致,前景的位置大小不合理等,這些都會讓合成圖看起來不真實,影響合成圖的質(zhì)量。圖像合成的問題定義非常簡潔,但是涉及到的子問題卻包羅萬象,這也是圖像合成問題的迷人之處。
          在遷移學(xué)習(xí)中,域適應(yīng)和域泛化旨在解決不同域之間的不一致性,零樣本學(xué)習(xí)和少樣本學(xué)習(xí)旨在解決不同種類之間的不一致性。而圖像合成旨在解決合成圖中前景和背景之間的不一致性。圖像合成可以拆分成若干子問題,分別解決不同方面的不一致性。1. 前景和背景可能是在不同拍攝環(huán)境下拍攝的,顏色光照不和諧,需要用圖像和諧化 (image harmonization) 技術(shù)對前景進行調(diào)整,使其和背景看起來和諧。2. 新加的前景可能會對背景產(chǎn)生影響,比如陰影反光等,需要為前景物體添加合理的陰影或者反光 (shadow/reflection generation)。3. 前景的位置大小可能不合理,需要為前景找到合適的位置大小 (object placement)。4. 前景和背景的透視可能不一致,需要對前景進行幾何變換 (spatial transformation)。
          上述四個子問題,前兩者旨在解決外觀上的不一致性,后兩者旨在解決幾何上的不一致性。之前的相關(guān)工作致力于解決其中一個或者多個子問題,但是非常零散,不成系統(tǒng),并且沒有統(tǒng)一的數(shù)據(jù)集,不利于圖像合成領(lǐng)域的發(fā)展。
          我之所以對圖像合成這個領(lǐng)域感興趣主要有以下幾點原因:1. 第一次看到圖像和諧化任務(wù),我就覺得它和域翻譯 (domain translation) 有關(guān)系,屬于我熟悉的遷移學(xué)習(xí)領(lǐng)域。2. 之前和Versa 初創(chuàng)公司合作過,他們致力于做手機版的photoshop, 圖像合成是他們的一大業(yè)務(wù),圖像和諧化這個功能需求也是他們提出來的。3. 我個人是Adobe的粉絲,大一的時候花了大量時間研究photoshop, 愛好藝術(shù)設(shè)計和合成圖制作。出于上述原因,我就開始做圖像合成這方面的研究,但是這個方向比較小眾,可能不會有high citation/impact, 并且不太好吹牛。之前寫基金本子也都是從遷移學(xué)習(xí)的角度寫,因為比較好吹牛。寫本子的時候可以說遷移學(xué)習(xí)能夠改變世界,但是很難說圖像合成能夠改變世界。所以現(xiàn)在從事圖像合成方面的研究,像是在建造一個橋頭堡,進可攻,退可守,一旦做不下去了就退回到遷移學(xué)習(xí)的大本營,畢竟這個大家族還有很多東西可以深挖。
          相比較圖像合成,圖像生成的關(guān)注度要高很多,但圖像生成的精細程度有時候很難滿足人的需求,比如想生成一只特定的貓,即使在生成器里加很多條件信息 (conditional information),也未必能夠生成完全符合預(yù)期的貓。但是如果已經(jīng)有一張理想的貓的圖片,就可以把貓摳出來和背景圖片結(jié)合,經(jīng)過圖像合成技術(shù)的處理得到一張高質(zhì)量的合成圖。因此,圖像合成在一定程度上填補了精細化圖像生成的空白。
          圖像合成在工業(yè)界也有一些應(yīng)用,比如虛擬社交、海報設(shè)計、廣告圖片生成等等。我們已經(jīng)和一些公司建立了合作關(guān)系,也在試圖和更多公司建立合作關(guān)系。接下來,分別從圖像和諧化、前景陰影生成、前景擺放幾方面簡單介紹一下。下面提到的數(shù)據(jù)庫和方法都可以在我們實驗室的GitHub主頁上https://github.com/bcmi找到。

          03

          圖像合成子問題

          圖像和諧化

          圖像和諧化旨在對合成圖的前景進行顏色光照的調(diào)節(jié),使其和背景和諧。比如下面這張合成圖,前景和背景看起來非常不和諧,我們需要用圖像和諧化的技術(shù)對前景進行調(diào)整,得到一張和諧的合成圖。我們公布了圖像和諧化領(lǐng)域首個大規(guī)模數(shù)據(jù)集iHarmony4, 通過對真實圖片的前景物體做調(diào)整的方式得到成對的前景不和諧和前景和諧的圖片。在iHarmony4公布之前,做圖像和諧化的工作很少,但最近感覺做圖像和諧化的工作逐漸多起來了。我們在后續(xù)圖像和諧化研究的過程中發(fā)現(xiàn)了iHarmony4數(shù)據(jù)庫的一些不足,也打算修正這些不足,發(fā)布一個升級版的iHarmony4。
          我們從域翻譯 (domain translation) 的角度考慮圖像和諧化任務(wù),先后提出了基于域驗證 (domain verification) 的DoveNet和基于背景引導(dǎo)的域翻譯 (background-guided domain translation) 的BargainNet. 我們把不同的拍攝環(huán)境(季節(jié)、天氣、時間)當作不同的域,因此有無數(shù)種可能的域,并且每張圖片沒有明確的域標簽。合成圖中的前景和背景屬于不同的域,我們需要對前景做域翻譯,把前景轉(zhuǎn)換到背景所屬的域。BargainNet和DoveNet相比,方法更簡潔,訓(xùn)練更穩(wěn)定,并且可以預(yù)測一張合成圖的不和諧程度。這是一個非常實用的功能,給定一張合成圖,如果預(yù)測出來的和諧程度很高,就沒必要再做圖像和諧化了。DoveNet和BargainNet的想法很好,但說實話性能已經(jīng)不是SOTA了,刷性能還是得靠調(diào)參和魔改網(wǎng)絡(luò)結(jié)構(gòu)。如果大家想做圖像和諧化任務(wù),可以多看看圖像增強 (image enhancement) 和圖像填充 (image inpainting) 的論文,借(抄)鑒(抄)他們的方法。
          另外,我們也基于3D軟件生成渲染圖片,通過插件控制生成同一場景在不同拍攝環(huán)境下的一組圖片,然后交換組內(nèi)圖片的前景,構(gòu)建基于渲染圖片的數(shù)據(jù)集RHHarmony。目前,RHHarmony只包含了人物前景,我們正在構(gòu)建其他種類前景的渲染圖片數(shù)據(jù)集。其實,圖像合成的很多問題都可以用真實圖片和渲染圖片兩條腿走路,打通真實世界和虛擬世界的壁壘。

          前景陰影生成

          前景物體陰影生成旨在對合成圖中新加的前景物體根據(jù)背景的光照環(huán)境添加合理的陰影。之前有相關(guān)工作比如ARShadowGAN基于渲染圖片做的,在3D環(huán)境中插入一個新物體,用渲染技術(shù)生成陰影,根據(jù)這種方式得到成對的前景沒有陰影和前景有陰影的圖片。但是該工作公布的數(shù)據(jù)庫前景和背景非常簡單,缺乏變化,和真實復(fù)雜場景相距甚遠。我們嘗試用他們的數(shù)據(jù)庫和方法為真實圖片的前景物體生成陰影,完全不work。所以我們仿照iHarmony4數(shù)據(jù)庫的構(gòu)建方式,給有陰影的真實圖片人工去除陰影,得到成對的前景有陰影和前景沒有陰影的圖片,構(gòu)建了DESOBA數(shù)據(jù)集。

          前景位置擺放

          前景物體擺放旨在為前景物體尋找合適的位置大小。在尋找合適位置大小的時候需要考慮諸多因素,比如物體大小是否合適,是否出現(xiàn)在應(yīng)該出現(xiàn)的地方,和其它物體的遮擋關(guān)系是否合理,有沒有受力支撐,透視是否合理等等。因為需要考慮的因素很多,前景物體擺放實際上是一個很復(fù)雜的問題。我們定義了前景物體擺放三個層級的任務(wù)。第一個層級的任務(wù)是給定一張合成圖,判斷前景的位置大小是否合理,這是一個二分類問題。第二個層級的任務(wù)是給定一個前景物體和一張背景圖,得到一張合理的合成圖,這是一個生成問題,或者說是搜索問題。第三個層級的任務(wù)是給定一個前景物體和一張背景圖,得到所有合理的合成圖。但是得到所有合理的合成圖不太現(xiàn)實,可以降低要求,得到盡可能多的合理的合成圖。
          有意思的是第一層級的任務(wù)都很少有人做。我們構(gòu)建了一個判斷前景物體擺放是否合理的數(shù)據(jù)集OPA, 包含幾萬張合成圖和每張合成圖的合理性標簽。關(guān)于第二層級和第三層級的任務(wù),之前也有方法比如ST-GAN做過,但是局限于特殊的簡單場景,我們嘗試用他們的方法做真實的復(fù)雜場景,完全不work,所以這個領(lǐng)域還有非常大的研究空間。

          構(gòu)圖評估

          在前景物體擺放的任務(wù)中,如果已經(jīng)滿足了合理性的要求,我們可以提出更高的要求,不僅要合理,而且要美觀,這個時候就需要考慮一些視覺平衡因素或者構(gòu)圖法則。在擺放前景物體的時候,不僅位置大小要合理,而且希望得到的合成圖在構(gòu)圖方面比較美觀,這就涉及到美學(xué)評估的問題。為了專門研究構(gòu)圖問題,我們找了美術(shù)專業(yè)的學(xué)生為接近一萬張圖片的構(gòu)圖質(zhì)量進行打分,公布了構(gòu)圖評分CADB數(shù)據(jù)集。 我們不僅需要給出構(gòu)圖評分,而且要提供具有可解釋性的評分依據(jù)。

          04

          總結(jié)
           https://bcmi.sjtu.edu.cn/~niuli/download/From_Transfer_Learning_to_Image_Composition.pdf
          上述介紹的內(nèi)容都可以在這個slides 里面找到,并且這個slides有更多的插圖和細節(jié)描述。歡迎關(guān)注圖像合成領(lǐng)域,歡迎關(guān)注我們實驗室的工作,謝謝!


          —版權(quán)聲明—

          僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。

          若有侵權(quán),請聯(lián)系微信號:yiyang-sy 刪除或修改!


          —THE END—
          瀏覽 71
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美操逼精品 | 特级西西人体444WWwtini | sese99sese | 免费无码婬片A片AAA毛多多 | 你操综合 |