<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          組監(jiān)督學(xué)習(xí): 通過可控的解耦表征學(xué)習(xí)模擬人腦想象力! ICLR 2021

          共 8207字,需瀏覽 17分鐘

           ·

          2021-04-23 23:17

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺

          作者丨葛云皓
          來源丨AI科技評論
          編輯丨極市平臺

          極市導(dǎo)讀

           

          為什么人的大腦能在泛化任務(wù)上表現(xiàn)很好? 本文所提出的組監(jiān)督學(xué)習(xí)可以模仿人腦的想象力,通過可控的解耦表征學(xué)習(xí),模擬人腦對知識的因式分解和自由組合。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿


          本文主要介紹一篇被 ICLR 2021 會議錄用的一篇論文:《Zero-shot Synthesis with Group-Supervised Learning》。

          這項(xiàng)工作受啟發(fā)于人腦的想象能力,比如人看到一輛紅色的轎車&一輛藍(lán)色的卡車,可以立即想象出一輛藍(lán)色的轎車(即使沒有見過)。

          本文提出了一種區(qū)分于現(xiàn)有l(wèi)earning paradigm新的訓(xùn)練范式:組監(jiān)督學(xué)習(xí) (Group-Supervised Learning),通過可控的解耦表征學(xué)習(xí)(controllable disentangled representation learning)模擬人腦對知識的因式分解和自由組合,從而實(shí)現(xiàn)模擬人腦的想象能力。

          Group-Supervised Learning 可以通過非常簡單的自編碼器(Autoencoder)來實(shí)現(xiàn),訓(xùn)練過程只需要 reconstruction loss,簡單易收斂,可以實(shí)現(xiàn)高質(zhì)量的 zero-shot synthesis。

          一張圖概括我們做的事情:Group-Supervised Learning 可以將輸入圖片(bottom images)進(jìn)行可控的解耦(controllable disentanglement)并表示為可以自由組合的不同屬性(比如車的種類,姿態(tài),背景;人的樣貌,姿勢,表情),然后通過屬性的自由組合生成新的圖片。

          圖1 Group-Supervised Learning 零樣本生成(zero-shot synthesis)效果

          論文鏈接:https://openreview.net/pdf?id=8wqCDnBmnrT
          項(xiàng)目主頁:http://sami.haija.org/iclr21gsl/index.html
          個人主頁:https://gyhandy.github.io/
          視頻介紹:https://www.bilibili.com/video/BV1WK411c7uV/

          代碼和預(yù)訓(xùn)練模型已經(jīng)在 Github 上放出:
          https://github.com/gyhandy/Group-Supervised-Learning

          下面論文作者葛云皓本人將詳細(xì)介紹該研究工作的具體內(nèi)容。

          1 研究動機(jī)

          靈長類動物(人類)往往在泛化的任務(wù)(generalization task)上表現(xiàn)很好,當(dāng)看到一個物體,他們可以立即想象出同一個物體在不同屬性時的樣子,比如不同的 3D pose[1],即使他們從未見過。

          我們的目標(biāo)是賦予AI智能體(machines)相似的能力:zero-shot synthesis。 我們認(rèn)為,人類有一個非常重要的能力來幫助想象,那就是將所學(xué)的知識進(jìn)行因式分解并重新組合。比如圖2中,我們可以把見過物體的顏色和輪廓進(jìn)行分解(藍(lán)莓和跑車),然后通過重新組合想象出未見過的物體(藍(lán)色的跑車)。

          對于AI智能體,我們可以用神經(jīng)網(wǎng)絡(luò)模擬知識的因式分解過程嗎?

          我們給出的答案是可以利用可控的解耦表征學(xué)習(xí)(controllable disentangled representation learning)。我們提出的新的學(xué)習(xí)框架:組監(jiān)督學(xué)習(xí)(Group-Supervised Learning)可以幫助這個過程的實(shí)現(xiàn)。

          圖2 可控的解耦表征學(xué)習(xí)模擬知識因式分解

          提到解耦表征學(xué)習(xí)(disentangled representation learning),大家首先想到的應(yīng)該是變分自編碼器(VAE),VAEs 可以用無監(jiān)督學(xué)習(xí)(unsupervised learning)的方式通過添加KL divergence loss 對隱空間的分布進(jìn)行約束,間接地實(shí)現(xiàn)隱空間的解耦表征。然而,在沒有數(shù)據(jù)標(biāo)簽的無監(jiān)督情況下,VAE很難控制解耦的過程和結(jié)果(比如隱空間是如何劃分的,用隱空間中的哪幾維存儲哪個特定的屬性信息)。

          有監(jiān)督的學(xué)習(xí)方法中算法可以獲取圖片的屬性標(biāo)簽,大多數(shù)采用基于GAN的生成方法,比如StarGAN[2] 和 ELEGANT[3],他們可以實(shí)現(xiàn)屬性可控的圖像生成,但生成多是局部屬性或texture的改變,訓(xùn)練過程和實(shí)現(xiàn)較為復(fù)雜且不易穩(wěn)定。為了解決上述問題,我們提出了一種新的學(xué)習(xí)范式:組監(jiān)督學(xué)習(xí),實(shí)現(xiàn)全局多屬性可控的圖像生成,而且保持全局語義信息的一致(比如轉(zhuǎn)動汽車姿態(tài)時作為背景的公路方向會跟著一起轉(zhuǎn)動)。組監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)可以采用簡單的自編碼器,而且整個訓(xùn)練只需要reconstruction loss,穩(wěn)定且收斂快。

          圖3 解耦表征學(xué)習(xí)以及屬性可控的圖像生成方法比較

          2 問題定義和解決方法

          要實(shí)現(xiàn)屬性可控的解耦,關(guān)鍵在于如何達(dá)到可控,也就是我們要精確控制每個屬性信息的流動過程。利用數(shù)據(jù)的屬性標(biāo)簽進(jìn)行監(jiān)督是必要的,但監(jiān)督過程是仁者見仁的:是將數(shù)據(jù)集中的每個樣本單獨(dú)使用?還是將每個樣本的屬性以及屬性關(guān)系進(jìn)行有機(jī)的表示?

          我們選擇了后者,所謂組監(jiān)督學(xué)習(xí),字面理解就是每次輸入的是一組樣本,一組內(nèi)部關(guān)系得到有機(jī)表示的樣本,通過在隱空間中的屬性信息交換(swap)和組合(recombination),挖掘樣本之間的相似性(similarity mining)作為監(jiān)督信息,達(dá)到可控的解耦表征。

          圖4 組監(jiān)督學(xué)習(xí)將數(shù)據(jù)集表示為Multi-Graph

          如圖4所示,給定一個數(shù)據(jù)集以及每個樣本的屬性標(biāo)簽(以Fonts dataset [4] 為例,每張字母圖片都有五個屬性:字母,大小,字母顏色,背景顏色,字體),我們將其表示為Multi-Graph,Graph中的點(diǎn)表示數(shù)據(jù)集中的不同樣本,邊表示樣本之間共享的屬性標(biāo)簽(比如兩個樣本具有相同的字母顏色,就會有一條Font color的邊連接兩個樣本),我們稱之為Multi-Graph的原因是點(diǎn)之間共享的屬性標(biāo)簽可能有多個,所以區(qū)別于傳統(tǒng)graph(兩點(diǎn)之間只有一條邊),Multi-Graph的兩點(diǎn)之間可以有多條邊,且邊的數(shù)目是由兩點(diǎn)之間共享屬性的數(shù)目決定的。將數(shù)據(jù)集表示為Multi-Graph的原因是希望能更好的挖掘數(shù)據(jù)之間屬性的異同,從而更好的指導(dǎo)屬性可控的解耦表征學(xué)習(xí)。

          接下來我們提供了組監(jiān)督學(xué)習(xí)基于自編碼器的一種實(shí)現(xiàn) Group-Supervised Zero-shot synthesis Network (GZS-Net),以ilab-20M[5] dataset為例詳細(xì)介紹實(shí)現(xiàn)可控解耦的訓(xùn)練過程。

          GZS-Net 的網(wǎng)絡(luò)結(jié)構(gòu)是一個簡單的自編碼器:包括一個編碼器(encoder E)和一個解碼器(decoder D)。輸入是一個multi-graph,損失函數(shù)由三部分組成,均為reconstruction loss(pixels wise L2 / L1 loss):self reconstruction Loss,swap reconstruction 和 cycle swap reconstruction loss,三個損失項(xiàng)分別對應(yīng)三個訓(xùn)練步驟:

          Step 1 Self reconstruction

          如圖5,一組圖片以Multi-Graph的形式作為輸入:其中紅框中的圖片為x,藍(lán)色框中的圖片與x僅有一組屬性值相同并由藍(lán)色的邊所表示,黑色框中的圖片x-bar與x沒有任何相同屬性值。首先將每張圖片輸入到 E 和 D中按照自編碼器的訓(xùn)練方式用reconstruction loss 訓(xùn)練 GZS-Net。這個步驟可以看作是一個正則項(xiàng),保證輸入的圖片所有的信息都可以被 E 編碼到 latent vector中,避免信息丟失。

          圖5 Self reconstruction 步驟

          接下來,為了實(shí)現(xiàn)可控的解耦,我們先在latent vector中預(yù)定義每個屬性的編碼位置:紅色編碼(儲存)identity 信息,黃色編碼姿態(tài)信息,綠色編碼背景信息。然后通過接下來 Step 2 和 Step 3 的基于multi-graph的屬性交換與約束實(shí)現(xiàn)預(yù)定義的可控解耦。

          Step 2 One Overlap Attribute Swap

          如圖6(a),從multi-graph中取一條屬性值為id的邊,將邊連接的兩個id屬性相同的圖片分別通過 E得到 他們的latent vector,然后我們將他們相同的屬性(id)預(yù)劃分的區(qū)域(紅色)進(jìn)行交換,得到兩個新的latent vector,并將他們分別通過 D 生成兩張新的圖片。因?yàn)槲覀兿Mt色部分編碼id的信息而兩張圖又具有相同的id,所以交換id部分過后生成的圖片應(yīng)該與原圖相同,所以我們用reconstruction loss進(jìn)行約束。

          相似的,我們接著取屬性為姿態(tài)(圖6 b)和背景(圖6 c)的邊,將他們連接的點(diǎn)做同樣的操作:編碼,交換相同屬性值區(qū)域,約束生成的圖片與原圖相同。這一過程利用multi-graph圖片之間的關(guān)系,使網(wǎng)絡(luò)學(xué)習(xí)如何挖掘圖片之間high-level屬性的相似性,并通過交換實(shí)現(xiàn)可控的解耦表征。

          Note:在這一步,我們需要swap所有 attribute 對應(yīng)的 latent 區(qū)域,即紅,黃,綠三部分都需要交換,以此來避免網(wǎng)絡(luò)將所有信息存儲到不被交換的區(qū)域來cheat。

          圖6 One Overlap Attribute Swap 步驟

          Step 3 Cycle Attribute Swap

          最后一步是選取沒有相同屬性值的兩張圖片,通過 E 得到 latent vector 后,我們隨機(jī)選取一個屬性進(jìn)行交換,生成兩張沒有g(shù)round truth的圖片;然后我們再將他們通過 E 把剛剛交換過的屬性再交換回來,約束兩次交換后生成的圖片與原始輸入的圖片相同。這一步驟間接的約束了可控的屬性解耦:如果中間步驟生成的圖片質(zhì)量很差,或者屬性值不是預(yù)期的樣子,第二次交換過后生成的圖片會與input圖片有較大差距。

          圖7 Cycle Attribute Swap 步驟

          最后用一張圖表示整個GZS-Net的訓(xùn)練過程??梢钥吹秸麄€訓(xùn)練我們只用了reconstruction loss,框架是基礎(chǔ)的 Autoencoder,容易實(shí)現(xiàn),訓(xùn)練穩(wěn)定且收斂快。

          圖8 Group-Supervised Learning 的一種實(shí)現(xiàn)方法:GZS-Net 的訓(xùn)練過程

          下圖是算法的偽代碼。Note:在released code 中我們提供了一種更為簡單的訓(xùn)練過程:在Step 2 One-Overlap attribute Swap時

          (1)不需要兩張圖片只有一個attribute 相同,只要需要交換的attribute相同即可,其他attribute不做限制。

          (2)不需要有一張圖片x出現(xiàn)在所有屬性的交換過程中,不同屬性之間可以選用不同的滿足要求的圖片。詳情請見 code。

          圖9 Group-Supervised Learning 訓(xùn)練偽代碼

          3 實(shí)驗(yàn)和結(jié)果

          (a)定性實(shí)驗(yàn)

          下圖展示了在 ilab-20M 數(shù)據(jù)集上進(jìn)行零樣本生成(zero-shot synthesis)的結(jié)果,我們希望解耦 ilab-20M 中的三個屬性:車輛id(identity),姿態(tài)和背景。在生成過程中,輸入是每個目標(biāo)屬性的提供者,我們希望從每個屬性提供者中提取目標(biāo)屬性值,并將它們重新組合,生成目標(biāo)圖片。紅色虛線框中展示的是我們的 GZS-Net 的結(jié)果,包括消融實(shí)驗(yàn)(ablation study)。

          可以看到生成的圖像可以滿足query式可控生成的需求,而且生成的場景能夠保證語義的一致(當(dāng)車輛作為前景進(jìn)行旋轉(zhuǎn)時,道路作為背景會跟著進(jìn)行旋轉(zhuǎn))。baseline有兩大類,一類是基于GAN的算法:StarGAN 和 ELEGANT,另一類是 Autoencoder+Direct Supervision(AE+DS)即直接在autoencoder 的隱空間中加入對應(yīng)屬性分類器當(dāng)作監(jiān)督訓(xùn)練的模型。我們的輸入圖片的格式會根據(jù)不同baseline算法的生成步驟需求做出調(diào)整。

          圖10 Zero-shot synthesis 在ilab-20M數(shù)據(jù)集的表現(xiàn)

          下圖展示了在 Fonts 數(shù)據(jù)集上進(jìn)行零樣本生成(zero-shot synthesis)的結(jié)果,我們希望解耦 Fonts 中的五個屬性:字母,字體(Font Style),背景顏色,字母顏色和字母大小。同樣生成時每一個目標(biāo)attribute有一個提供者,我們希望從每個屬性提供者中提取目標(biāo)屬性值,并將它們重新組合,生成目標(biāo)圖片。

          紅色虛線框展示的是我們的 GZS-Net 的結(jié)果;baseline方法中還包括基于VAE的算法,在β-VAE 和 β-TCVAE的基礎(chǔ)上做 Exhaustive Search(ES)使其適應(yīng)controllable synthesis task(細(xì)節(jié)請見paper)。

          圖11 Zero-shot synthesis 在Fonts數(shù)據(jù)集的表現(xiàn)

          下圖展示了在 RaFD[6] 數(shù)據(jù)集上進(jìn)行零樣本生成(zero-shot synthesis)的結(jié)果,我們希望解耦 RaFD 中的三個屬性:identity,pose 和 expression。

          圖12 Zero-shot synthesis 在RaFD數(shù)據(jù)集的表現(xiàn)

          (b)定量實(shí)驗(yàn)

          第一個實(shí)驗(yàn)是用解耦屬性之間的互相預(yù)測(co-prediction)來定量分析解耦表征的效果。為了分析解耦效果,我們會問以下問題:我們可以用latent vector中一個屬性編碼的信息來預(yù)測該屬性的label嗎?我們可以用它來預(yù)測其他屬性的label嗎?在完美解耦表征的情況下,我們永遠(yuǎn)會給第一個問題肯定的回答而給第二個問題否定的回答。

          如下圖,我們計(jì)算了模型關(guān)于屬性的confusion matrix:使用每個屬性在latent vector中對應(yīng)維度的信息預(yù)測所有屬性的label。一個完美解耦的模型應(yīng)該接近Identity 矩陣。我們的模型在對角線有比較高的準(zhǔn)確率,在非對角線準(zhǔn)確率較低。

          圖13 可控的解耦表征學(xué)習(xí)效果分析

          第二個實(shí)驗(yàn)是在Fonts 數(shù)據(jù)集(能提供所有可能的屬性組合)中計(jì)算生成圖像與 ground truth之間的平均MSE 和 PSNR從而定量地分析生成圖片質(zhì)量。

          圖14 生成圖像效果定量分析

          第三個實(shí)驗(yàn)是把 Group-Supervised Learning 用作數(shù)據(jù)增強(qiáng)方法,看能否將原本unbalance 的數(shù)據(jù)集增強(qiáng)為balance的數(shù)據(jù)集,并提升下游分類模型的準(zhǔn)確率。可以看到數(shù)據(jù)增強(qiáng)效果明顯好于傳統(tǒng)的數(shù)據(jù)增強(qiáng)算法并提升了分類模型的準(zhǔn)確率。

          圖15 GZS-Net作為數(shù)據(jù)增強(qiáng)算法提升分類模型效果

          4 Fonts:一個新的開源數(shù)據(jù)集

          Fonts 是我們開源的一個屬性可控的 RGB 圖像數(shù)據(jù)集,每張圖片(尺寸為128*128)包括一個用五個獨(dú)立屬性渲染生成的字母,五個屬性分別為:字母,大小,字母顏色,背景顏色和字體。下圖展示了一些例子。

          數(shù)據(jù)集包含了提出屬性的所有可能的組合,共計(jì)1.56 million 張。我們提出Fonts數(shù)據(jù)集的首要目的是為了給解耦表征學(xué)習(xí)和零樣本生成的研究者提供一個可以快速驗(yàn)證和迭代想法的平臺。

          除了上述的五個屬性,我們還拓展了Fonts-v2版本,增加了簡單的單詞以及新的屬性:位置,旋轉(zhuǎn)和紋理,示例請見下圖。

          目前Fonts的所有生成代碼已開源,歡迎來我們的網(wǎng)站下載數(shù)據(jù)集和代碼:

          http://ilab.usc.edu/datasets/fonts

          5 總結(jié)

          總結(jié)來說,這項(xiàng)工作的要點(diǎn)在于:

          (1)提出一種新的學(xué)習(xí)范式——組監(jiān)督學(xué)習(xí)(Group-Supervised Learning)可以模仿人腦的想象力并賦予AI智能體零樣本生成的能力。

          (2)組監(jiān)督學(xué)習(xí)以一組圖片作為輸入,通過挖掘圖片之間屬性的相關(guān)關(guān)系實(shí)現(xiàn)可控的解耦表征和自由組合,模擬人類對知識的因式分解和重新組合。

          (3)作為一種新的學(xué)習(xí)范式,組監(jiān)督學(xué)習(xí)容易實(shí)現(xiàn),訓(xùn)練穩(wěn)定可快速收斂,可以幫助不同的下游任務(wù)。定量和定性的分析了在屬性可控生成,解耦表征學(xué)習(xí)與數(shù)據(jù)增強(qiáng)方向的應(yīng)用。

          更多細(xì)節(jié)請參考原文,歡迎大家關(guān)注我們的工作:

          @inproceedings{ge2021zeroshot,
          title={Zero-shot Synthesis with Group-Supervised Learning},
          author={Yunhao Ge and Sami Abu-El-Haija and Gan Xin and Laurent Itti},
          booktitle={International Conference on Learning Representations},
          year={2021},
          url={https://openreview.net/forum?id=8wqCDnBmnrT}
          }

          參考

          Logothetis et al,1995.  https://www.sciencedirect.com/science/article/pii/S0960982295001084
          StarGAN Choi, Yunjey, et al. 2018  https://arxiv.org/pdf/1711.09020.pdf
          ELEGANT Xiao, T. et al. 2018  https://arxiv.org/pdf/1803.10562.pdf
          Fonts dataset http://ilab.usc.edu/datasets/fonts
          ilab-20M  http://ilab.usc.edu/publications/doc/Borji_etal16cvpr.pdf
          RaFD dataset http://www.socsci.ru.nl:8180/RaFD2/RaFD#:~:text=The%20RaFD%20is%20a%20high,surprise%2C%20contempt%2C%20and%20neutral

          作者知乎原文鏈接:
          https://zhuanlan.zhihu.com/p/364895887

          如果覺得有用,就請分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺,獲取最新CV干貨


          推薦閱讀


          人腦是怎么防止梯度消失和梯度爆炸的?

          2020-10-25

          CVPR 2021 | 自適應(yīng)激活函數(shù)ACON: 統(tǒng)一ReLU和Swish的新范式

          2021-04-21

          妙??!不怕遮擋的圖像線段匹配 SOLD2,還能聯(lián)合自監(jiān)督線段檢測|CVPR2021 Oral

          2021-04-21



          CV技術(shù)社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~



          覺得有用麻煩給個在看啦~  
          瀏覽 56
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  美女又黄又免费 | 亚欧成人精品无码视频在线观看 | 免费久久一级欧美特大黄 | 奇米7777狠狠狠狠视频 | 欧美在线v |