多模態(tài)可控?cái)U(kuò)散模型綜述
共 2396字,需瀏覽 5分鐘
·
2024-07-26 17:00
來源:專知 本文約1500字,建議閱讀5分鐘
本綜述提供了一個(gè)全面的分類框架,總結(jié)了擴(kuò)散模型圖像合成中各種形式的控制技術(shù)和策略,并探討了可控生成在不同應(yīng)用場(chǎng)景中的實(shí)踐。
研究背景 近年來,人工智能領(lǐng)域經(jīng)歷了跨越式發(fā)展,其中生成模型在計(jì)算機(jī)視覺、自然語言處理和強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域取得了長(zhǎng)足進(jìn)步。生成對(duì)抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)和歸一化流等傳統(tǒng)方法曾長(zhǎng)期占據(jù)主導(dǎo)地位,但近期擴(kuò)散模型(Diffusion Models)的興起引發(fā)了生成模型范式的轉(zhuǎn)變。擴(kuò)散模型由三個(gè)關(guān)鍵組成部分構(gòu)成:正向過程將數(shù)據(jù)分布轉(zhuǎn)化為隨機(jī)噪聲;反向過程使用可學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)逐步估計(jì)變換核從而逆轉(zhuǎn)正向過程;采樣過程利用優(yōu)化后的網(wǎng)絡(luò)從隨機(jī)噪聲生成數(shù)據(jù)。盡管在理論基礎(chǔ)、訓(xùn)練穩(wěn)定性和損失函數(shù)簡(jiǎn)潔性方面具有優(yōu)勢(shì),但擴(kuò)散模型通常需要更多的采樣時(shí)間,且難以控制和引導(dǎo)生成過程。為解決這些挑戰(zhàn),研究人員提出了多種解決方案,包括改進(jìn)的常微分方程(ODE)或隨機(jī)微分方程(SDE)求解器、模型蒸餾技術(shù)以加速采樣,以及引導(dǎo)機(jī)制來根據(jù)條件校正無條件生成的方向。這些條件可涵蓋圖像、文本或2D姿態(tài)等多種形式。
關(guān)于我們
數(shù)據(jù)派THU作為數(shù)據(jù)科學(xué)類公眾號(hào),背靠清華大學(xué)大數(shù)據(jù)研究中心,分享前沿?cái)?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)創(chuàng)新研究動(dòng)態(tài)、持續(xù)傳播數(shù)據(jù)科學(xué)知識(shí),努力建設(shè)數(shù)據(jù)人才聚集平臺(tái)、打造中國(guó)大數(shù)據(jù)最強(qiáng)集團(tuán)軍。
新浪微博:@數(shù)據(jù)派THU
微信視頻號(hào):數(shù)據(jù)派THU
今日頭條:數(shù)據(jù)派THU
