一張草圖直接生成視頻游戲,谷歌推出生成交互大模型
專(zhuān)注AIGC領(lǐng)域的專(zhuān)業(yè)社區(qū),關(guān)注微軟&OpenAI、百度文心一言、訊飛星火等大語(yǔ)言模型(LLM)的發(fā)展和應(yīng)用落地,聚焦LLM的市場(chǎng)研究和AIGC開(kāi)發(fā)者生態(tài),歡迎關(guān)注!
谷歌DeepMind的研究人員推出了,首個(gè)無(wú)需數(shù)據(jù)標(biāo)記、無(wú)監(jiān)督訓(xùn)練的生成交互模型——Generative Interactive Environments,簡(jiǎn)稱(chēng)“Genie”。
Genie有110億參數(shù),可以根據(jù)圖像、真實(shí)照片甚至草圖,就能生成各種可控制動(dòng)作的視頻游戲。Genie之所以有如此神奇功能,主要使用了3萬(wàn)小時(shí),6800萬(wàn)段的游戲視頻進(jìn)行了大規(guī)模訓(xùn)練。
并且在訓(xùn)練過(guò)程中沒(méi)有使用任何真實(shí)動(dòng)作標(biāo)簽或其他特定提示 ,但Genie可以基于幀級(jí)別的,使用戶(hù)在生成的環(huán)境中進(jìn)行各種動(dòng)作控制非常強(qiáng)!
值得一提的是,Genie是一個(gè)通用基礎(chǔ)模型,也就是說(shuō)其學(xué)到的潛在動(dòng)作關(guān)系、序列、空間可以應(yīng)用在其他領(lǐng)域中。
論文地址:https://arxiv.org/abs/2402.15391
項(xiàng)目地址:https://sites.google.com/view/genie-2024/home
Genie功能展示
Genie的核心架構(gòu)用了ST-Transformer(時(shí)空變換器)。這是一種結(jié)合了Transformer模型的自注意力機(jī)制與時(shí)空數(shù)據(jù)的特性,以有效處理視頻、多傳感器時(shí)間序列、交通流量等時(shí)空數(shù)據(jù)。

ST-Transformer主要通過(guò)捕捉數(shù)據(jù)在時(shí)間和空間上的復(fù)雜依賴(lài)關(guān)系,提高了對(duì)時(shí)空序列的理解和預(yù)測(cè)能力 ,主要有3大模塊組成。
將一張草圖,直接生成可控的小游戲

轉(zhuǎn)化展示
視頻分詞器
這是一個(gè)基于VQ-VAE的模塊,可將原始視頻幀壓縮成離散的記號(hào)表示,以降低維度并提高后續(xù)模塊的視頻生成質(zhì)量。

這個(gè)過(guò)程類(lèi)似自然語(yǔ)言處理中的分詞,將連續(xù)的視頻幀序列分解為離散的視頻片段。
視頻分詞器使用了ST-transformer來(lái)對(duì)視頻進(jìn)行編碼,并生成對(duì)應(yīng)的視頻標(biāo)記。這些標(biāo)記將作為后續(xù)動(dòng)力學(xué)模型的輸入,用于預(yù)測(cè)下一幀視頻。
潛在動(dòng)作模型
這是一個(gè)無(wú)監(jiān)督學(xué)習(xí)模塊,可從原始視頻中推斷出觀察到的狀態(tài)變化對(duì)應(yīng)的潛在動(dòng)作。并根據(jù)這些潛在動(dòng)作實(shí)現(xiàn)對(duì)每一幀的控制。潛在動(dòng)作模型通過(guò)對(duì)視頻標(biāo)記序列進(jìn)行建模,學(xué)習(xí)到了不同幀之間的動(dòng)作關(guān)系。

具體來(lái)說(shuō),潛在動(dòng)作模型可以將一個(gè)視頻標(biāo)記序列作為輸入,并生成對(duì)應(yīng)的潛在動(dòng)作序列。這些潛在動(dòng)作序列可以用于控制生成環(huán)境中的每一幀,使用戶(hù)能夠在生成的交互環(huán)境中進(jìn)行精確的操作。
動(dòng)力學(xué)模型
主要基于潛在動(dòng)作模型學(xué)習(xí)到的動(dòng)作關(guān)系,根據(jù)潛在動(dòng)作和過(guò)去的幀標(biāo)記預(yù)測(cè)下一幀的視頻。可以把該模塊看作是一個(gè)預(yù)測(cè)模型,通過(guò)學(xué)習(xí)視頻序列的動(dòng)態(tài)變化模式,能夠生成逼真的連續(xù)視頻。
動(dòng)力學(xué)模型的輸入包括前一幀的圖像表示和當(dāng)前幀的動(dòng)作表示 。為了將圖像表示和動(dòng)作表示進(jìn)行融合,Genie采用了一個(gè)基于Transformer架構(gòu)的編碼器來(lái)對(duì)它們進(jìn)行編碼。

在編碼器中,首先對(duì)前一幀的圖像進(jìn)行編碼,并采用了一種視頻標(biāo)記器的方法,將圖像分割成若干個(gè)離散的標(biāo)記,每個(gè)標(biāo)記代表圖像中的一個(gè)局部區(qū)域。這種分割可以幫助模型捕捉到圖像中的空間信息。

當(dāng)前幀的動(dòng)作表示也通過(guò)編碼器進(jìn)行編碼。動(dòng)作表示可以是離散的動(dòng)作類(lèi)別或連續(xù)的動(dòng)作向量,具體的形式取決于具體的應(yīng)用場(chǎng)景。
編碼器將動(dòng)作表示轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的向量,以便與圖像表示進(jìn)行融合。在獲得圖像表示和動(dòng)作表示的編碼后,它們被輸入到動(dòng)力學(xué)模型中進(jìn)行預(yù)測(cè)。
本文素材來(lái)源Genie論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
END


