<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          OpenAI Sora的關(guān)鍵技術(shù)點(diǎn)

          共 8215字,需瀏覽 17分鐘

           ·

          2024-04-11 20:07

          ? ?

          看本文之前,如果你人云亦云的來(lái)一句: sora就是DiT架構(gòu),我表示理解。 但看完全文后你會(huì)發(fā)現(xiàn)

          • 如果只允許用10個(gè)字定義sora的模型結(jié)構(gòu),則可以是:潛在擴(kuò)散架構(gòu)下的Video Transformer

          • 如果允許25個(gè)字以?xún)?nèi),則是:帶文本條件融合且時(shí)空注意力并行計(jì)算的Video Diffusion Transformer

          更多內(nèi)容及細(xì)節(jié)見(jiàn)【視頻生成Sora的原理與復(fù)現(xiàn)】課,該課全面解析且從零復(fù)現(xiàn)sora縮略版↓

          ↓↓掃碼搶購(gòu)↓↓↓


          01

          Sora的三大Transformer組件

          1.1 從前置工作DALLE 2到sora的三大組件

          為方便大家更好的理解sora背后的原理,我們先來(lái)快速回顧下AI繪畫(huà)的原理(理解了AI繪畫(huà),也就理解了sora一半)

          以DALLE 2為例,如下圖所示(以下內(nèi)容來(lái)自此文:從CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion)

          CLIP訓(xùn)練過(guò)程: 學(xué)習(xí)文字與圖片的對(duì)應(yīng)關(guān)系  如上圖所示,CLIP的輸入是一對(duì)對(duì)配對(duì)好的的圖片-文本對(duì)(根據(jù)對(duì)應(yīng)文本一條狗,去匹配一條狗的圖片),這些文本和圖片分別通過(guò)Text Encoder和Image Encoder輸出對(duì)應(yīng)的特征,然后在這些輸出的文字特征和圖片特征上進(jìn)行對(duì)比學(xué)習(xí)

          DALL·E2:prior + decoder  上面的CLIP訓(xùn)練好之后,就將其凍住了,不再參與任何訓(xùn)練和微調(diào),DALL·E2訓(xùn)練時(shí),輸入也是文本-圖像對(duì),下面就是DALL·E2的兩階段訓(xùn)練: 階段一 prior的訓(xùn)練:根據(jù)文本特征(即CLIP text encoder編碼后得到的文本特征),預(yù)測(cè)圖像特征(CLIP image encoder編碼后得到的圖片特征)   換言之,prior模型的輸入就是上面CLIP編碼的文本特征,然后利用文本特征預(yù)測(cè)圖片特征(說(shuō)明白點(diǎn),即圖中右側(cè)下半部分預(yù)測(cè)的圖片特征的ground truth,就是圖中右側(cè)上半部分經(jīng)過(guò)CLIP編碼的圖片特征),就完成了prior的訓(xùn)練   推理時(shí),文本還是通過(guò)CLIP text encoder得到文本特征,然后根據(jù)訓(xùn)練好的prior得到類(lèi)似CLIP生成的圖片特征,此時(shí)圖片特征應(yīng)該訓(xùn)練的非常好,不僅可以用來(lái)生成圖像,而且和文本聯(lián)系的非常緊(包含豐富的語(yǔ)義信息)  階段二 decoder生成圖:常規(guī)的擴(kuò)散模型解碼器,解碼生成圖像  這里的decoder就是升級(jí)版的GLIDE(GLIDE基于擴(kuò)散模型),所以說(shuō)DALL·E2 = CLIP + GLIDE

          所以對(duì)于DALLE 2來(lái)說(shuō),正因?yàn)榻?jīng)過(guò)了大量上面這種訓(xùn)練,所以便可以根據(jù)人類(lèi)給定的prompt畫(huà)出人類(lèi)預(yù)期的畫(huà)作,說(shuō)白了,可以根據(jù)text預(yù)測(cè)畫(huà)作長(zhǎng)什么樣

          最終,sora由三大Transformer組件組成(如果你還不了解transformer或注意力機(jī)制,請(qǐng)讀此文):Visual Encoder(即Video transformer,類(lèi)似下文將介紹的ViViT)、Diffusion Transformer、Transformer Decoder,具體而言

          1. 訓(xùn)練中,給定一個(gè)原始視頻

            Visual Encoder將視頻壓縮到較低維的潛在空間(潛在空間這個(gè)概念在stable diffusion中用的可謂爐火純青了,詳見(jiàn)此文的第三部分)

            然后把視頻分解為在時(shí)間和空間上壓縮的潛在表示(不重疊的3D patches),即所謂的一系列時(shí)空Patches

            再將這些patches拉平成一個(gè)token序列,這個(gè)token序列其實(shí)就是原始視頻的表征:visual token序列

          2. Sora 在這個(gè)壓縮的潛在空間中接受訓(xùn)練,還是類(lèi)似擴(kuò)散模型那一套,先加噪、再去噪  這里,有兩點(diǎn)必須注意的是  1 擴(kuò)散過(guò)程中所用的噪聲估計(jì)器U-net被替換成了transformer結(jié)構(gòu)的DiT(加之視覺(jué)元素轉(zhuǎn)換成token之后,transformer擅長(zhǎng)長(zhǎng)距離建模,下文詳述DiT)  2 視頻中這一系列幀在上個(gè)過(guò)程中是同時(shí)被編碼的,去噪也是一系列幀并行去噪的(每一幀逐步去噪、多幀并行去噪)

           此外,去噪過(guò)程中,可以加入去噪的條件(即 text condition ),這個(gè)去噪條件一開(kāi)始可以是原始視頻 的描述,后續(xù)還可以是基于原視頻進(jìn)行二次創(chuàng)作的prompt

          比如可以將visual tokens視為query,將text tokens作為key和value,然后類(lèi)似SD那樣做cross attention

          3. OpenAI 還訓(xùn)練了相應(yīng)的Transformer解碼器模型,將生成的潛在表示映射回像素空間,從而生成視頻

          你會(huì)發(fā)現(xiàn),上述整個(gè)過(guò)程,其實(shí)和SD的原理是有較大的相似性(SD原理詳見(jiàn)此文《從CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion》的3.2節(jié)),當(dāng)然,不同之處也有很多,比如視頻需要一次性還原多幀、圖像只需要還原一幀

          網(wǎng)上也有不少人畫(huà)出了sora的架構(gòu)圖,比如來(lái)自魔搭社區(qū)的

          1.2 如何理解所謂的時(shí)空編碼(含其好處)

          首先,一個(gè)視頻無(wú)非就是沿著時(shí)間軸分布的圖像序列而已


          但其中有個(gè)問(wèn)題是,因?yàn)橄袼氐年P(guān)系,一張圖像有著比較大的維度(比如250 x

          250),即一張圖片上可能有著5萬(wàn)多個(gè)元素,如果根據(jù)上一張圖片的5萬(wàn)多元素去逐一交互下一張圖片的5萬(wàn)多個(gè)元素,未免工程過(guò)于浩大(而且,即便是同一張圖片上的5萬(wàn)多個(gè)像素點(diǎn)之間兩兩做self-attention,你都會(huì)發(fā)現(xiàn)計(jì)算復(fù)雜度超級(jí)高)

          1. 故為降低處理的復(fù)雜度,可以類(lèi)似ViT把一張圖像劃分為九宮格(如下圖的左下角),如此,處理9個(gè)圖像塊總比一次性處理250 x 250個(gè)像素維度 要好不少吧(ViT的出現(xiàn)直接挑戰(zhàn)了此前CNN在視覺(jué)領(lǐng)域長(zhǎng)達(dá)近10年的絕對(duì)統(tǒng)治地位,其原理細(xì)節(jié)詳見(jiàn)本文開(kāi)頭提到的此文第4部分)  

          2. 當(dāng)我們理解了一張靜態(tài)圖像的patch表示之后(不管是九宮格,還是16 x 9個(gè)格),再來(lái)理解所謂的時(shí)空Patches就簡(jiǎn)單多了,無(wú)非就是在縱向上加上時(shí)間的維度,比如t1 t2 t3 t4 t5 t6  而一個(gè)時(shí)空patch可能跨3個(gè)時(shí)間維度,當(dāng)然,也可能跨5個(gè)時(shí)間維度  

           如此,同時(shí)間段內(nèi)不同位置的立方塊可以做橫向注意力交互——空間編碼不同時(shí)間段內(nèi)相同位置的立方塊則可以做縱向注意力交互——時(shí)間編碼  (如果依然還沒(méi)有特別理解,沒(méi)關(guān)系,可以再看下下文第二部分中對(duì)ViViT的介紹)  

           

          可能有同學(xué)問(wèn),這么做有什么好處呢? 好處太多了

          • 一方面,時(shí)空建模之下,不僅提高單幀的流暢、更提高幀與幀之間的流暢,畢竟有Transformer的注意力機(jī)制,那無(wú)論哪一幀圖像,各個(gè)像素塊都不再是孤立的存在,都與周?chē)脑鼐o密聯(lián)系

          • 二方面,可以兼容所有的數(shù)據(jù)素材:一個(gè)靜態(tài)圖像不過(guò)是時(shí)間=0的一系列時(shí)空patch,不同的像素尺寸、不同的時(shí)間長(zhǎng)短,都可以通過(guò)組合一系列 “時(shí)空patch” 得到

          總之,基于 patches 的表示,使 Sora 能夠?qū)Σ煌直媛省⒊掷m(xù)時(shí)間和長(zhǎng)寬比的視頻和圖像進(jìn)行訓(xùn)練。在推理時(shí),也可以可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的 patches 來(lái)控制生成視頻的大小

          如Tim Brooks所說(shuō),把各種各樣的圖片和視頻,不管是寬屏的、長(zhǎng)條的、小片的、高清的還是低清的,都把它們分割成一小塊一小塊的

           接著,便可以根據(jù)輸入視頻的大小,訓(xùn)練模型認(rèn)識(shí)不同數(shù)量的小塊,從而生成不同分辨率/長(zhǎng)寬比的視頻


          所以說(shuō),ViT本身就能夠處理任意長(zhǎng)寬比(不同長(zhǎng)寬比相當(dāng)于不同數(shù)量的圖片patch),但谷歌的 Patch n’ Pack (NaViT)可以提供了一種更為高效的訓(xùn)練方法,關(guān)于NaViT的更多細(xì)節(jié)詳見(jiàn)下文的介紹

          而過(guò)去的圖像和視頻生成方法通常需要調(diào)整大小、進(jìn)行裁剪或者是將視頻剪切到標(biāo)準(zhǔn)尺寸,例如 4 秒的視頻分辨率為 256x256。相反,該研究發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練,最終提供以下好處:

          首先,是采樣的靈活性:Sora 可以采樣寬屏視頻 1920x1080p,垂直視頻 1920x1080p 以及兩者之間的視頻。這使 Sora 可以直接以其天然縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。Sora 還允許在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型 —— 所有內(nèi)容都使用相同的模型   其次,使用視頻的原始長(zhǎng)寬比進(jìn)行訓(xùn)練可以提升內(nèi)容組成和幀的質(zhì)量  其他模型一般將所有訓(xùn)練視頻裁剪成正方形,而經(jīng)過(guò)正方形裁剪訓(xùn)練的模型生成的視頻(如下圖左側(cè)),其中的視頻主題只是部分可見(jiàn);相比之下,Sora 生成的視頻具有改進(jìn)的幀內(nèi)容(如下圖右側(cè))   

          1.3 Diffusion Transformer(DiT): 擴(kuò)散過(guò)程中以Transformer為骨干網(wǎng)絡(luò)

          sora不是第一個(gè)把擴(kuò)散模型和transformer結(jié)合起來(lái)用的模型,但是第一個(gè)取得巨大成功的,為何說(shuō)它是結(jié)合體呢
          1. 一方面,它類(lèi)似擴(kuò)散模型那一套流程,給定輸入噪聲patches(以及文本提示等調(diào)節(jié)信息),訓(xùn)練出的模型來(lái)預(yù)測(cè)原始的不帶噪聲的patches「Sora is a diffusion model, given input noisy patches (and conditioning information like text prompts), it’s trained to predict the original “clean” patches」  類(lèi)似把視頻中的一幀幀畫(huà)面打上各種馬賽克,然后訓(xùn)練一個(gè)模型,讓它學(xué)會(huì)去除各種馬賽克,且一開(kāi)始各種失敗沒(méi)關(guān)系,反正有原畫(huà)面作為ground truth,不斷縮小與原畫(huà)面之間的差異即可  而當(dāng)把一幀幀圖片打上全部馬賽克之后,可以根據(jù)”文本-視頻數(shù)據(jù)集”中對(duì)視頻的描述/prompt(該描述/prompt不僅僅只是通過(guò)CLIP去與視頻對(duì)齊,還經(jīng)過(guò)類(lèi)似DALLE 3所用的重字幕技術(shù)加強(qiáng) + GPT4對(duì)字幕的進(jìn)一步豐富,下節(jié)詳述),而有條件的去噪
          2. 另一方面,它把DPPM中的噪聲估計(jì)器所用的卷積架構(gòu)U-Net換成了Transformer架構(gòu)
          總之,總的來(lái)說(shuō),Sora是一個(gè)在不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),如sora官博所說(shuō),Sora is a diffusion transformer,簡(jiǎn)稱(chēng)DiT(當(dāng)然,可能有朋友發(fā)現(xiàn)了,這句話說(shuō)的過(guò)于簡(jiǎn)略,畢竟DiT還只是處理2D圖像生成,且整個(gè)處理框架還處在VAE的框架之下,涉及到VAE encoder和VAE decoder) 關(guān)于DiT的更多細(xì)節(jié)詳見(jiàn)后面文章關(guān)于的DiT介紹

          02

          基于DALLE 3的重字幕技術(shù):提升文本-視頻數(shù)據(jù)質(zhì)量

          2.1 DALLE 3的重字幕技術(shù):為文本-視頻數(shù)據(jù)集打上字幕且用GPT把字幕詳細(xì)化

          首先,訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻,而通過(guò)CLIP技術(shù)給視頻對(duì)齊的文本描述,有時(shí)質(zhì)量較差,故為進(jìn)一步提高文本-視頻數(shù)據(jù)集的質(zhì)量,研究團(tuán)隊(duì)將 DALL?E 3 中的重字幕(re-captioning)技術(shù)應(yīng)用于視頻
          1. 具體來(lái)說(shuō),研究團(tuán)隊(duì)首先訓(xùn)練一個(gè)高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中所有視頻生成文本字幕
          2. 與DALLE 3類(lèi)似,研究團(tuán)隊(duì)還利用 GPT 將用戶(hù)簡(jiǎn)短的prompt 轉(zhuǎn)換為較長(zhǎng)的詳細(xì)字幕,然后發(fā)送給視頻模型(Similar to DALL·E 3, we also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model),這使得 Sora 能夠生成準(zhǔn)確遵循詳細(xì)字幕或詳細(xì)prompt 的高質(zhì)量視頻
          關(guān)于DALLE 3的重字幕技術(shù)更具體的細(xì)節(jié)請(qǐng)見(jiàn)此文2.3節(jié)《 AI繪畫(huà)原理解析:從CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion
          2.3 DALLE 3: Improving Image Generation with Better Captions
          2.3.1 為提高文本圖像配對(duì)數(shù)據(jù)集的質(zhì)量: 基于谷歌的CoCa微調(diào)出圖像字幕生成器
          2.3.1.1 什么是谷歌的CoCa
          2.1.1.2 分別通過(guò)短caption、長(zhǎng)caption微調(diào)預(yù)訓(xùn)練好的image captioner
           2.1.1.3 為提高合成caption對(duì)文生圖模型的性能:采用描述詳細(xì)的長(zhǎng)caption,訓(xùn)練的混合比例高達(dá)95%..

          2.2 類(lèi)似VDT或Google的W.A.L.T工作:引入auto regressive進(jìn)行視頻預(yù)測(cè)或擴(kuò)展

          其次,如之前所述,為了保證視頻的一致性,模型層不是通過(guò)多個(gè)stage方式來(lái)進(jìn)行預(yù)測(cè),而是整體預(yù)測(cè)了整個(gè)視頻的latent(即去噪時(shí)非先去噪幾幀,再去掉幾幀,而是一次性去掉全部幀的噪聲)

          但在視頻內(nèi)容的擴(kuò)展上,比如從一段已有的視頻向后拓展出新視頻的訓(xùn)練過(guò)程中可能引入了auto regressive的task,以幫助模型更好的進(jìn)行視頻特征和幀間關(guān)系的學(xué)習(xí) 更多可以參考下文Google的W.A.L.T工作,或下文“2.3.2 VDT的視頻預(yù)測(cè)方案:把視頻前幾幀作為條件幀自回歸預(yù)測(cè)下一幀”

          03

          對(duì)真實(shí)物理世界的模擬能力

          3.1 sora學(xué)習(xí)了大量關(guān)于3D幾何的知識(shí)

          OpenAI 發(fā)現(xiàn),視頻模型在經(jīng)過(guò)大規(guī)模訓(xùn)練后,會(huì)表現(xiàn)出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動(dòng)物和環(huán)境的某些方面。這些特性的出現(xiàn)沒(méi)有任何明確的三維、物體等歸納偏差 — 它們純粹是規(guī)模現(xiàn)象

          1. 三維一致性(下圖左側(cè))  Sora 可以生成動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中的移動(dòng)是一致的  針對(duì)這點(diǎn),sora一作Tim Brooks說(shuō)道,sora學(xué)習(xí)了大量關(guān)于3D幾何的知識(shí),但是我們并沒(méi)有事先設(shè)定這些,它完全是從大量數(shù)據(jù)中學(xué)習(xí)到的長(zhǎng)序列連貫性和目標(biāo)持久性(上圖右側(cè))  

          視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在對(duì)長(zhǎng)視頻進(jìn)行采樣時(shí)保持時(shí)間一致性  例如,即使人、動(dòng)物和物體被遮擋或離開(kāi)畫(huà)面,Sora 模型也能保持它們的存在。 同樣,它還能在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。

          與世界互動(dòng)(下圖左側(cè))  Sora 有時(shí)可以模擬以簡(jiǎn)單方式影響世界狀態(tài)的動(dòng)作。例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而持續(xù),而視頻中一個(gè)人咬一口面包 則面包上會(huì)有一個(gè)被咬的缺口?   模擬數(shù)字世界(上圖右側(cè))  視頻游戲就是一個(gè)例子。 Sora 可以通過(guò)基本策略同時(shí)控制 Minecraft 中的玩家,同時(shí)高保真地呈現(xiàn)世界及其動(dòng)態(tài)。 只需在 Sora 的提示字幕中提及 「Minecraft」,就能零樣本激發(fā)這些功能。

          ? 3.2 sora真的會(huì)模擬真實(shí)物理世界了么

          對(duì)于“sora真的會(huì)模擬真實(shí)物理世界”這個(gè)問(wèn)題,網(wǎng)上的解讀非常多,很多人說(shuō)sora是通向通用AGI的必經(jīng)之路、不只是一個(gè)視頻生成,更是模擬真實(shí)物理世界的模擬器,這個(gè)事 我個(gè)人覺(jué)得從技術(shù)的客觀角度去探討更合適,那樣會(huì)讓咱們的思維、認(rèn)知更冷靜,而非人云亦云、最終不知所云

          首先,作為“物理世界的模擬器”,需要能夠在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實(shí),為用戶(hù)提供一個(gè)逼真且不違反「物理規(guī)律」的數(shù)字世界 比如蘋(píng)果不能突然在空中漂浮,這不符合牛頓的萬(wàn)有引力定律;比如在光線照射下,物體產(chǎn)生的陰影和高光的分布要符合光影規(guī)律等;比如物體之間產(chǎn)生碰撞后會(huì)破碎或者彈開(kāi)

          其次,李志飛等人在《為什么說(shuō) Sora 是世界的模擬器?》一文中提到,技術(shù)上至少有兩種方式可以實(shí)現(xiàn)這樣的模擬器

          • 一種是通過(guò)大數(shù)據(jù)學(xué)習(xí)出一個(gè)AI系統(tǒng)來(lái)模擬這個(gè)世界,比如說(shuō)本文討論的Sora能get到:“樹(shù)葉在溪流中順流而下”這句話所對(duì)應(yīng)的物體運(yùn)動(dòng)軌跡是什么,更何況sora訓(xùn)練時(shí)還有LLM的夾持(別忘了上文1.2.1節(jié)中說(shuō)的:與DALLE 3類(lèi)似,研究團(tuán)隊(duì)還利用 GPT 將用戶(hù)簡(jiǎn)短的prompt 轉(zhuǎn)換為較長(zhǎng)的詳細(xì)字幕,然后發(fā)送給視頻模型)  比如在大量的文本-視頻數(shù)據(jù)集中,GPT給一個(gè)視頻寫(xiě)的更豐富的文本描述是:“路面積水反射出大樓的倒影”,而Sora遵循文本能力強(qiáng),那Sora就能固定或機(jī)械的記憶住該物理定律,但其實(shí)這個(gè)物理規(guī)則來(lái)自于GPT寫(xiě)的Prompt
          • 另外一種是弄懂物理世界各種現(xiàn)象背后的數(shù)學(xué)原理,并把這些原理手工編碼到計(jì)算機(jī)程序里,從而讓計(jì)算機(jī)程序“渲染”出物理世界需要的各種人、物、場(chǎng)景、以及他們之間的互動(dòng)
          虛幻引擎(Unreal Engine,UE)就是這種物理世界的模擬器
          它內(nèi)置了光照、碰撞、動(dòng)畫(huà)、剛體、材質(zhì)、音頻、光電等各種數(shù)學(xué)模型。 一個(gè)開(kāi)發(fā)者只需要提供人、物、場(chǎng)景、交互、劇情等配置,系統(tǒng)就能做出一個(gè)交互式的游戲,這種交互式的游戲可以看成是一個(gè)交互式的動(dòng)態(tài)視頻
          UE 這類(lèi)渲染引擎所創(chuàng)造的游戲世界已經(jīng)能夠在某種程度上模擬物理世界,只不過(guò)它是通過(guò)人工數(shù)學(xué)建模及渲染而成,而非通過(guò)模型從數(shù)據(jù)中自我學(xué)習(xí)。而且,它也沒(méi)有和語(yǔ)言代表的認(rèn)知模型連接起來(lái),因此本質(zhì)上缺乏世界常識(shí)。而 Sora 代表的AI系統(tǒng)有可能避免這些缺陷和局限
          不同于 UE 這一類(lèi)渲染引擎, Sora 并沒(méi)有顯式地對(duì)物理規(guī)律背后的數(shù)學(xué)公式去“硬編碼”,而是通過(guò)對(duì)互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí) ,從而能夠在給定一段文字描述的條件下生成不違反物理世界規(guī)律的長(zhǎng)視頻
          與 UE 這一類(lèi)“硬編碼”的物理渲染引擎不同,Sora 視頻創(chuàng)作的想象力來(lái)自于它端到端的數(shù)據(jù)驅(qū)動(dòng),以及跟LLM這類(lèi)認(rèn)知模型的無(wú)縫結(jié)合(比如ChatGPT已經(jīng)確定了基本的物理常識(shí)) 最后值得一提的是,Sora 的訓(xùn)練可能用了 UE 合成的數(shù)據(jù),但 Sora 模型本身應(yīng)該沒(méi)有調(diào)用 UE 的能力。

          更多內(nèi)容及細(xì)節(jié)見(jiàn)【視頻生成Sora的原理與復(fù)現(xiàn)】課,該課全面解析且從零復(fù)現(xiàn)sora縮略版↓

          開(kāi)課時(shí)間:24年4.30晚上8.30直播,每周二晚上直播

          課時(shí):13次直播,每次近2h

          ↓↓掃碼搶購(gòu)↓↓↓


          點(diǎn)擊 閱讀原文 ”了解 課程詳情 ~ ? ?
          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无吗在线 | 天天成人电影 | 久久久噜噜噜久久中文字幕色伊伊 | 欧美精品色图视频 | 奇米影视狠狠干 |