九九九,三级片,狠狠操网站,欧一美一交一乱一交免费看,就去操逼伊人,尻屄在线观看网站,免费毛片视频网站在线观看,国产精品久久久久久成人,色五月婷婷色

新智元報道

編輯：編輯部

【新智元導(dǎo)讀】OpenAI首個AI視頻模型Sora橫空出世，再次創(chuàng)造歷史。這個堪稱「世界模型」的技術(shù)報告也在今天發(fā)布了，不過依然沒有公開具體訓(xùn)練細(xì)節(jié)。

昨天白天，「現(xiàn)實不存在了」開始全網(wǎng)刷屏。

「我們這么快就步入下一個時代了？Sora簡直太炸裂了」。

「這就是電影制作的未來」！

谷歌的Gemini Pro 1.5還沒出幾個小時的風(fēng)頭，天一亮，全世界的聚光燈就集中在了OpenAI的Sora身上。

Sora一出，眾視頻模型臣服。

就在幾小時后，OpenAI Sora的技術(shù)報告也發(fā)布了！

其中，「里程碑」也成為報告中的關(guān)鍵詞。

報告地址：https://openai.com/research/video-generation-models-as-world-simulators

技術(shù)報告主要介紹了兩個方面：

（1）如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式，以便于對生成模型進行大規(guī)模訓(xùn)練的方法；

（2）對Sora的能力和局限性的定性評價。

不過遺憾的是，報告不包括模型和實現(xiàn)細(xì)節(jié)。嗯，OpenAI還是那個「OpenAI」。

就連馬斯克都被Sora生成效果震撼到，并表示「gg人類」。

打造虛擬世界模擬器

此前，OpenAI的研究者一直在探索的一個難題就是，究竟怎樣在視頻數(shù)據(jù)上，應(yīng)用大規(guī)模訓(xùn)練的生成模型？

為此，研究者同時對對持續(xù)時間、分辨率和寬高比各不相同的視頻和圖片進行了訓(xùn)練，而這一過程正是基于文本條件的擴散模型。

他們采用了Transformer架構(gòu)，這種架構(gòu)能夠處理視頻和圖片中時空片段的潛代碼。

隨之誕生的最強大模型Sora，也就具備了生成一分鐘高質(zhì)量視頻的能力。

OpenAI研究者發(fā)現(xiàn)了令人驚喜的一點：擴展視頻生成模型的規(guī)模，是構(gòu)建模擬物理世界通用模擬器的非常有希望的方向。

也就是說，順著這個方向發(fā)展，或許LLM真的能夠成為世界模型！

Sora的獨到之處在于哪里？

要知道，以前的許多研究，都是通過各種技術(shù)對視頻數(shù)據(jù)進行生成模型建模，比如循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸Transformer和擴散模型等方法。

它們往往只關(guān)注于特定類型的視覺數(shù)據(jù)、較短的視頻或者固定尺寸的視頻。

而Sora與它們不同，它是一種通用的視覺數(shù)據(jù)模型，能夠生成各種持續(xù)時間、寬高比和分辨率的視頻和圖片，甚至長達(dá)一分鐘的高清視頻。

有網(wǎng)友表示，「Sora雖然有一些不完美之處（可以檢測出來），例如從物理效果可以看出它是人工合成的。但是，它將會革命性地改變許多行業(yè)。

想象一下可以生成動態(tài)的、個性化的廣告視頻進行精準(zhǔn)定位，這將是一個萬億美元的產(chǎn)業(yè)」！

為了驗證SORA的效果，業(yè)界大佬Gabor Cselle把它和Pika、RunwayML和Stable Video進行了對比。

首先，他采用了與OpenAI示例中相同的Prompt。

結(jié)果顯示，其他主流工具生成的視頻都大約只有5秒鐘，而SORA可以在一段長達(dá)17秒視頻場景中，保持動作和畫面一致性。

隨后，他將SORA的起始畫面用作參照，努力通過調(diào)整命令提示和控制相機動作，嘗試使其他模型產(chǎn)出與SORA類似的效果。

相比之下，SORA在處理較長視頻場景方面的表現(xiàn)顯著更出色。

看到如此震撼的效果，也難怪業(yè)內(nèi)人士都在感嘆，SORA在AI視頻制作領(lǐng)域確實具有革命性意義。

將視覺數(shù)據(jù)轉(zhuǎn)化為patch

LLM之所以會成功，就是因為它們在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行了訓(xùn)練，獲得了廣泛能力。

它成功的一大關(guān)鍵，就是使用了token，這樣，文本的多種形態(tài)——代碼、數(shù)學(xué)公式以及各種自然語言，就優(yōu)雅地統(tǒng)一了起來。

OpenAI的研究者，正是從中找到了靈感。

該如何讓視覺數(shù)據(jù)的生成模型繼承token的這種優(yōu)勢？

注意，不同于LLM使用的文本token，Sora使用的是視覺patch。

此前已有研究表明，patch對視覺數(shù)據(jù)建模非常有效。

OpenAI研究者驚喜地發(fā)現(xiàn)，patch這種高度可擴展的有效表征形式，正適用于訓(xùn)練能處理多種類型視頻和圖片的生成模型。

從宏觀角度來看，研究者首先將視頻壓縮到一個低維潛空間中，隨后把這種表征分解為時空patch，這樣就實現(xiàn)了從視頻到patch的轉(zhuǎn)換。

視頻壓縮網(wǎng)絡(luò)

研究者開發(fā)了一個網(wǎng)絡(luò)，來減少視覺數(shù)據(jù)的維度。

這個網(wǎng)絡(luò)可以接受原始視頻作為輸入，并輸出一個在時間上和空間上都進行了壓縮的潛表征。

Sora在這個壓縮后的潛空間中進行訓(xùn)練，之后用于生成視頻。

另外，研究者還設(shè)計了一個對應(yīng)的解碼器模型，用于將生成的潛數(shù)據(jù)轉(zhuǎn)換回像素空間。

潛空間patch

對于一個壓縮后的輸入視頻，研究者提取看一系列空間patch，作為Transformer的token使用。

這個方案同樣適用于圖像，因為圖像可以被視為只有一幀的視頻。

基于patch的表征方法，研究者使得Sora能夠處理不同分辨率、持續(xù)時間和縱橫比的視頻和圖像。

在推理時，可以通過在一個合適大小的網(wǎng)格中適當(dāng)排列隨機初始化的patch，從而控制生成視頻的大小。

擴展Transformer

因此，視頻模型Sora是一個擴散模型；它能夠接受帶有噪聲的patch（和條件信息，如文本提示）作為輸入，隨后被訓(xùn)練，來預(yù)測原始的「干凈」patch。

重要的是，Sora是基于Transformer的擴散模型。在以往，Transformer在語言模型、計算機視覺和圖像生成等多個領(lǐng)域，都表現(xiàn)出卓越的擴展能力。

令人驚喜的是，在這項工作中，研究者發(fā)現(xiàn)作為視頻模型的擴散Transformer，也能有效地擴展。

下圖展示了訓(xùn)練過程中使用固定種子和輸入的視頻樣本比較。

隨著訓(xùn)練計算資源的增加，樣本質(zhì)量顯著提升。

視頻的多樣化表現(xiàn)

傳統(tǒng)上，圖像和視頻的生成技術(shù)往往會將視頻統(tǒng)一調(diào)整到一個標(biāo)準(zhǔn)尺寸，比如4秒鐘、分辨率256x256的視頻。

然而，OpenAI研究者發(fā)現(xiàn)，直接在視頻的原始尺寸上進行訓(xùn)練，能帶來諸多好處。

靈活的視頻制作

Sora能夠制作各種尺寸的視頻，從寬屏的1920x1080到豎屏的1080x1920，應(yīng)有盡有。

這也就意味著，Sora能夠為各種設(shè)備制作適配屏幕比例的內(nèi)容！

它還可以先以較低分辨率快速制作出視頻原型，再用相同的模型制作出全分辨率的視頻。

更優(yōu)的畫面表現(xiàn)

實驗發(fā)現(xiàn)，直接在視頻原始比例上訓(xùn)練，能夠顯著提升視頻的畫面表現(xiàn)和構(gòu)圖效果。

因此，研究者將Sora與另一個版本的模型進行了比較，后者會將所有訓(xùn)練視頻裁剪為正方形，這是生成模型訓(xùn)練中的常見做法。

與之相比，Sora生成的視頻（右側(cè)）在畫面構(gòu)成上則有了明顯的改進。

深入的語言理解

訓(xùn)練文本到視頻的生成系統(tǒng)，需要大量配有文本說明的視頻。

研究者采用了DALL·E 3中的重新標(biāo)注技術(shù)，應(yīng)用在了視頻上。

首先，研究者訓(xùn)練了一個能生成詳細(xì)描述的標(biāo)注模型，然后用它為訓(xùn)練集中的所有視頻，生成文本說明。

他們發(fā)現(xiàn)，使用詳細(xì)的視頻說明進行訓(xùn)練，不僅能提高文本的準(zhǔn)確性，還能提升視頻的整體質(zhì)量。

類似于DALL·E 3，研究者也使用了GPT，把用戶的簡短提示轉(zhuǎn)化為詳細(xì)的說明，然后這些說明會被輸入到視頻模型中。

這樣，Sora就能根據(jù)用戶的具體要求，生成高質(zhì)量、準(zhǔn)確無誤的視頻。

圖像和視頻的多樣化提示

雖然展示的案例，都是Sora將文本轉(zhuǎn)換為視頻的demo，但其實，Sora的能力不止于此。

它還可以接受圖像或視頻等其他形式的輸入。

這就讓Sora能夠完成一系列圖像和視頻編輯任務(wù)，比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動態(tài)、在時間線上擴展視頻的長度等等。

為DALL·E圖像賦予生命

Sora能夠接受一張圖像和文本提示，然后基于這些輸入生成視頻。

下面即是Sora基于DALL·E 2和DALL·E 3圖像生成的視頻。

一只戴貝雷帽和黑高領(lǐng)衫的柴犬

一家五口怪物的插畫，采用了簡潔明快的扁平設(shè)計風(fēng)格。其中包括一只毛茸茸的棕色怪物，一只光滑的黑色怪物長著天線，還有一只綠色的帶斑點怪物和一只小巧的帶波點怪物，它們在一個歡快的場景中相互玩耍。

一張逼真的云朵照片，上面寫著「SORA」。

在一個典雅古老的大廳內(nèi)，一道巨浪滔天，正要破浪而下。兩位沖浪者把握時機，巧妙地滑行在浪尖上。

視頻時間線的靈活擴展

Sora不僅能生成視頻，還能將視頻沿時間線向前或向后擴展。

可以看到，demo中的視頻都是從同一個視頻片段開始，向時間線的過去延伸。盡管開頭各不相同，但它們最終都匯聚于同一個結(jié)尾。

而通過這種方法，我們就能將視頻向兩個方向延伸，創(chuàng)造出一個無縫的循環(huán)視頻。

圖像的生成能力

同樣，Sora也擁有生成圖像的能力。

為此，研究者將高斯噪聲patch排列在空間網(wǎng)格中，時間范圍為一幀。

該模型可生成不同大小的圖像，分辨率最高可達(dá)2048x2048像素。

左：一位女士在秋季的特寫照片，細(xì)節(jié)豐富，背景模糊。

右：一個生機勃勃的珊瑚礁，居住著五顏六色的魚類和海洋生物。

左：一幅數(shù)字繪畫，描繪了一只幼年老虎在蘋果樹下，采用了精美的啞光畫風(fēng)。

右：一個被雪覆蓋的山村，溫馨的小屋和壯麗的北極光相映成趣，畫面細(xì)膩逼真，采用了50mm f/1.2鏡頭拍攝。

視頻風(fēng)格和環(huán)境的變換

利用擴散模型，就能通過文本提示來編輯圖像和視頻。

在這里，研究者將一種名為SDEdit的技術(shù)應(yīng)用于Sora，使其能夠不需要任何先驗樣本，即可改變視頻的風(fēng)格和環(huán)境。

視頻之間的無縫連接

另外，還可以利用Sora在兩個不同的視頻之間創(chuàng)建平滑的過渡效果，即使這兩個視頻的主題和場景完全不同。

在下面的demo中，中間的視頻就實現(xiàn)了從左側(cè)到右側(cè)視頻的平滑過渡。

一個是城堡，一個是雪中小屋，非常自然地融進一個畫面中。

涌現(xiàn)的模擬能力

隨著大規(guī)模訓(xùn)練的深入，可以發(fā)現(xiàn)視頻模型展現(xiàn)出了許多令人興奮的新能力。

Sora利用這些能力，能夠在不需要專門針對3D空間、物體等設(shè)置特定規(guī)則的情況下，就模擬出人類、動物以及自然環(huán)境的某些特征。

這些能力的出現(xiàn)，完全得益于模型規(guī)模的擴大。

3D空間的真實感

Sora能創(chuàng)造出帶有動態(tài)視角變化的視頻，讓人物和場景元素在三維空間中的移動，看起來十分自然。

如下，一對情侶漫步在雪天中的東京，視頻的生成和真實的運鏡效果大差不差了。

再比如，Sora擁有更加遼闊的視野，生成山水風(fēng)景與人徒步爬山的視頻，有種無人機拍攝出的巨制趕腳。

視頻的一致性和物體的持續(xù)存在

在生成長視頻時，保持場景和物體隨時間的連續(xù)性一直是個挑戰(zhàn)。

Sora能夠較好地處理這一問題，即便在物體被遮擋或離開畫面時，也能保持其存在感。

下面例子中，窗臺前的花斑狗，即便中途有多個路人經(jīng)過，它的樣子依舊保持一致。

例如，它可以在一個視頻中多次展示同一個角色，而且角色的外觀在整個視頻中保持一致。

賽博風(fēng)格的機器人，從前到后旋轉(zhuǎn)一圈，都沒有跳幀。

與世界的互動

甚至，Sora能模擬出影響世界狀態(tài)的簡單行為。

比如，畫家畫的櫻花樹，水彩紙上留下了持久的筆觸。

又或是，人吃漢堡時留下的咬痕清晰可見，Sora的生成符合物理世界的規(guī)則。

數(shù)字世界的模擬

Sora不僅能模擬現(xiàn)實世界，還能夠模擬數(shù)字世界，比如視頻游戲。

以「Minecraft」為例，Sora能夠在控制玩家角色的同時，以高度逼真的方式渲染游戲世界和動態(tài)變化。

而且，只需通過簡單的提示，如提及「Minecraft」，Sora就能展現(xiàn)這些能力。

這些新能力顯示出，持續(xù)擴大視頻模型規(guī)模是一個極有希望的方向，讓模型向著精準(zhǔn)模擬物理世界和數(shù)字世界、以及其中的生物和物體的高級模擬器發(fā)展。

局限性

當(dāng)然，作為一個模擬器，Sora目前還存在不少的局限。

比如，它雖然能模擬一些基礎(chǔ)物理互動，比如玻璃的碎裂，但還不夠精確。

模擬吃食物的過程，也并不總是能準(zhǔn)確反映物體狀態(tài)的改變。

在網(wǎng)站首頁上，OpenAI詳細(xì)列出了模型的常見問題，比如在長視頻中出現(xiàn)的邏輯不連貫，或者物體會無緣無故地出現(xiàn)。

最后，OpenAI表示，Sora目前所展現(xiàn)出的能力，證明了不但提升視頻模式的規(guī)模是一個令人振奮的方向。

沿這個方向走下去，或許有一天，世界模型就會應(yīng)運而生。

網(wǎng)友：未來游戲動嘴做

OpenAI給出眾多的官方演示，看得出Sora似乎可以為更逼真的游戲生成鋪路——僅憑文字描述就能生成程序游戲。

這既令人興奮，又令人恐懼。

FutureHouseSF的聯(lián)合創(chuàng)始人猜測，「或許Sora可以模擬我的世界。也許下一代游戲機將是「Sora box」，游戲?qū)⒁?-3段文字的形式發(fā)布」。

OpenAI技術(shù)人員Evan Morikawa稱，「在OpenAI發(fā)布的Sora視頻中，如下的視頻讓我大開眼界。通過經(jīng)典渲染器渲染這個場景是非常困難的。Sora模擬物理的方式和我們不同。它肯定仍然會出錯，但是我之前沒有預(yù)測到它能做得這么逼真」。

有網(wǎng)友稱，「人們沒有把『每個人都會成為電影制作人』這句話當(dāng)回事」。

我在15分鐘內(nèi)制作了這部20年代的預(yù)告片，使用了OpenAI Sora的片段，David Attenborough在Eleven Labs上的配音，并在iMovie上從YouTube上采樣了一些自然音樂。

還有人稱，「5年后，你將能夠生成完全沉浸式的世界，并實時體驗它們，「全息甲板」即將變成現(xiàn)實」！

有人甚至表示，自己完全被Sora的AI視頻生成的出色效果驚呆了。

「它讓現(xiàn)有的視頻模型看起來像是愚蠢的玩具。每個人都將成為一名電影制作人」。

「新一代電影制作人即將與OpenAI的Sora一起涌現(xiàn)。再過10年，這將是一場有趣的比賽」！

「OpenAI的Sora暫不會取代好萊塢。它將為好萊塢以及個人電影制作者和內(nèi)容創(chuàng)作者，帶來巨大的推動力。

想象一下，只需3人團隊，就能在一周內(nèi)，完成一部120分鐘的A級故事片的初稿創(chuàng)作和觀眾測試。這就是我們的目標(biāo)」。

參考資料：

https://openai.com/research/video-generation-models-as-world-simulators?ref=upstract.com

最后推薦一下我們團隊寫的量化小冊的內(nèi)容，40篇內(nèi)容 ！從Python安裝，入門，數(shù)據(jù)分析，爬取股票基金的歷史+實時數(shù)據(jù)，以及如何寫一個簡單量化策略，策略回測，如何看資金曲線統(tǒng)統(tǒng)都有介紹！非常超值！

歡迎訂閱： 原價 199 早鳥價39（滿100人漲10元）。現(xiàn)在的價格非常非常低， 只要2杯奶茶，就可以終身訂閱+全套課程源碼 ，還有永久陪伴群。48小時無理由退款，放心食用！

干貨:爬取豆瓣短評，電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬眾期待到口碑撲街！唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王｜用Python做個海量小姐姐素描圖｜碟中諜這么火，我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影

趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!

AI: 會做詩的機器人 | 給圖片上色 | 預(yù)測收入 | 碟中諜這么火，我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影

小工具: Pdf轉(zhuǎn)Word，輕松搞定表格和水印！ | 一鍵把html網(wǎng)頁保存為pdf！ | 再見PDF提取收費！ | 用90行代碼打造最強PDF轉(zhuǎn)換器，word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r機票提示器！｜ 60行代碼做了一個語音壁紙切換器天天看小姐姐！｜

解密 視頻模型Sora技術(shù)