<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          「黑神話」級3A大作AI實時游戲生成!港科大、中科大等祭出最強擴散Transformer,火爆國外

          共 5729字,需瀏覽 12分鐘

           ·

          2024-11-06 12:57



            新智元報道  

          編輯:編輯部 HYh
          【新智元導讀】AI顛覆游戲產業(yè),一場無聲革命已經開啟!繼AI游戲模型Oasis之后,港科大、中科大等機構聯(lián)手推出GameGen-X,首次實現(xiàn)了開放世界游戲的AI生成與交互控制。

          爆火國產3A大作《黑神話·悟空》,如今也能由AI生成了?

          一夜之間,國內首個實時視頻游戲生成AI,火遍全網。

          致敬「西游記」

          幾天前,專做推理芯片初創(chuàng)Etched曾推出世界首個實時生成AI游戲Oasis,每一幀都是擴散Transformer預測。
          無需游戲引擎,就能實現(xiàn)每秒20幀實時渲染,幾乎沒有延遲。
          沒想到,GameGen-X一出,再次顛覆了我們對AI游戲的認知。
          來自港科大、中科大、港中文等機構聯(lián)手,提出開放世界視頻游戲生成AI,可以實時交互創(chuàng)建游戲。
          這是首個專為生成和交互控制開放世界游戲視頻而設計的擴散Transformer模型。

          論文地址:https://gamegen-x.github.io/
          GameGen-X能夠模擬游戲引擎特性,實現(xiàn)高質量開放世界游戲生成。比如,創(chuàng)建新角色、動態(tài)環(huán)境、復雜動作和各種事件等等。
          它還能進行交互式控制,根據當前片段預測或更改未來內容,實現(xiàn)游戲模擬。
          有網友表示,一切都結束了,中國再次在AI游戲領域拿下第一。
          還有人稱,這比Oasis看起來更好。

          AI實時游戲生成,驚呆歪果仁


          老黃曾說過,未來每個像素很快都將會是生成的,并非是渲染的。
          不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進化都在逼近這個預言。

          高質量游戲生成

          在游戲生成上,GameGen-X不僅能夠創(chuàng)建角色,還能生成動作、動態(tài)環(huán)境、各種事件、開放域。

          角色生成

          《巫師》的Geralt of Rivia
          《荒野大鏢客:救贖2》的主角Arthur Morgan
          《刺客信條》的Eivor
          還有這種偏卡通風的人物——異星探險家
          射擊游戲中的機械戰(zhàn)警RoboCop,機器人角色生成很賽博。

          環(huán)境生成

          不論是春夏秋冬四季,還是山川湖海,各種名勝古跡,都能實時生成。

          動作生成

          騎摩托車第一人稱視角,以及第三人稱視角。
          駕馬車
          飛行

          事件生成

          下雨、下雪、打雷、日起日落、火災、沙塵暴、海嘯.....

          開放域生成

          在中國城漫游的賽博和尚
          血月下的幽靈
          穿著斗篷的旅行者走在火星上

          多模態(tài)交互控制

          在多模態(tài)交互中,GameGen-X能夠支持結構化指令提示、外設操作信號、視頻提示的生成。

          結構化指令提示

          同在沙漠中行走的旅人,你可以通過提示要求,讓背景實時變幻。
          天空之火
          黑暗與星星
          日落時分

          霧出現(xiàn)

          操作信號

          游戲中角色向左向右移動,一句話的事。

          視頻提示

          提供一個Canny提示的視頻
          接下來,就會得到
          又或者提供一個運動失量的視頻
          就會生成一個揚沙的視頻

          GameGen-X技術

          GameGen-X擅長生成多樣化和創(chuàng)造性的游戲內容,包括動態(tài)環(huán)境、多變的角色、引人入勝的事件和復雜的動作,樹立了該領域的新標桿。
          更為震撼的是,它還提供了交互式可控性,并首次將角色交互和場景內容控制統(tǒng)一起來。
          AI根據當前片段預測和更改未來內容,從而實現(xiàn)游戲模擬,賦予了游戲更多的真實性。
          它首先生成一個視頻片段,以設置環(huán)境和角色。
          隨后,利用當前視頻片段和多模態(tài)用戶控制信號,生成動態(tài)響應用戶輸入的視頻片段。
          這一過程可被視為模擬現(xiàn)實一般的體驗,因為這一過程中,環(huán)境和角色都是動態(tài)發(fā)展的!
          GameGen-X的訓練過程分為兩個階段,包括基礎模型預訓練和指令微調。
          首先,通過在OGameData-GEN數據集上的文本到視頻的生成和視頻延續(xù)對模型進行預訓練,使其具備生成長序列、高質量開放世界游戲視頻的能力。
          此外,為了實現(xiàn)交互可控性,研究團隊在設計InstructNet時納入了與游戲相關的多模態(tài)信號控制專家系統(tǒng)。
          這使得模型能夠根據用戶輸入微調潛表征,首次在視頻生成中將角色交互和場景內容的調控統(tǒng)一起來。
          在指令微調過程中,為了保證不損失生成視頻內容的多樣性和質量的情況下,實現(xiàn)多模態(tài)交互式控制,模型引入了 InstructNet。具體來說,InstructNet 的主要目的是根據指令修改未來的預測。
          當沒有給出用戶輸入信號時,視頻自然延伸。因此會將預先訓練好的基礎模型凍結,只利用OGameData-INS數據集更新InstructNet,從而將用戶輸入(如游戲環(huán)境動態(tài)的結構化文本指令和角色動作與操作的鍵盤控制)映射到生成的游戲內容上。
          總之,GameGen-X代表了使用生成模型進行開放世界視頻游戲設計的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術輔助工具的潛力,有效地將創(chuàng)意生成與交互能力融合在一起。

          首個開放世界游戲視頻數據集OGameData

          為了促進交互式控制游戲生成領域的發(fā)展,研究團隊構建了開放世界視頻游戲數據集(Open-World Video Game Dataset,OGameData),這是首個專為游戲視頻生成和交互式控制精心設計的大規(guī)模數據集。
          它提供游戲特定知識,并包含游戲名稱、玩家視角和角色細節(jié)等元素。該數據集從150多款下一代游戲中收集而來,其中包括評分、篩選、排序和結構化注釋。

          OGameData的構建與處理流程
          如表1所示,OGameData包含100萬個高分辨率視頻片段,來源從幾分鐘到幾小時不等。
          與其他特定領域的數據集相比,OGameData在文本-視頻對的規(guī)模、多樣性和豐富性方面脫穎而出。
          即使與最新的開放域生成數據集Miradata相比,仍然具有提供更多細粒度注釋的優(yōu)勢,其在單位時間內提供的注釋甚至是Miradata數據集的2倍多!
          該數據集具有幾個主要特點:OGameData 具有高度精細的文本,并擁有大量可訓練的視頻-文本對,從而提高了模型訓練中文本-視頻的一致性。
          此外,它還包括兩個子集:生成數據集(OGameData-GEN)和指令數據集(OGameData-INS)。
          其中OGameData-GEN專門用于訓練生成基礎模型,而OGameData-INS則針對指令微調和交互式控制任務進行了優(yōu)化。
          OGameData-GEN需要制作詳細的注釋來描述游戲元數據、場景背景和關鍵角色,以確保生成基礎模型訓練所需的全面文本描述。
          相比之下,OGameData-INS使用基于指令的簡明注釋,突出顯示初始幀和后續(xù)幀之間的差異,重點是描述游戲場景的變化,以便進行交互式生成。
          這種結構化注釋方法可實現(xiàn)精確的生成和細粒度的控制,允許模型在保留場景的同時修改特定元素。該數據集的高質量得益于10多位人類專家的精心設計。
          每個視頻片段都配有使用GPT-4o生成的注釋,以保持清晰度和連貫性,并確保數據集不受用戶界面和視覺偽影的影響。

          模型架構

          在將視頻片段進行編碼時,為解決時空信息冗余問題,GameGen-X引入了三維時空變分自編碼器(3D-VAE),將視頻片段壓縮為潛表征。
          這種壓縮技術可以對具有較長幀序列的高分辨率視頻進行高效訓練。
          具體來說,3D-VAE首先進行空間下采樣以獲得幀級潛特征。此外,它還進行了時間組合,以捕捉時間依賴性并有效減少幀上的冗余。
          通過3D-VAE對視頻片段進行處理,可以得到一個具有空間-時間信息并降低了維度的潛張量。這樣的張量可以支持長視頻和高分辨率模型訓練,滿足游戲內容生成的要求。
          GameGen-X還引入了掩碼時空擴散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。
          具體來說,MSDiT結合了空間注意力、時間注意力和交叉注意力機制,可有效生成由文本提示引導的游戲視頻。
          對于每個時間步長t,模型會處理捕捉幀細節(jié)的潛特征z。
          空間注意力通過對空間維度(H′、W′)的自注意力來增強幀內關系。時間注意通過在時間維度F′上進行操作,捕捉幀間的依賴關系,從而確保幀間的一致性。
          交叉注意力整合了通過文本編碼器T5獲得的外部文本特征的指導,使視頻生成與文本提示的語義信息保持一致。
          而掩碼機制則可以在擴散處理過程中,將某些幀從噪聲添加和去噪中屏蔽掉。
          如圖4所示,整體框架采用了將成對的空間和時間區(qū)塊堆疊在一起的設計,其中每個區(qū)塊都配備了交叉注意和空間或時間注意力機制。
          這樣的設計使模型能夠同時捕捉空間細節(jié)、時間序列動態(tài)和文本引導,從而使GameGen-X能夠生成高保真、時間上一致的視頻,并與所提供的文本提示緊密結合。
          負責實現(xiàn)交互式控制的指令微調的部分由N個InstructNet模塊組成,每個模塊利用專門的操作集成式專家層和指令集成式專家層來整合不同的條件。
          輸出特征被注入到基礎模型中以融合原始潛在特征,根據用戶輸入調制潛在表征,并有效地將輸出與用戶意圖對齊,這使用戶能夠影響角色動作和場景動態(tài)。
          InstructNet主要通過視頻連續(xù)訓練來模擬游戲中的控制和反饋機制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。

          實驗結果


          為了全面評估GameGen-X在生成高質量、逼真且可交互控制的視頻游戲內容方面的能力,研究團隊采用了一套十分細致的度量標準。
          包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對齊(TVA)、用戶偏好度(UP)、運動平滑度(MS)、動態(tài)度(DD)、主體一致性(SC) 和成像質量(IQ)。
          表2對比了GameGen-X和4個知名開源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。
          值得注意的是,Mira和OpenSora1.2都明確提到在游戲數據上進行訓練,而其他兩個模型雖然不是專門為此目的設計的,但仍然可以在類似環(huán)境中滿足某些生成需求。
          結果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標上表現(xiàn)良好。這表明GameGen-X在生成高質量和連貫的視頻游戲內容方面具有優(yōu)勢,同時保持了競爭性的視覺和技術質量。
          此外,團隊還使用了有條件的視頻片段和密集提示詞來評估模型的生成響應。
          其中,新引入的指標——成功率(SR),負責衡量模型對控制信號的準確響應頻率。這是由人類專家和PLLaVA共同評估的。
          SR指標分為兩部分:角色動作的成功率(SR-C),評估模型對角色動作的響應能力,以及環(huán)境事件的成功率(SR-E),評估模型對天氣、光照和物體變化的處理能力。
          如表3所示,GameGen-X在控制能力方面優(yōu)于其他模型,突顯了其在生成上下文適宜和互動性游戲內容方面的有效性。
          在生成性能方面,有著8fps視頻的CogVideo和場景頻繁變化的OpenSora1.2,獲得了更高的DD。
          圖5展示了GameGen-X在生成各種角色、環(huán)境、動作和事件的多樣化生成能力。
          這些例子顯示模型可以創(chuàng)建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環(huán)境,執(zhí)行飛行和駕駛等復雜動作,并重現(xiàn)暴風雪和暴雨等環(huán)境事件。
          圖6展示了GameGen-X根據文本指令和鍵盤輸入控制環(huán)境事件和角色動作的能力。
          在提供的示例中,模型有效地操控了場景的各個方面,如光照條件和大氣效果,突顯了其模擬不同時間和天氣條件的能力。此外,角色的動作,主要涉及環(huán)境中的導航,通過輸入的鍵盤信號得到精確控制。
          通過調整光照和大氣等環(huán)境因素,模型提供了一個逼真而沉浸的環(huán)境。同時,管理角色動作的能力確保生成的內容能夠直觀地響應用戶的互動。
          通過這些能力,GameGen-X展示出了在提升開放世界電子游戲模擬的真實感和參與度方面的潛力。
          如圖7所示,GameGen-X在角色細節(jié)、視覺環(huán)境和鏡頭邏輯方面更好地滿足了游戲內容的要求,這得益于嚴格的數據集收集和OGameData的構建。
          此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內的其他商業(yè)產品進行了比較,如圖8所示。
          在左側部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色,要么將其描繪為進入洞穴而非退出。
          在右側部分,GameGen-X和Kling1.5都成功引導角色走出洞穴。GameGen-X實現(xiàn)了高質量的控制響應,同時保持了一致的鏡頭邏輯,并遵循了類似游戲的體驗。這得益于整體訓練框架和InstructNet的設計。

          結論


          OGameData的開發(fā)為模型訓練提供了重要的基礎,使其能夠捕捉開放世界游戲的多樣性和復雜性。而通過兩階段的訓練過程,GameGen-X實現(xiàn)了內容生成和交互控制之間的相互增強,從而實現(xiàn)了豐富且身臨其境般的模擬體驗。
          除了技術貢獻之外,更重要的是:GameGen-X 還為游戲內容設計的未來開辟了新的視野。它表明游戲設計與開發(fā)有可能轉向更加自動化、數據驅動的流程,從而顯著減少游戲內容早期創(chuàng)建所需的手動工作。
          通過利用模型來創(chuàng)建身臨其境的世界和交互式游戲玩法,我們可能對于玩家自己通過創(chuàng)造性的探索來構建一個游戲的未來越來越近了。
          盡管挑戰(zhàn)依然存在,GameGen-X代表了游戲設計中向新穎范式邁出的重大飛躍。它為未來的研究和開發(fā)奠定了基礎,也為生成模型成為創(chuàng)建下一代交互式數字世界的不可或缺的工具鋪平了道路。

          團隊介紹


          Haoxuan Che
          Haoxuan Che正在香港科技大學(HKUST)攻讀計算機科學與工程博士學位。他的主要研究興趣在于計算機視覺、醫(yī)學圖像分析和可信賴人工智能。
          在加入香港科技大學之前,我曾畢業(yè)于西北工業(yè)大學(NWPU),獲得了軟件與微電子學院的軟件工程學士學位。
          Xuanhua He(何炫華)
          何炫華目前是中國科學技術大學的碩士生,由Jie Zhang和Chengjun Xie教授指導。他于2022年在廈門大學獲得了軟件工程學士學位,師從Yongxuan Lai教授。
          他的研究興趣集中在計算機視覺領域,特別是圖像超分辨率、圖像增強和視頻生成。此前,他還曾曾探索過遙感圖像處理和聯(lián)邦學習。
          參考資料:
          https://gamegen-x.github.io/
          https://x.com/kimmonismus/status/1853861306601967864



          瀏覽 57
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  理伦在线中文字幕 | 爆操熟妇在线视频 | 天天澡天天爽爽天干天 | 国产淫乱视频 | 91麻豆精品成人系列 |