<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          女媧算法,殺瘋了!

          共 1732字,需瀏覽 4分鐘

           ·

          2021-12-01 17:53

          大家好,我是周末加班寫技術(shù)文的 Jack。

          今天分享一個「多模態(tài)」算法 NüWA(女媧)。

          8項(xiàng)典型的視覺生成任務(wù)

          論文的開頭,就放出了效果,NüWA 包攬了 8 項(xiàng)經(jīng)典的視覺生成任務(wù)的 SOTA。

          論文表示,NüWA 更是在文本到圖像生成中“完虐” OpenAI DALL-E。

          碾壓各種對比的算法效果,殺瘋了!

          NüWA 效果

          我們先看下 NüWA 這算法在 8 項(xiàng)經(jīng)典的視覺生成任務(wù)中的表現(xiàn)。

          Text-To-Image(T2I)

          文字轉(zhuǎn)圖片任務(wù),其實(shí)就是根據(jù)一段文字描述,生成對應(yīng)描述的圖片。

          比如:

          A dog with gogglesstaring at the camera.

          一只戴著護(hù)目鏡,盯著攝像機(jī)的狗。

          還有更多效果:

          NüWA 生成的效果看起來就沒那么違和,從論文的效果看,很真實(shí)!

          效果非常 Amazing。

          Sketch-To-Image (S2I)

          草圖轉(zhuǎn)圖片任務(wù),就是根據(jù)草圖的布局,生成對應(yīng)的圖片。

          比如:

          在一張圖片上,畫個大致輪廓,就可以自動“腦補(bǔ)”圖片。

          這效果真是開了眼了,真實(shí)效果真如論文這般的話,那確實(shí)很強(qiáng)。

          這個算法,可以用在很多有意思的場景。

          Image Completion (I2I)

          圖像補(bǔ)全,如果一副圖片殘缺了,算法可以自動“腦補(bǔ)”出殘缺的部分。

          好家伙,是不是又有一些大膽的想法了?

          這個遮擋還算可以,還有更細(xì)碎的。

          圖片碎成這樣,還能“腦補(bǔ)”出畫面,我很期待代碼。

          Image Manipulation (TI2I)

          圖片處理,根據(jù)文字描述,處理圖片。

          比如:

          有一副草原的圖片,然后增加一段描述:

          a horse is running on the grassland

          一匹馬奔跑在草原上,然后就可以生成對應(yīng)的圖片。

          這驚人的理解力。

          這讓我想起來了 P 圖吧大神,惡搞的作品。

          有了這個算法,咱也可以試一試了,哈哈。

          Video

          這還不算完,除了上述的生成圖片的四種效果,NüWA 還可以生成視頻!

          對應(yīng)的四種視頻生成任務(wù):

          • Text-To-Video (T2V)
          • Sketch-To-Video (S2V)
          • Sketch-To-Video (S2V)
          • Video Manipulation (TV2V)

          既可以玩圖片又可以玩視頻。

          NüWA 原理

          NüWA模型的整體架構(gòu)包含一個支持多種條件的 adaptive 編碼器和一個預(yù)訓(xùn)練的解碼器,能夠同時使圖像和視頻的信息。

          對于圖像補(bǔ)全、視頻預(yù)測、圖像處理和視頻處理任務(wù),將輸入的部分圖像或視頻直接送入解碼器即可。

          而編碼解碼器都是基于一個3D Nearby的自注意力機(jī)制(3DNA)建立的,該機(jī)制可以同時考慮空間和時間軸的上局部特性,定義如下:

          W 表示可學(xué)習(xí)的權(quán)重,X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。

          3DNA 考慮了完整的鄰近信息,并為每個 token 動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出 3DNA 的關(guān)注部分(藍(lán)色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

          更多細(xì)節(jié),可以直接看論文:

          論文地址:

          https://arxiv.org/abs/2111.12417

          NüWA 代碼

          NüWA 的代碼還沒有開源,不過 Github 已經(jīng)建立。

          Github:

          https://github.com/microsoft/NUWA

          作者表示,很快就會開源:

          公司有開源審批流程,代碼也得梳理下,所以可以先 Star 上標(biāo)記下,耐心等等。

          微軟亞研院和北大聯(lián)合打造的一個多模態(tài)預(yù)訓(xùn)練模型 NüWA,在首屆微軟峰會上亮相過。

          這種應(yīng)該不會鴿的~

          總結(jié)

          今年算是多模態(tài) Transformer 大力發(fā)展的一年,從各種頂會的論文就能看出,各種多模態(tài)。

          就聊這么多吧,今天寫完技術(shù)文,我繼續(xù)做視頻了。

          我是 Jack,我們下期見~

          ·················END·················

          推薦閱讀

          ?? ?這個項(xiàng)目,我能玩一年?? ?這兩個練手項(xiàng)目,我王多魚投了????從高考到程序員的成長之路

          瀏覽 37
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色情一级A片成人高 | 嫩草综合网| 中文字幕在线看片 | 色婷婷在线视频观看免费 | 日韩免费片|