<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多模態(tài)圖像版「GPT-3」來了!OpenAI推出DALL-E模型,一句話即可生成對應(yīng)圖像

          共 3353字,需瀏覽 7分鐘

           ·

          2021-01-09 11:39



          ??新智元報道??

          來源:OpenAI

          編輯:Q、小勻

          【新智元導(dǎo)讀】OpenAI又放大招了!今天,其博客宣布,推出了兩個結(jié)合計算機視覺和NLP結(jié)合的多模態(tài)模型:DALL-E和CLIP,它們可以通過文本,直接生成對應(yīng)圖像,堪稱圖像版「GPT-3」。?


          比GPT-3更牛的東西,還真被Open AI 搞出來了。
          ?
          最近,OpenAI官宣了一個基于Transformer的語言模型--DALL-E,使用了GPT-3的120億參數(shù)版本。取名DALL-E,是為了向藝術(shù)家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。
          ?
          圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿卜寶寶」生成的圖像示例
          ?
          根據(jù)文字提示,DALL-E生成的圖像可以像在現(xiàn)實世界中拍攝的一樣。
          ?
          ?
          同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創(chuàng)造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:
          ?
          ?
          又或者是「一個長頸鹿烏龜」
          ?
          ?
          GPT-3表明,語言可以用來指導(dǎo)大型神經(jīng)網(wǎng)絡(luò)執(zhí)行各種文本生成任務(wù)。而Image GPT表明,同樣類型的神經(jīng)網(wǎng)絡(luò)也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現(xiàn)在已經(jīng)觸手可及。
          ?
          此外,它還展示了一些意想不到但有用的行為,包括使用直覺邏輯來理解請求,比如要求它為同一只(不存在的)貓畫多幅草圖:
          ?
          ?
          DALL·E:很強大,但仍有缺陷

          和GPT-3一樣,DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數(shù)據(jù)流,其中包含多達1280個token,并使用最大似然估計來進行訓(xùn)練,以一個接一個地生成所有的token。這個訓(xùn)練過程不僅允許DALL-E可以從頭開始生成圖像,而且還可以重新生成現(xiàn)有圖像的任何矩形區(qū)域,與文本提示內(nèi)容基本一致。
          ?
          研究人員測試了DALLe修改一個對象的幾個屬性的能力,以及它出現(xiàn)的次數(shù)。
          ?
          例如,用豪豬做成的立方體vs有豪豬紋理的立方體:
          ?
          ?
          有些也有語義上的歧義,比如:a collection of glasses sitting on the table
          ?
          ?
          同時控制多個對象、它們的屬性以及它們的空間關(guān)系,對模型提出了新的挑戰(zhàn)。例如,考慮 "一只刺猬戴著紅色的帽子、黃色的手套、藍色的襯衫和綠色的褲子 "這句話,為了正確解釋這個句子,DALL-E不僅要正確地將每件衣服與動物結(jié)合起來,而且要形成(帽子,紅色)、(手套,黃色)、(襯衫,藍色)和(褲子,綠色)的關(guān)聯(lián),不能將它們混為一談。
          ?
          研究人員測試了DALLe在相對定位、堆疊對象和控制多個屬性方面的能力。例如:一個Emoji的小企鵝,帶著藍帽子,紅手套,穿著黃褲子。
          ?
          ?
          雖然DALL-E確實在一定程度上提供了對少量物體屬性和位置的可控性,但成功率可能取決于文字的措辭。當引入更多的對象時,DALL-E容易混淆對象及其顏色之間的關(guān)聯(lián),成功率會急劇下降。研究人員還注意到,在這些情況下,DALL-E對于文字的重新措辭是很脆弱的:替代的、語義等同的標題往往也不會產(chǎn)生正確的解釋.
          ?
          而有趣的是,OpenAI 的另一個新系統(tǒng) CLIP 可以與 DALL-E 聯(lián)合使用,以理解和排序問題中的圖像。
          ?
          CLIP:減少對海量數(shù)據(jù)集的依賴

          OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一個從互聯(lián)網(wǎng)上收集的4億對圖像和文本來進行訓(xùn)練的多模態(tài)模型。
          ?
          ?
          它可以從自然語言監(jiān)督中有效地學(xué)習(xí)視覺概念,可以應(yīng)用于任何視覺分類基準,只需提供要識別的視覺類別的名稱,類似于 GPT-2和GPT-3的”zero-shot learning”能力。
          ?
          CLIP使用了豐富的互聯(lián)網(wǎng)上的與圖像配對的文本,這些數(shù)據(jù)被用來為CLIP創(chuàng)建一個訓(xùn)練任務(wù):通過預(yù)訓(xùn)練圖像編碼器和文本編碼器來預(yù)測給定一張圖像與數(shù)據(jù)集中的一組32768個隨機采樣的文本片段中的哪些文本真正配對。然后使用結(jié)果將 CLIP 轉(zhuǎn)換為zero-shot分類器。最后,將一個數(shù)據(jù)集的所有類別轉(zhuǎn)換成文字 ,并預(yù)測文本的類別與給定圖像的最佳對應(yīng)關(guān)系。
          ?
          ?
          "我們發(fā)現(xiàn),CLIP與GPT類似,在前期訓(xùn)練中可以學(xué)習(xí)執(zhí)行一系列廣泛的任務(wù),包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現(xiàn)有數(shù)據(jù)集上對CLIP的zero-shot轉(zhuǎn)移性能進行基準測試來衡量,發(fā)現(xiàn)它可以與之前的特定任務(wù)監(jiān)督模型相媲美。"12位OpenAI合作者關(guān)于該模型的論文中寫道。
          ?
          雖然深度學(xué)習(xí)給計算機視覺帶來了革命性的變化,但目前的方法存在幾個主要問題:典型的視覺數(shù)據(jù)集的創(chuàng)建需要耗費大量的人力和成本,標準的視覺模型只擅長一種任務(wù)和一種任務(wù),需要付出巨大的努力才能適應(yīng)新的任務(wù);在基準上表現(xiàn)良好的模型在壓力測試中的表現(xiàn)令人失望,這讓人們對整個計算機視覺的深度學(xué)習(xí)方法產(chǎn)生了懷疑。
          ?
          設(shè)計 CLIP 就是為了解決計算機視覺深度學(xué)習(xí)方法中的一些主要問題:
          ?
          1.昂貴的數(shù)據(jù)集:
          ?
          深度學(xué)習(xí)需要大量的數(shù)據(jù),而視覺模型傳統(tǒng)上采用人工標注的數(shù)據(jù)集進行訓(xùn)練,這些數(shù)據(jù)集的構(gòu)建成本很高,而且只能提供有限數(shù)量的預(yù)先確定的視覺概念。例如,ImageNet 數(shù)據(jù)集就需要超過25000名工作人員為22000個對象類別標注1400萬張圖像。
          ?
          而相比之下,CLIP 可以從互聯(lián)網(wǎng)上已經(jīng)公開可用的文本圖像對中學(xué)習(xí)。減少昂貴的大型標注數(shù)據(jù)集的需求已經(jīng)被廣泛研究,尤其是自監(jiān)督學(xué)習(xí)、對比方法、自訓(xùn)練方法和生成式模型等。
          ?
          2.范圍狹窄:
          ?
          一個ImageNet模型擅長預(yù)測1000個ImageNet類別,但如果我們希望它執(zhí)行其他的任務(wù),就需要建立一個新的數(shù)據(jù)集,添加一個輸出,并對模型進行微調(diào)。
          ?
          相比之下,CLIP可以適應(yīng)執(zhí)行各種各樣的視覺分類任務(wù),而不需要額外的訓(xùn)練樣本。為了將CLIP應(yīng)用于一個新的任務(wù),我們只需要將任務(wù)的視覺概念名稱 "告訴 "CLIP的文本編碼器,它就會輸出一個CLIP視覺表示的線性分類器。這個分類器的準確度通常可以和監(jiān)督模型相媲美。
          ?
          通過設(shè)計,該網(wǎng)絡(luò)可以用自然語言指導(dǎo)它執(zhí)行大量的分類基準,而不直接優(yōu)化基準的性能,類似于GPT-2和GPT-3的 "zero-shot "能力。
          ?
          ?
          這是一個關(guān)鍵的變化:通過不直接優(yōu)化基準,使得結(jié)果變得更有代表性:CLIP系統(tǒng)將這種 "robustness gap" 縮小了75%,同時在不使用任何原始的1.28M個已標注樣本的情況下,在ImageNet zero-shot上接近ResNet50的性能。
          ?
          雖然測試發(fā)現(xiàn) CLIP 精通多項任務(wù),但測試也發(fā)現(xiàn) CLIP 在諸如衛(wèi)星地圖分類或淋巴結(jié)腫瘤檢測等專業(yè)任務(wù)上存在不足。
          ?
          這一初步分析旨在說明通用計算機視覺模型所帶來的一些挑戰(zhàn),并對其偏差和影響一窺究竟。研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表征進行研究,以便加速這一領(lǐng)域的發(fā)展。
          ?
          OpenAI首席科學(xué)家Ilya Sutskever是這篇詳細介紹CLIP的論文作者之一,他最近表示,多模態(tài)模型將在2021年成為機器學(xué)習(xí)的主要趨勢。
          ?
          而谷歌AI負責(zé)人Jeff Dean也在2020年做出了類似的預(yù)測。

          ?

          DALL-E和CLIP等類似的一系列生成模型,都具有模擬或扭曲現(xiàn)實來預(yù)測人們?nèi)绾卫L制風(fēng)景和靜物藝術(shù)的能力。比如StyleGAN,就表現(xiàn)出了種族偏見的傾向。

          ?

          而從事CLIP和DALL-E的OpenAI研究人員呼吁對這兩個系統(tǒng)的潛在社會影響進行更多的研究。GPT-3顯示出顯著的黑人偏見,因此同樣的缺點也可存在于DALL-E中。在CLIP論文中包含的偏見測試發(fā)現(xiàn),該模型最有可能將20歲以下的人錯誤地歸類為罪犯或非人類,被歸類為男性的人相比女性更有可能被貼上罪犯的標簽,這表明數(shù)據(jù)集中包含的一些標簽數(shù)據(jù)存在嚴重的性別差異。

          ?

          ?

          參考鏈接:

          https://openai.com/blog/dall-e/




          瀏覽 64
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  wwwwww片 | 国产99欧洲在线 | 三级黄片毛片 | 色色色色色色91 | 国产乱轮视频网站 |