蜜桃视频一区,精品无码av一区二区三区不卡,五月丁香啪,国产三级系列在线观看,久久夜色精品噜噜亚洲AV,逼逼影院,日韩人妻无码免费视频,午夜熟妇

??新智元報道??

來源：OpenAI

編輯：Q、小勻

【新智元導(dǎo)讀】OpenAI又放大招了！今天，其博客宣布，推出了兩個結(jié)合計算機視覺和NLP結(jié)合的多模態(tài)模型：DALL-E和CLIP，它們可以通過文本，直接生成對應(yīng)圖像，堪稱圖像版「GPT-3」。?

比GPT-3更牛的東西，還真被Open AI 搞出來了。

最近，OpenAI官宣了一個基于Transformer的語言模型--DALL-E，使用了GPT-3的120億參數(shù)版本。取名DALL-E，是為了向藝術(shù)家薩爾瓦多-達利（Salvador Dali ）和皮克斯的機器人WALL-E致敬。

圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿卜寶寶」生成的圖像示例

根據(jù)文字提示，DALL-E生成的圖像可以像在現(xiàn)實世界中拍攝的一樣。

同時測試表明，DALL-E也有能力對生成的圖像中的物體進行操作和重新排列，但也能創(chuàng)造出一些根本不存在的東西，比如一個鱷梨形狀的扶手椅：

又或者是「一個長頸鹿烏龜」：

GPT-3表明，語言可以用來指導(dǎo)大型神經(jīng)網(wǎng)絡(luò)執(zhí)行各種文本生成任務(wù)。而Image GPT表明，同樣類型的神經(jīng)網(wǎng)絡(luò)也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現(xiàn)在已經(jīng)觸手可及。

此外，它還展示了一些意想不到但有用的行為，包括使用直覺邏輯來理解請求，比如要求它為同一只(不存在的)貓畫多幅草圖：

DALL·E：很強大，但仍有缺陷

和GPT-3一樣，DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數(shù)據(jù)流，其中包含多達1280個token，并使用最大似然估計來進行訓(xùn)練，以一個接一個地生成所有的token。這個訓(xùn)練過程不僅允許DALL-E可以從頭開始生成圖像，而且還可以重新生成現(xiàn)有圖像的任何矩形區(qū)域，與文本提示內(nèi)容基本一致。

研究人員測試了DALLe修改一個對象的幾個屬性的能力，以及它出現(xiàn)的次數(shù)。

例如，用豪豬做成的立方體vs有豪豬紋理的立方體：

有些也有語義上的歧義，比如：a collection of 「glasses」 sitting on the table

同時控制多個對象、它們的屬性以及它們的空間關(guān)系，對模型提出了新的挑戰(zhàn)。例如，考慮 "一只刺猬戴著紅色的帽子、黃色的手套、藍色的襯衫和綠色的褲子 "這句話，為了正確解釋這個句子，DALL-E不僅要正確地將每件衣服與動物結(jié)合起來，而且要形成（帽子，紅色）、（手套，黃色）、（襯衫，藍色）和（褲子，綠色）的關(guān)聯(lián)，不能將它們混為一談。

研究人員測試了DALLe在相對定位、堆疊對象和控制多個屬性方面的能力。例如：一個Emoji的小企鵝，帶著藍帽子，紅手套，穿著黃褲子。

雖然DALL-E確實在一定程度上提供了對少量物體屬性和位置的可控性，但成功率可能取決于文字的措辭。當引入更多的對象時，DALL-E容易混淆對象及其顏色之間的關(guān)聯(lián)，成功率會急劇下降。研究人員還注意到，在這些情況下，DALL-E對于文字的重新措辭是很脆弱的：替代的、語義等同的標題往往也不會產(chǎn)生正確的解釋.

而有趣的是，OpenAI 的另一個新系統(tǒng) CLIP 可以與 DALL-E 聯(lián)合使用，以理解和排序問題中的圖像。

CLIP：減少對海量數(shù)據(jù)集的依賴

OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一個從互聯(lián)網(wǎng)上收集的4億對圖像和文本來進行訓(xùn)練的多模態(tài)模型。

它可以從自然語言監(jiān)督中有效地學(xué)習(xí)視覺概念，可以應(yīng)用于任何視覺分類基準，只需提供要識別的視覺類別的名稱，類似于 GPT-2和GPT-3的”zero-shot learning”能力。

CLIP使用了豐富的互聯(lián)網(wǎng)上的與圖像配對的文本，這些數(shù)據(jù)被用來為CLIP創(chuàng)建一個訓(xùn)練任務(wù)：通過預(yù)訓(xùn)練圖像編碼器和文本編碼器來預(yù)測給定一張圖像與數(shù)據(jù)集中的一組32768個隨機采樣的文本片段中的哪些文本真正配對。然后使用結(jié)果將 CLIP 轉(zhuǎn)換為zero-shot分類器。最后，將一個數(shù)據(jù)集的所有類別轉(zhuǎn)換成文字，并預(yù)測文本的類別與給定圖像的最佳對應(yīng)關(guān)系。

"我們發(fā)現(xiàn)，CLIP與GPT類似，在前期訓(xùn)練中可以學(xué)習(xí)執(zhí)行一系列廣泛的任務(wù)，包括物體字符識別（OCR）、地理定位、動作識別等。我們通過在超過30個現(xiàn)有數(shù)據(jù)集上對CLIP的zero-shot轉(zhuǎn)移性能進行基準測試來衡量，發(fā)現(xiàn)它可以與之前的特定任務(wù)監(jiān)督模型相媲美。"12位OpenAI合作者關(guān)于該模型的論文中寫道。

雖然深度學(xué)習(xí)給計算機視覺帶來了革命性的變化，但目前的方法存在幾個主要問題：典型的視覺數(shù)據(jù)集的創(chuàng)建需要耗費大量的人力和成本，標準的視覺模型只擅長一種任務(wù)和一種任務(wù)，需要付出巨大的努力才能適應(yīng)新的任務(wù)；在基準上表現(xiàn)良好的模型在壓力測試中的表現(xiàn)令人失望，這讓人們對整個計算機視覺的深度學(xué)習(xí)方法產(chǎn)生了懷疑。

設(shè)計 CLIP 就是為了解決計算機視覺深度學(xué)習(xí)方法中的一些主要問題:

1.昂貴的數(shù)據(jù)集:

深度學(xué)習(xí)需要大量的數(shù)據(jù)，而視覺模型傳統(tǒng)上采用人工標注的數(shù)據(jù)集進行訓(xùn)練，這些數(shù)據(jù)集的構(gòu)建成本很高，而且只能提供有限數(shù)量的預(yù)先確定的視覺概念。例如，ImageNet 數(shù)據(jù)集就需要超過25000名工作人員為22000個對象類別標注1400萬張圖像。

而相比之下，CLIP 可以從互聯(lián)網(wǎng)上已經(jīng)公開可用的文本圖像對中學(xué)習(xí)。減少昂貴的大型標注數(shù)據(jù)集的需求已經(jīng)被廣泛研究，尤其是自監(jiān)督學(xué)習(xí)、對比方法、自訓(xùn)練方法和生成式模型等。

2.范圍狹窄：

一個ImageNet模型擅長預(yù)測1000個ImageNet類別，但如果我們希望它執(zhí)行其他的任務(wù)，就需要建立一個新的數(shù)據(jù)集，添加一個輸出，并對模型進行微調(diào)。

相比之下，CLIP可以適應(yīng)執(zhí)行各種各樣的視覺分類任務(wù)，而不需要額外的訓(xùn)練樣本。為了將CLIP應(yīng)用于一個新的任務(wù)，我們只需要將任務(wù)的視覺概念名稱 "告訴 "CLIP的文本編碼器，它就會輸出一個CLIP視覺表示的線性分類器。這個分類器的準確度通常可以和監(jiān)督模型相媲美。

通過設(shè)計，該網(wǎng)絡(luò)可以用自然語言指導(dǎo)它執(zhí)行大量的分類基準，而不直接優(yōu)化基準的性能，類似于GPT-2和GPT-3的 "zero-shot "能力。

這是一個關(guān)鍵的變化：通過不直接優(yōu)化基準，使得結(jié)果變得更有代表性：CLIP系統(tǒng)將這種 "robustness gap" 縮小了75%，同時在不使用任何原始的1.28M個已標注樣本的情況下，在ImageNet zero-shot上接近ResNet50的性能。

雖然測試發(fā)現(xiàn) CLIP 精通多項任務(wù)，但測試也發(fā)現(xiàn) CLIP 在諸如衛(wèi)星地圖分類或淋巴結(jié)腫瘤檢測等專業(yè)任務(wù)上存在不足。

這一初步分析旨在說明通用計算機視覺模型所帶來的一些挑戰(zhàn)，并對其偏差和影響一窺究竟。研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表征進行研究，以便加速這一領(lǐng)域的發(fā)展。

OpenAI首席科學(xué)家Ilya Sutskever是這篇詳細介紹CLIP的論文作者之一，他最近表示，多模態(tài)模型將在2021年成為機器學(xué)習(xí)的主要趨勢。

而谷歌AI負責(zé)人Jeff Dean也在2020年做出了類似的預(yù)測。

DALL-E和CLIP等類似的一系列生成模型，都具有模擬或扭曲現(xiàn)實來預(yù)測人們?nèi)绾卫L制風(fēng)景和靜物藝術(shù)的能力。比如StyleGAN，就表現(xiàn)出了種族偏見的傾向。

而從事CLIP和DALL-E的OpenAI研究人員呼吁對這兩個系統(tǒng)的潛在社會影響進行更多的研究。GPT-3顯示出顯著的黑人偏見，因此同樣的缺點也可存在于DALL-E中。在CLIP論文中包含的偏見測試發(fā)現(xiàn)，該模型最有可能將20歲以下的人錯誤地歸類為罪犯或非人類，被歸類為男性的人相比女性更有可能被貼上罪犯的標簽，這表明數(shù)據(jù)集中包含的一些標簽數(shù)據(jù)存在嚴重的性別差異。

參考鏈接：

https://openai.com/blog/dall-e/

多模態(tài)圖像版「GPT-3」來了！OpenAI推出DALL-E模型，一句話即可生成對應(yīng)圖像

??新智元報道??

【新智元導(dǎo)讀】OpenAI又放大招了！今天，其博客宣布，推出了兩個結(jié)合計算機視覺和NLP結(jié)合的多模態(tài)模型：DALL-E和CLIP，它們可以通過文本，直接生成對應(yīng)圖像，堪稱圖像版「GPT-3」。?