打破次元壁,融合自然語言與視覺 | MixLab 人工智能

#DALL·E 和 CLIP#、#OpenAI#
DALL·E 可以基于文本直接生成圖像;
CLIP 則能夠完成圖像與文本類別的匹配。
OpenAI 聯(lián)合創(chuàng)始人、首席科學家 Ilya Sutskever 表示:人工智能的長期目標是構(gòu)建「多模態(tài)」神經(jīng)網(wǎng)絡(luò),即 AI 系統(tǒng)能夠?qū)W習多個不同模態(tài)的概念(主要是文本和視覺領(lǐng)域),從而更好地理解世界。
而 DALL·E 和 CLIP 使我們更接近「多模態(tài) AI 系統(tǒng)」這一目標。
自帶魔法棒的 DALL·E
→ 以下是Mixlab 多模態(tài)專欄作者:大錚博士的部分專欄內(nèi)容。今天,我們主要聊聊 DALL·E,如果大家感興趣,歡迎文末留言,我們再更新關(guān)于 CLIP 的介紹。
CHUNFANG:大家最近在聊的熱門詞兒 DALL·E 是什么?具備什么功能?
大錚:DALL·E 能按照文字的描述,畫出十分自然的圖像。
目前的模型對于選詞比較敏感,官方釋出的例子是類似完形填空的形式,給句子中的名詞位置挖了空,并提供了候選的詞匯。
我們選擇了一個擬物的句子來展示DALL·E的能力。我們來看幾個例子:
第一個句子是:“一個長得像豬的鬧鐘”。
于是,DALL·E 生成了這樣的圖片:

https://openai.com/blog/dall-e/

專欄作者:大錚
復旦大學 | 計算機應(yīng)用技術(shù)在讀博士
研究:機器學習、深度學習、媒體大數(shù)據(jù)分析
:只要關(guān)注人數(shù)足夠多,Mixlab 隨時為大家特邀發(fā)起 『 各類專題內(nèi)容或者線上、線下專場討論』!
(編輯:春FANG)
更多有趣的智能工具分享評論
圖片
表情
