這,就很抽象!
大家好,我是 Jack。
上周末,可把我忙壞了,公司有活動,周六參加了一天,周日又做了一天的視頻。

新視頻,還在趕制中,7 月份視頻又鴿了一個月,難受~ 不過新視頻絕對精彩,信我!
今天,聊聊“多模態(tài)”的兩個算法,MDETR 挺有意思,DALL·E Mini 很抽象。
MDETR
今年,是“多模態(tài)”百家爭鳴的一年,各種多模態(tài)算法,層出不窮。
MDETR 一種端到端的多模態(tài)推理算法,可以支持文本和圖像的同時推理。
這就很有意思了。
輸入:
5 people each holding an umbrella
MDETR 可以找出對應(yīng)的人,并框選出來:

輸入:
A green umbrella. A pink striped umbrella. A plain white umbrella
MDETR 只框選文字描述的目標(biāo):

這就是多模態(tài),視覺和文本的結(jié)合。
甚至可以問:
What color is the train?
MDETR 可以告訴你是紅色,并且把火車框選出來。

MDETR 是基于 DETR 實現(xiàn)的調(diào)制檢測器,結(jié)合 NLP 來執(zhí)行目標(biāo)檢測任務(wù),真正實現(xiàn)了端到端的多模態(tài)推理。

對于圖像,MDETR 采用的是一個 CNN 作為 backbone 提取視覺特征,然后引入位置編碼;對于語言,采用訓(xùn)練好的 Transformer 語言模型來生成與輸入值相同大小的 hidden state,然后作者采用了一個模態(tài)相關(guān)的 Linear Projection 將圖像和文本特征映射到一個共享的 embedding 空間。
接著,將圖像 embedding 和語言 embedding 進行 concat ,生成一個樣本的圖像和文本特征序列。
項目地址:
https://github.com/ashkamath/mdetr
DALL·E Mini
沒錯,這也是“多模態(tài)”的另一作品。
我之前在出過的 Transformer 教程中,提到過 DALL·E:
DALL·E,可以魔法一般地按照自然語言文字描述直接生成對應(yīng)圖片!
輸入文本:鱷梨形狀的扶手椅。
AI 生成的圖像:

DALL·E Mini 是 DALL·E 迷你版,模型縮小了 27 倍。
我試著體驗了一下,給模型輸入了:
jack has a handsome face
Jack 擁有一張英俊帥氣的臉,沒錯,就是這么不要 face。
一看結(jié)果,好家伙,抽象派的畢加索,都不敢這么畫:

我又試了下:
a train
雖然,是那么回事,但這畫的真“抽象”。

DALL·E Mini 倒是可以當(dāng)做“抽象”作畫使用,寫實的畫,要差太多。
因為 Mini 版本的原因,效果上,感覺也要弱于 DALL·E 。
可以看下,論文中展示的一些樣例:

看著還可以,算法的思想還是很值得我們學(xué)習(xí)的。
項目地址:
https://github.com/borisdayma/dalle-mini
總結(jié)
“多模態(tài)”大勢所趨,利用閑暇時間學(xué)習(xí)學(xué)習(xí)。
我是 Jack ,我們下期見!

