色呦哟无码精品一区二区三区,韩国三级片视频,天天日天天操天天摸,婷婷狠狠爱,三级成人网址,可以免费看AV的网站,国产日产在线,国产区在线

大家好，我是 Jack。

上周末，可把我忙壞了，公司有活動，周六參加了一天，周日又做了一天的視頻。

新視頻，還在趕制中，7 月份視頻又鴿了一個月，難受~ 不過新視頻絕對精彩，信我！

今天，聊聊“多模態(tài)”的兩個算法，MDETR 挺有意思，DALL·E Mini 很抽象。

MDETR

今年，是“多模態(tài)”百家爭鳴的一年，各種多模態(tài)算法，層出不窮。

MDETR 一種端到端的多模態(tài)推理算法，可以支持文本和圖像的同時推理。

這就很有意思了。

輸入：

5 people each holding an umbrella

MDETR 可以找出對應(yīng)的人，并框選出來：

輸入：

A green umbrella. A pink striped umbrella. A plain white umbrella

MDETR 只框選文字描述的目標(biāo)：

這就是多模態(tài)，視覺和文本的結(jié)合。

甚至可以問：

What color is the train?

MDETR 可以告訴你是紅色，并且把火車框選出來。

MDETR 是基于 DETR 實現(xiàn)的調(diào)制檢測器，結(jié)合 NLP 來執(zhí)行目標(biāo)檢測任務(wù)，真正實現(xiàn)了端到端的多模態(tài)推理。

對于圖像，MDETR 采用的是一個 CNN 作為 backbone 提取視覺特征，然后引入位置編碼；對于語言，采用訓(xùn)練好的 Transformer 語言模型來生成與輸入值相同大小的 hidden state，然后作者采用了一個模態(tài)相關(guān)的 Linear Projection 將圖像和文本特征映射到一個共享的 embedding 空間。

接著，將圖像 embedding 和語言 embedding 進行 concat ，生成一個樣本的圖像和文本特征序列。

項目地址：
https://github.com/ashkamath/mdetr

DALL·E Mini

沒錯，這也是“多模態(tài)”的另一作品。

我之前在出過的 Transformer 教程中，提到過 DALL·E：

保姆級教程：硬核圖解Transformer

DALL·E，可以魔法一般地按照自然語言文字描述直接生成對應(yīng)圖片!

輸入文本：鱷梨形狀的扶手椅。

AI 生成的圖像：

DALL·E Mini 是 DALL·E 迷你版，模型縮小了 27 倍。

我試著體驗了一下，給模型輸入了：

jack has a handsome face

Jack 擁有一張英俊帥氣的臉，沒錯，就是這么不要 face。

一看結(jié)果，好家伙，抽象派的畢加索，都不敢這么畫：

我又試了下:

a train

雖然，是那么回事，但這畫的真“抽象”。

DALL·E Mini 倒是可以當(dāng)做“抽象”作畫使用，寫實的畫，要差太多。

因為 Mini 版本的原因，效果上，感覺也要弱于 DALL·E 。

可以看下，論文中展示的一些樣例：

看著還可以，算法的思想還是很值得我們學(xué)習(xí)的。

項目地址：
https://github.com/borisdayma/dalle-mini

總結(jié)

“多模態(tài)”大勢所趨，利用閑暇時間學(xué)習(xí)學(xué)習(xí)。

我是 Jack ，我們下期見！

·················END·················

這，就很抽象！

MDETR

DALL·E Mini

總結(jié)

推薦閱讀

這，就很抽象！

MDETR

DALL·E Mini

總結(jié)

推薦閱讀

這，就很抽象！