<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          這,就很抽象!

          共 1603字,需瀏覽 4分鐘

           ·

          2021-08-06 04:27

          大家好,我是 Jack。

          上周末,可把我忙壞了,公司有活動,周六參加了一天,周日又做了一天的視頻。

          新視頻,還在趕制中,7 月份視頻又鴿了一個月,難受~ 不過新視頻絕對精彩,信我!

          今天,聊聊“多模態(tài)”的兩個算法,MDETR 挺有意思,DALL·E Mini 很抽象。

          MDETR

          今年,是“多模態(tài)”百家爭鳴的一年,各種多模態(tài)算法,層出不窮。

          MDETR 一種端到端的多模態(tài)推理算法,可以支持文本和圖像的同時推理。

          這就很有意思了。

          輸入:

          5 people each holding an umbrella

          MDETR 可以找出對應(yīng)的人,并框選出來:

          輸入:

          A green umbrella. A pink striped umbrella. A plain white umbrella

          MDETR 只框選文字描述的目標(biāo):

          這就是多模態(tài),視覺和文本的結(jié)合。

          甚至可以問:

          What color is the train?

          MDETR 可以告訴你是紅色,并且把火車框選出來。

          MDETR 是基于 DETR 實現(xiàn)的調(diào)制檢測器,結(jié)合 NLP 來執(zhí)行目標(biāo)檢測任務(wù),真正實現(xiàn)了端到端的多模態(tài)推理。

          對于圖像,MDETR 采用的是一個 CNN 作為 backbone 提取視覺特征,然后引入位置編碼;對于語言,采用訓(xùn)練好的 Transformer 語言模型來生成與輸入值相同大小的 hidden state,然后作者采用了一個模態(tài)相關(guān)的 Linear Projection 將圖像和文本特征映射到一個共享的 embedding 空間。

          接著,將圖像 embedding 和語言 embedding 進行 concat ,生成一個樣本的圖像和文本特征序列。

          項目地址:

          https://github.com/ashkamath/mdetr

          DALL·E Mini

          沒錯,這也是“多模態(tài)”的另一作品。

          我之前在出過的 Transformer 教程中,提到過 DALL·E:

          保姆級教程:硬核圖解Transformer

          DALL·E,可以魔法一般地按照自然語言文字描述直接生成對應(yīng)圖片!

          輸入文本:鱷梨形狀的扶手椅。

          AI 生成的圖像:

          DALL·E Mini 是 DALL·E 迷你版,模型縮小了 27 倍。

          我試著體驗了一下,給模型輸入了:

          jack has a handsome face

          Jack 擁有一張英俊帥氣的臉,沒錯,就是這么不要 face。

          一看結(jié)果,好家伙,抽象派的畢加索,都不敢這么畫:

          我又試了下:

          a train

          雖然,是那么回事,但這畫的真“抽象”。

          DALL·E Mini 倒是可以當(dāng)做“抽象”作畫使用,寫實的畫,要差太多。

          因為 Mini 版本的原因,效果上,感覺也要弱于 DALL·E 。

          可以看下,論文中展示的一些樣例:

          看著還可以,算法的思想還是很值得我們學(xué)習(xí)的。

          項目地址:

          https://github.com/borisdayma/dalle-mini

          總結(jié)

          “多模態(tài)”大勢所趨,利用閑暇時間學(xué)習(xí)學(xué)習(xí)。

          我是 Jack ,我們下期見!

          ·················END·················

          推薦閱讀

          ?   我一年的堅持,值了!?   AI算法,整新活!?   計算機專業(yè)讀研三年,到底值不值!

          瀏覽 49
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  秘 韩国免费网站18禁 | 人人妻人人干 | 成人毛片18女人毛片免费看百度 | 青娱乐国产精品天堂视频 | 成人综合导航 |