<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何看待swin transformer成為ICCV2021的 best paper?

          共 3323字,需瀏覽 7分鐘

           ·

          2021-10-28 05:21

          胡瀚(微軟亞研?視覺計(jì)算組研究員?)回答:


          作為作者之一來答一波

          有生之年從沒想過有機(jī)會(huì)解鎖馬爾獎(jiǎng),感覺自己很幸運(yùn)!坦率講,這次的獎(jiǎng)項(xiàng)應(yīng)該共同屬于更早以及同期一起推進(jìn)Transformer在CV中基本建模的很多工作,Swin Transformer很幸運(yùn)被選中了作為其中的代表,感謝&感恩!


          借此機(jī)會(huì),再次推薦大家在CV中擁抱Transformer,現(xiàn)在NLP、CV和眾多AI領(lǐng)域在建模和學(xué)習(xí)上越來越近,我認(rèn)為這是一個(gè)好事情,如我們在論文里所說:希望Swin Transformer在各種視覺任務(wù)上的強(qiáng)大表現(xiàn),能鼓勵(lì)CV community擁抱Transformer以及視覺和語言更統(tǒng)一的建模。我們相信,這也會(huì)讓我們離AGI更近一點(diǎn)點(diǎn)(盡管路途依舊遙遠(yuǎn))。


          另一方面,Transformer來自于NLP,不得不說NLP過去幾年引領(lǐng)了整個(gè)AI領(lǐng)域,他們過去幾年的思考非常值得我們學(xué)習(xí)。當(dāng)然,我們也不用妄自菲薄,事實(shí)上更早前的很多年里,更多的時(shí)候是CV在引領(lǐng)整個(gè)領(lǐng)域,包括預(yù)訓(xùn)練范式的提出和廣泛應(yīng)用、residual連接、normalization層等等很多技術(shù)都來自CV領(lǐng)域。現(xiàn)在正是我們CV領(lǐng)域的研究者們打開思路,想的更遠(yuǎn)更超前一些的時(shí)候。我對此很有信心,CV領(lǐng)域非常open-minded,能接受很多不同的方向以及風(fēng)格迥異的作品,我相信這也是CV領(lǐng)域過去能長期保持活力和越來越壯大的重要原因。我也很期待我們CV領(lǐng)域的研究員們將來和NLP以及其它AI領(lǐng)域的朋友們一起前行,讓AI變得更好,對整個(gè)社會(huì)產(chǎn)生更多有益的影響!


          這里還分享一下論文背后的幾個(gè)小故事(共一作者已經(jīng)出現(xiàn)在很多地方了,因此我這里會(huì)特別涉及其他幾位作者非常關(guān)鍵的貢獻(xiàn)):


          1) 關(guān)于名字。Arxiv放第一版時(shí)忘記了注明名字的由來,后來有朋友問起來才意識(shí)到。Swin是Shifted window的縮寫,這也是投稿前最后一天才確定下來的名字。很長一段時(shí)間我們在考慮是否以hierarchical(H)作為名字,但最后覺得shifted window是這篇論文最有意思的一個(gè)設(shè)計(jì),也是實(shí)現(xiàn)局部性和層次性的關(guān)鍵所在,于是決定在方法的名字里強(qiáng)調(diào)這個(gè)技術(shù)。Swin這個(gè)名字是合作者郭百寧的貢獻(xiàn)。


          2) Shifted window這個(gè)idea的由來和解釋。其實(shí)決定做層次化Transformer的時(shí)候,幾乎一瞬間就想到了這樣一個(gè)設(shè)計(jì)。主要是因?yàn)橛袃赡昵霸贗CCV 2019上我們做的局部關(guān)系網(wǎng)絡(luò)(Local Relation Networks)的基礎(chǔ),當(dāng)時(shí)嘗試了第一個(gè)完全基于自注意力而無需卷積的骨干網(wǎng)絡(luò),但發(fā)現(xiàn)基于滑動(dòng)窗口的自注意單元對GPU顯存訪問不太友好,計(jì)算速度較慢不太實(shí)用,因此我們直接跳過了這個(gè)選項(xiàng)嘗試了不重疊窗口的設(shè)計(jì)。而移位的思想則來自我4年前另一個(gè)沒有發(fā)表工作的想法(當(dāng)時(shí)因?yàn)樽龅牟粔騭olid所以放棄了),想不到在這里產(chǎn)生了妙用。而關(guān)于速度快的精確解釋主要?dú)w功于合作者張拯,他提出了共享key集合是導(dǎo)致顯存訪問友好的關(guān)鍵所在。


          3) 這篇論文更長久的貢獻(xiàn)可能是讓領(lǐng)域普遍意識(shí)到Transformer可以在廣泛的視覺問題中超越CNN,以及為下游密集任務(wù)提供一個(gè)還不錯(cuò)的訓(xùn)練和測試菜譜(recipe)。在投稿前最后一個(gè)多月我們的主要精力就在于此,希望調(diào)一個(gè)Transformer時(shí)代靠譜的菜譜來。這方面韋毅軒做了大量貢獻(xiàn)。說實(shí)話學(xué)生們被我們push得是比較狠的,這里表示抱歉,也要特別感謝所有學(xué)生們的理解。另外,毅軒在這個(gè)項(xiàng)目之前是和組里另一個(gè)同學(xué)姚朱亮一起在做和CLIP幾乎一樣的方法,做著做著就看到CLIP出來了。當(dāng)然我們的目標(biāo)有所不同,所以按照我們當(dāng)時(shí)認(rèn)知的高度,即使在某些場合證明了效果,也是做不出CLIP來的。


          4) 在MSRA這幾年,向代季峰、危夷晨、Steve Lin,以及讀愷明大神和孫老大的文章學(xué)到了很多做問題的方式和寫作方面的技巧:季峰的實(shí)驗(yàn)設(shè)計(jì)和作圖,夷晨精密的行文邏輯,愷明講story的能力,Steve Lin邏輯和語言上的gift,對我?guī)椭艽蠛艽蟆1M管如此,Swin的初稿經(jīng)過Steve Lin和百寧加工后,還是煥然一新。


          MSRA有兩點(diǎn)我覺得是特別unique的,一個(gè)是自由的學(xué)術(shù)氛圍,二是很好的傳承。我個(gè)人就非常受益于此,向很多前輩們學(xué)習(xí),得到了很多成長。也希望能將這些好的方法論傳承下去,我想這也是MSRA能長青的重要原因之一。也希望MSRA能為公司,以及國內(nèi)的工業(yè)和科研界培養(yǎng)越來越多的人才。


          最后,還是例行給大家安利下MSRA的研究員職位以及我們的聯(lián)合培養(yǎng)博士生項(xiàng)目,這些聯(lián)培項(xiàng)目的博士生們在讀博期間普遍都有非常好的成長,幾位合作的聯(lián)培博士同學(xué)都已經(jīng)具備了很強(qiáng)的潛力,盡管還非常年輕,例如劉澤在中科大剛開始博三,宇桐和毅軒都分別是西交和清華博二的同學(xué)。對于有意聯(lián)合培養(yǎng)項(xiàng)目的本科生,或者有意和微軟亞洲研究院建立聯(lián)培合作項(xiàng)目的學(xué)校,可以聯(lián)系我或者相關(guān)的同事哈。



          曹越(清華大學(xué)?軟件工程?博士)回答:

          作為作者之一答一波。

          首先特別感謝所有朋友的鼓勵(lì)和批評,我認(rèn)真看了每一條回復(fù)和評論,對所有內(nèi)容我們都會(huì)照單全收,從中吸取養(yǎng)分,提升自己。

          在技術(shù)層面,其他很多回答、還有之前的問題中已經(jīng)討論了很多。在這里,我想提供一個(gè)不同的角度,主要是講講從我來MSRA這三四年間,有哪些東西讓我受益匪淺、飛速提升,從而有機(jī)會(huì)做出更好的工作:

          1. 傳承。從孫老大、愷明、夷晨、季峰、祥雨、錫洲等等,到胡瀚、張拯和我,在組內(nèi)傳承的是科研taste的培養(yǎng)和科研素質(zhì)的訓(xùn)練,包括如何產(chǎn)生一個(gè)好idea并把它做work、內(nèi)部討論時(shí)平等激烈乃至對工作challenge到極致、對實(shí)驗(yàn)solid程度的近乎苛求、對寫作邏輯與細(xì)節(jié)的把控和質(zhì)量的要求等等。這個(gè)過程像是model distillation,但因?yàn)槊總€(gè)student model的架構(gòu)不同(每個(gè)人天賦不同),最終會(huì)衍生出不同的版本,每個(gè)人擅長的地方也不全相同。因?yàn)檫@個(gè)傳承沒有斷掉,使得我們可以再次得到充分的科研訓(xùn)練,受益匪淺、提升巨大。


          2. hands on和參與度。即較為senior的科研人員依然能夠依然非常hands on和專注地做科研工作,從想idea、寫code、對實(shí)驗(yàn)的推進(jìn)到論文的寫作,參與度極高,這對提高文章的質(zhì)量至關(guān)重要。就像胡瀚在回答中提及的,Swin里的每個(gè)作者都對文章有非常重要的貢獻(xiàn),還有比如19年胡瀚博士畢業(yè)已經(jīng)第5年,依然獨(dú)自完成了local relation block的c++ kernel實(shí)現(xiàn),聽說愷明、祥雨現(xiàn)如今還在自己寫code等等。如果要追求工作的質(zhì)量,有很強(qiáng)科研能力的人充分的參與,是不可或缺的一個(gè)部分,我們也因此受益。


          3. 自由平等的氛圍和鼓勵(lì)合作。同一組里,經(jīng)驗(yàn)豐富的研究員們和學(xué)生們親密無間的合作,使得skill set可以互相補(bǔ)足,對工作質(zhì)量也是有質(zhì)的提升。俗話說三個(gè)臭皮匠,頂個(gè)諸葛亮,如果有三個(gè)互相信任、互相支持、心無雜念且目標(biāo)明確的諸葛亮,可以做的事情可想而知。除此之外,和其他方向的很多同事交流的過程中能學(xué)到非常多東西,這就像是在做model ensemble的時(shí)候,不同模型在同樣強(qiáng)的情況下,差異越大效果越好。


          最后希望未來華人在計(jì)算機(jī)視覺、泛人工智能、乃至整個(gè)科學(xué)領(lǐng)域都能夠有越來越多和越來越高的成就,共勉。


          來源:知乎

          本文僅作學(xué)術(shù)分享,著作權(quán)歸屬原作者,侵刪

          https://www.zhihu.com/question/492057377


          ——The ?End——

          推薦閱讀


          2021人工智能狀況分析報(bào)告


          一個(gè)CV算法工程師的小反思


          2022 年秋招算法崗繼續(xù)卷翻天


          AI學(xué)會(huì)灌水和造假!Google新研究揭露了AI現(xiàn)實(shí)應(yīng)用的陷阱


          讀者,你好!為了方便大家學(xué)習(xí)交流,我們建立了微信群,歡迎大家加我的微信邀請你進(jìn)群!微商和廣告勿擾,謝謝合作!

          瀏覽 41
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久草久久 | 操老女人逼| 久久亚洲免费视频 | 亚洲人成电影网网站 | 日本色婷婷 |