<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          干貨 | 2021年,2021年,深度學(xué)習(xí)還有哪些研究方向可以做?

          共 5900字,需瀏覽 12分鐘

           ·

          2021-06-14 22:03

          點擊左上方藍字關(guān)注我們



          全網(wǎng)搜集目標(biāo)檢測相關(guān),人工篩選最優(yōu)價值內(nèi)容

          編者薦語
          在目前的深度學(xué)習(xí)領(lǐng)域,有些研究方向已經(jīng)較為成熟,實現(xiàn)新突破的難度與過去相比顯著提升。那么就目前來看,還有哪些方向處于朝陽階段,相比之下更有研究潛力?看看知乎大佬們是如何說的。

          轉(zhuǎn)載自 | 極市平臺
          作者 | 謝凌曦、數(shù)據(jù)誤碼率、Zhifeng





          0

          1

          作者:謝凌曦

          來源鏈接:

          https://www.zhihu.com/question/460500204/answer/1930151239

          注:本回答所有內(nèi)容均只代表作者本人觀點,均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。


          我的主要研究方向是計算機視覺,所以本文也會比較偏重CV方向。

          1. 不適合的研究方向

          首先我要反對兩個方向:對比學(xué)習(xí)為代表的自監(jiān)督學(xué)習(xí)算法(包括BYOL等)和Transformer。它們的上限幾乎是肉眼可見的,在沒有非平凡的改進之前,很難有本質(zhì)上的突破。在大量研究者投入精力的情況下,只要沒有持續(xù)的產(chǎn)出,就必然會導(dǎo)致其加速衰落。前些年盛極一時的網(wǎng)絡(luò)架構(gòu)搜索(NAS)就是一個非常典型的例子。

          我們首先分析NAS、對比學(xué)習(xí)、Transformer的局限性:

          (1) 原本以NAS為代表的AutoML技術(shù)受到了廣泛的期待,我還主張“自動機器學(xué)習(xí)之于深度學(xué)習(xí),就好比深度學(xué)習(xí)之于傳統(tǒng)方法”,不過后來發(fā)現(xiàn)它的缺陷是明顯的。在搜索空間指數(shù)級擴大之后,算法就必須在精度和速度之間做出選擇。后來盛行的權(quán)重共享類搜索方法,相當(dāng)于追求搜索空間中的平攤精度,而平攤精度與最佳個體的精度往往并不吻合。

          (2)對比學(xué)習(xí)被廣泛引入圖像領(lǐng)域作為自監(jiān)督任務(wù)以后,前世代的自監(jiān)督算法(如預(yù)測旋轉(zhuǎn)、拼圖、上色等)紛紛被吊打,甚至開始在下游任務(wù)中超越有監(jiān)督訓(xùn)練的模型。然而,當(dāng)前的對比學(xué)習(xí)類方法(包括BYOL)對于數(shù)據(jù)擴增(data augmentation)的依賴過重,因而不可避免地陷入了invariance和consistency之間的矛盾:強力的augmentation能夠促進學(xué)習(xí)效果,但是如果augmentation過強,不同view之間的可預(yù)測性又無法保證。

          (3)至于Transformer,雖然目前還處在比較興盛的狀態(tài),然而它的上限也是明顯的。除了更快的信息交換,似乎這種模型并沒有體現(xiàn)出顯著的優(yōu)勢。問題是:CV任務(wù)真的需要頻繁而快速的視覺信息交換嗎?遺憾的是,學(xué)界依然沉浸在“先將所有任務(wù)用Transformer刷一遍”的廉價快樂中,鮮有人愿意思考一些更深入的問題。


          因此,我特別希望初學(xué)者不要看到一個熱門方向就一擁而上,而要冷靜地思考這個問題:如果全世界都知道這個方向火熱,那么你的研究要想脫穎而出,就必然有某些過人之處——比如你有特別多的卡,或者你有豐富的PR資源。否則,很可能還是捧紅了別人的文章,浪費了自己的時間。


          2. 應(yīng)該關(guān)注的方向(但未必能夠保證產(chǎn)出)


          我認為CV領(lǐng)域還是存在很多本質(zhì)問題沒有解決的。但是這些問題往往非常困難,投入長期研究的風(fēng)險也比較大,因而大部分研究者會回避這些問題。然而要從根源上推進CV的發(fā)展,這些問題就不得不去面對、解決:
          (1)是否存在神經(jīng)網(wǎng)絡(luò)之外的推理方式?當(dāng)前,神經(jīng)網(wǎng)絡(luò)成為訓(xùn)練以后的唯一產(chǎn)物,而幾乎所有算法均假設(shè)將輸入送給神經(jīng)網(wǎng)絡(luò)以后,一次性地得到輸出結(jié)果。然而,是否能夠設(shè)計直接向前傳遞以外的其他推理方式?例如,當(dāng)一個物體處于罕見的視角或者被嚴重遮擋時,能否通過多次迭代式的處理,逐漸恢復(fù)其缺失的特征,最終完成識別任務(wù)?這就涉及到將強化學(xué)習(xí)引入訓(xùn)練,或者通過類似于image warping的方式找到一條困難樣例和簡單樣例之間的路徑。后者可以導(dǎo)向一個非常本質(zhì)的問題:如何以盡可能低的維度刻畫語義空間?GAN以及相關(guān)的方法或許能夠提供一些思路,但是目前還沒有通用的、能夠輕易跨越不同domain的方法。
          (2)是否存在更精細的標(biāo)注方式,能夠推進視覺的理解?我最近提出了一個假想:當(dāng)前所有的視覺識別算法都遠遠沒有達到完整[1],而這很可能是當(dāng)前不夠精細的標(biāo)注所導(dǎo)致的。那么,是否能夠在可行的范圍內(nèi),定義一種超越instance segmentation的標(biāo)注方式,進一步推進視覺識別?這就涉及到一系列根本問題:什么是一個物體?如何定義一個物體?物體和部件之間有什么聯(lián)系?這些問題不得到解決,物體檢測和分割將步圖像分類的后塵,迅速陷入過擬合的困境。
          (3)如何解決大模型和小樣本之間的矛盾?當(dāng)前,大模型成為AI領(lǐng)域頗有前景的規(guī)?;鉀Q方案。然而,大模型的本質(zhì)在于,通過預(yù)訓(xùn)練階段大量吸收數(shù)據(jù)(有標(biāo)簽或者無標(biāo)簽均可),緩解下游小樣本學(xué)習(xí)的壓力。這就帶來了一個新的矛盾:大模型看到的數(shù)據(jù)越多,模型就越需要適應(yīng)一個廣泛而分散的數(shù)據(jù)分布,因而通過小樣本進行局部擬合的難度就越大。這很可能是制約大模型思路落地的一個瓶頸。
          (4)能否通過各種方式生成接近真實的數(shù)據(jù)?生成數(shù)據(jù)(包括虛擬場景或者GAN生成的數(shù)據(jù))很可能會帶來新的學(xué)習(xí)范式,然而這些數(shù)據(jù)和真實數(shù)據(jù)之間存在一種難以逾越的domain gap,制約了其在識別任務(wù)中發(fā)揮作用。我們提出問題:這種domain gap,本質(zhì)上是不是特定的識別任務(wù)帶來的learning bias?我們希望通過改變學(xué)習(xí)目標(biāo),使得這種domain gap得到緩解甚至消失,從而能夠在有朝一日消滅人工標(biāo)注,真正開啟新的學(xué)習(xí)范式。
          (5)是否存在更高效的人機交互模式?目前,人機之間的交互效率還很低,我就經(jīng)常因為為做PPT而頭疼不已。我認為AI算法或許會深刻地改變?nèi)藱C交互的模式,使得以下場景變得更容易:多媒體內(nèi)容設(shè)計和排版、跨模態(tài)信息檢索、游戲微操作,等等。多模態(tài)算法很可能會在這波“人機交互革命”中發(fā)揮重要作用。
          在我看來,上述任何一個問題,相比于無止境的燒卡刷點,都要有趣且接近本質(zhì),但是風(fēng)險也要更大一些。因此,大部分研究人員迫于現(xiàn)實壓力而選擇跟風(fēng),是再正常不過的事情。只要有人在認真思考這些問題并且穩(wěn)步推進它們,AI就不是一個遙不可及的夢。
          限于時間,無法將上述每個點寫得太仔細;同時限于水平和視野,我也無法囊括所有重要的問題(如可解釋性——雖然我對深度學(xué)習(xí)的可解釋性感到悲觀,不過看到有學(xué)者在這個領(lǐng)域深耕,還是能夠感覺到勇氣和希望)。
          非常歡迎針對各種問題的討論,也希望這些觀點能夠引發(fā)更多的思考吧。
          [1] https://zhuanlan.zhihu.com/p/376145664

          0

          2

          作者:數(shù)據(jù)誤碼率

          來源鏈接:

          https://www.zhihu.com/question/460500204/answer/1915471641


          如果以CVPR為CV的導(dǎo)向的話,目前發(fā)展大概是這樣:

          MLP(2012年的前)—>CNN(2012-約2020)—>transformer(2020年以后)—>MLP(??Google最近又把這玩意刨出來了,至于是不是,不敢推測結(jié)果如何)

          先說結(jié)論:

          越來越比拼硬件資源能力了。

          總之就我做的醫(yī)學(xué)圖像分割上來說,最直觀的感受就是幾個點吧:

          (1)傳統(tǒng)基于CNN的文章除非在理論上、網(wǎng)絡(luò)結(jié)構(gòu)上(萬年薅UNet,各種魔改)有大的創(chuàng)新,否則給人的感覺創(chuàng)新性都不大,甚至可以歸為“水文”,二區(qū)都難。

          (2)獨立于網(wǎng)絡(luò)之外的用于提升網(wǎng)絡(luò)性能的模塊上,attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改,要說最近的方向,可能就是類似ECA-module這種類似的走輕量注意力上才有的發(fā)paper。

          (3)transformer:是個很新的方向,目前應(yīng)該是醫(yī)學(xué)圖像分割上最好灌水的方向之一了,我記得去年開組會剛想把Unet的編碼器或者解碼器部分改成transformer,試試效果如何,結(jié)果一上知乎,我校某實驗室就在編碼器部分搞了出來一篇transUnet。看完swin-tranformer我一拍大腿,我去,這個好,這下解碼器編碼器都可以改了,對我這個小菜雞還好理解點,結(jié)果馬上有人做出來了swin-unet。總的來說就是,目前想水醫(yī)學(xué)圖像分割的transformer文章的,代碼+硬件兩手都硬的同行們,可以抓緊了。因為目前只要你速度夠快,method部分不需要寫大量公式計算,也不用憋著想如何寫創(chuàng)新點,創(chuàng)新點統(tǒng)一為:

          “本文首次把transformer應(yīng)用于XXX檢測/識別/分類/分割”

          (4)大顯存、多數(shù)量GPU,無論顯存還是數(shù)量,越多越好,堪比挖礦。我曾經(jīng)嘗試把DA-Net中的PAM和CAM丟到UNet里去,結(jié)果直接out of memory….you need another 64GB。把我嚇得,團隊只有4卡RTX2080Ti瑟瑟發(fā)抖。transformer那種基于self-attention的大型注意力包,理論上計算資源只會多不會少,等忙完這段時間我準(zhǔn)備搞一個3層的swin結(jié)構(gòu)的編解碼結(jié)構(gòu)試試,但愿能跑起來,這樣畢業(yè)論文就顯得新一點 。



          0

          3

          作者:Zhifeng

          來源鏈接:

          https://www.zhihu.com/question/460500204/answer/1902459141


          回答幾個我最近在研究的方向~ 我主要在做生成模型,不過亂七八糟的也有涉獵。

          1. 可解釋性

          feature-based研究的很多了,instance-based個人感覺在上升期,從研究的角度來說缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我覺得這里面self influence的概念非常有趣,應(yīng)該很值得研究。當(dāng)然,更意思的方向是跳出influence function本身,比如像relatIF 加一些regularization,也是水文章的一貫套路(relatIF是好文章)。

          Influence function for generative models也是很值得做的。Influence function for GAN已經(jīng)有人做了,雖然文章直接優(yōu)化FID是有點問題的,但是框架搭好了,換一個evaluation換個setting就可以直接發(fā)paper.

          我最近寫了Influence function for VAE, 有不少比較有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).

          2. 無監(jiān)督生成學(xué)習(xí)

          最近的denoising diffusion probabilistic model(DDPM)絕對是熱坑,效果好,但是速度慢沒有meaningful latent space限制了很多應(yīng)用,有待發(fā)掘。我去年實習(xí)寫了一篇DiffWave是這個方法在語音上的應(yīng)用,效果很好,最近應(yīng)該能看到這個模型的application井噴,比如3D point cloud生成。

          DDPM的加速最近已經(jīng)有不少paper了,目前來看有幾類,有的用conditioned on noise level去重新訓(xùn)練,有的用jumping step縮短Markov Chain,有的在DDPM++里面研究更快的solver. 我最近寫了FastDPM, 是一種結(jié)合noise level和jumping step的快速生成的框架(無需retrain, original DDPM checkpoint拿來直接用),統(tǒng)一并推廣了目前的好幾種方法,給出了不同任務(wù)(圖像, 語音)的recipe (paper[2]; code repo: FastDPM_pytorch).

          生成模型里的Normalizing flow模型,用可逆網(wǎng)絡(luò)轉(zhuǎn)化數(shù)據(jù)分布,很fancy 能提供likelihood和比較好的解釋性但是效果偏偏做不上去,一方面需要在理論上有補充,因為可逆或者Lipschitz網(wǎng)絡(luò)的capacity確實有限。另一方面,實際應(yīng)用中,training不穩(wěn)定可能是效果上不去的原因,其中initialization 和training landscape都是有待研究的問題。潛在的突破口:augmented dimension或者類似surVAE那種generalized mapping. 除此之外,normalizing flow on discrete domain也是很重要的問題,潛在突破口是用OT里面的sinkhorn network.

          我對residual flow這個模型有執(zhí)念,很喜歡這個框架,雖然它不火。今年早些時候我寫了residual flow的universal approximation in MMD的證明,很難做,需要比較特殊的假設(shè) (paper[3])。之后可能繼續(xù)鉆研它的capacity和learnability.

          再補充一個:

          3. 生成模型的overfitting是一個長久的問題,但是本身很難定義,很大一個原因是mode collapse和copy training data耦合在一起。我們組去年發(fā)表了data-copying test用于檢測相關(guān)性質(zhì),不過這個idea還停留在比較初級的階段,我覺得這一塊需要更多high level的框架。

          4. Meta learning + generative model方向個人十分看好,meta learning 框架可以直接套,loss改成生成模型的loss就可以了。Again, GAN已經(jīng)被做了,不過GAN的paper那么多,隨便找上一個加上meta learning還是很容易的。類似可以做multitask + GAN.


          [1] https://arxiv.org/pdf/2105.14203.pdf
          [2] https//arxiv.org/pdf/2106.00132.pdf
          [3] https://arxiv.org/pdf/2103.05793.pdf


          END



          雙一流大學(xué)研究生團隊創(chuàng)建,專注于目標(biāo)檢測與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

          整理不易,點贊三連↓

          瀏覽 98
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  靠逼视频在线观看 | 大大大香蕉伊人 | 午夜看逼 | 操B视频在线 | 青春草视频免费在线观看 |