干貨 | 2021年,深度學(xué)習(xí)還有哪些研究方向可以做?
點(diǎn)擊上方“視學(xué)算法”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
導(dǎo)讀
在目前的深度學(xué)習(xí)領(lǐng)域,有些研究方向已經(jīng)較為成熟,實(shí)現(xiàn)新突破的難度與過(guò)去相比顯著提升。那么就目前來(lái)看,還有哪些方向處于朝陽(yáng)階段,相比之下更有研究潛力?

0
1
作者:謝凌曦
我的主要研究方向是計(jì)算機(jī)視覺(jué),所以本文也會(huì)比較偏重CV方向。
1. 不適合的研究方向
首先我要反對(duì)兩個(gè)方向:對(duì)比學(xué)習(xí)為代表的自監(jiān)督學(xué)習(xí)算法(包括BYOL等)和Transformer。它們的上限幾乎是肉眼可見(jiàn)的,在沒(méi)有非平凡的改進(jìn)之前,很難有本質(zhì)上的突破。在大量研究者投入精力的情況下,只要沒(méi)有持續(xù)的產(chǎn)出,就必然會(huì)導(dǎo)致其加速衰落。前些年盛極一時(shí)的網(wǎng)絡(luò)架構(gòu)搜索(NAS)就是一個(gè)非常典型的例子。
我們首先分析NAS、對(duì)比學(xué)習(xí)、Transformer的局限性:
(1) 原本以NAS為代表的AutoML技術(shù)受到了廣泛的期待,我還主張“自動(dòng)機(jī)器學(xué)習(xí)之于深度學(xué)習(xí),就好比深度學(xué)習(xí)之于傳統(tǒng)方法”,不過(guò)后來(lái)發(fā)現(xiàn)它的缺陷是明顯的。在搜索空間指數(shù)級(jí)擴(kuò)大之后,算法就必須在精度和速度之間做出選擇。后來(lái)盛行的權(quán)重共享類搜索方法,相當(dāng)于追求搜索空間中的平攤精度,而平攤精度與最佳個(gè)體的精度往往并不吻合。
(2)對(duì)比學(xué)習(xí)被廣泛引入圖像領(lǐng)域作為自監(jiān)督任務(wù)以后,前世代的自監(jiān)督算法(如預(yù)測(cè)旋轉(zhuǎn)、拼圖、上色等)紛紛被吊打,甚至開(kāi)始在下游任務(wù)中超越有監(jiān)督訓(xùn)練的模型。然而,當(dāng)前的對(duì)比學(xué)習(xí)類方法(包括BYOL)對(duì)于數(shù)據(jù)擴(kuò)增(data augmentation)的依賴過(guò)重,因而不可避免地陷入了invariance和consistency之間的矛盾:強(qiáng)力的augmentation能夠促進(jìn)學(xué)習(xí)效果,但是如果augmentation過(guò)強(qiáng),不同view之間的可預(yù)測(cè)性又無(wú)法保證。
(3)至于Transformer,雖然目前還處在比較興盛的狀態(tài),然而它的上限也是明顯的。除了更快的信息交換,似乎這種模型并沒(méi)有體現(xiàn)出顯著的優(yōu)勢(shì)。問(wèn)題是:CV任務(wù)真的需要頻繁而快速的視覺(jué)信息交換嗎?遺憾的是,學(xué)界依然沉浸在“先將所有任務(wù)用Transformer刷一遍”的廉價(jià)快樂(lè)中,鮮有人愿意思考一些更深入的問(wèn)題。
2. 應(yīng)該關(guān)注的方向(但未必能夠保證產(chǎn)出)
0
2
作者:數(shù)據(jù)誤碼率
如果以CVPR為CV的導(dǎo)向的話,目前發(fā)展大概是這樣:
MLP(2012年的前)—>CNN(2012-約2020)—>transformer(2020年以后)—>MLP(??Google最近又把這玩意刨出來(lái)了,至于是不是,不敢推測(cè)結(jié)果如何)
先說(shuō)結(jié)論:
越來(lái)越比拼硬件資源能力了。
總之就我做的醫(yī)學(xué)圖像分割上來(lái)說(shuō),最直觀的感受就是幾個(gè)點(diǎn)吧:
(1)傳統(tǒng)基于CNN的文章除非在理論上、網(wǎng)絡(luò)結(jié)構(gòu)上(萬(wàn)年薅UNet,各種魔改)有大的創(chuàng)新,否則給人的感覺(jué)創(chuàng)新性都不大,甚至可以歸為“水文”,二區(qū)都難。
(2)獨(dú)立于網(wǎng)絡(luò)之外的用于提升網(wǎng)絡(luò)性能的模塊上,attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改,要說(shuō)最近的方向,可能就是類似ECA-module這種類似的走輕量注意力上才有的發(fā)paper。
(3)transformer:是個(gè)很新的方向,目前應(yīng)該是醫(yī)學(xué)圖像分割上最好灌水的方向之一了,我記得去年開(kāi)組會(huì)剛想把Unet的編碼器或者解碼器部分改成transformer,試試效果如何,結(jié)果一上知乎,我校某實(shí)驗(yàn)室就在編碼器部分搞了出來(lái)一篇transUnet。看完swin-tranformer我一拍大腿,我去,這個(gè)好,這下解碼器編碼器都可以改了,對(duì)我這個(gè)小菜雞還好理解點(diǎn),結(jié)果馬上有人做出來(lái)了swin-unet。總的來(lái)說(shuō)就是,目前想水醫(yī)學(xué)圖像分割的transformer文章的,代碼+硬件兩手都硬的同行們,可以抓緊了。因?yàn)槟壳爸灰闼俣葔蚩欤琺ethod部分不需要寫(xiě)大量公式計(jì)算,也不用憋著想如何寫(xiě)創(chuàng)新點(diǎn),創(chuàng)新點(diǎn)統(tǒng)一為:
“本文首次把transformer應(yīng)用于XXX檢測(cè)/識(shí)別/分類/分割”
(4)大顯存、多數(shù)量GPU,無(wú)論顯存還是數(shù)量,越多越好,堪比挖礦。我曾經(jīng)嘗試把DA-Net中的PAM和CAM丟到UNet里去,結(jié)果直接out of memory….you need another 64GB。把我嚇得,團(tuán)隊(duì)只有4卡RTX2080Ti瑟瑟發(fā)抖。transformer那種基于self-attention的大型注意力包,理論上計(jì)算資源只會(huì)多不會(huì)少,等忙完這段時(shí)間我準(zhǔn)備搞一個(gè)3層的swin結(jié)構(gòu)的編解碼結(jié)構(gòu)試試,但愿能跑起來(lái),這樣畢業(yè)論文就顯得新一點(diǎn) 。
0
3
作者:Zhifeng
回答幾個(gè)我最近在研究的方向~ 我主要在做生成模型,不過(guò)亂七八糟的也有涉獵。
1. 可解釋性
feature-based研究的很多了,instance-based個(gè)人感覺(jué)在上升期,從研究的角度來(lái)說(shuō)缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我覺(jué)得這里面self influence的概念非常有趣,應(yīng)該很值得研究。當(dāng)然,更意思的方向是跳出influence function本身,比如像relatIF 加一些regularization,也是水文章的一貫套路(relatIF是好文章)。
Influence function for generative models也是很值得做的。Influence function for GAN已經(jīng)有人做了,雖然文章直接優(yōu)化FID是有點(diǎn)問(wèn)題的,但是框架搭好了,換一個(gè)evaluation換個(gè)setting就可以直接發(fā)paper.
我最近寫(xiě)了Influence function for VAE, 有不少比較有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).
2. 無(wú)監(jiān)督生成學(xué)習(xí)
最近的denoising diffusion probabilistic model(DDPM)絕對(duì)是熱坑,效果好,但是速度慢沒(méi)有meaningful latent space限制了很多應(yīng)用,有待發(fā)掘。我去年實(shí)習(xí)寫(xiě)了一篇DiffWave是這個(gè)方法在語(yǔ)音上的應(yīng)用,效果很好,最近應(yīng)該能看到這個(gè)模型的application井噴,比如3D point cloud生成。
DDPM的加速最近已經(jīng)有不少paper了,目前來(lái)看有幾類,有的用conditioned on noise level去重新訓(xùn)練,有的用jumping step縮短Markov Chain,有的在DDPM++里面研究更快的solver. 我最近寫(xiě)了FastDPM, 是一種結(jié)合noise level和jumping step的快速生成的框架(無(wú)需retrain, original DDPM checkpoint拿來(lái)直接用),統(tǒng)一并推廣了目前的好幾種方法,給出了不同任務(wù)(圖像, 語(yǔ)音)的recipe (paper[2]; code repo: FastDPM_pytorch).
生成模型里的Normalizing flow模型,用可逆網(wǎng)絡(luò)轉(zhuǎn)化數(shù)據(jù)分布,很fancy 能提供likelihood和比較好的解釋性但是效果偏偏做不上去,一方面需要在理論上有補(bǔ)充,因?yàn)榭赡婊蛘週ipschitz網(wǎng)絡(luò)的capacity確實(shí)有限。另一方面,實(shí)際應(yīng)用中,training不穩(wěn)定可能是效果上不去的原因,其中initialization 和training landscape都是有待研究的問(wèn)題。潛在的突破口:augmented dimension或者類似surVAE那種generalized mapping. 除此之外,normalizing flow on discrete domain也是很重要的問(wèn)題,潛在突破口是用OT里面的sinkhorn network.
我對(duì)residual flow這個(gè)模型有執(zhí)念,很喜歡這個(gè)框架,雖然它不火。今年早些時(shí)候我寫(xiě)了residual flow的universal approximation in MMD的證明,很難做,需要比較特殊的假設(shè) (paper[3])。之后可能繼續(xù)鉆研它的capacity和learnability.
再補(bǔ)充一個(gè):
3. 生成模型的overfitting是一個(gè)長(zhǎng)久的問(wèn)題,但是本身很難定義,很大一個(gè)原因是mode collapse和copy training data耦合在一起。我們組去年發(fā)表了data-copying test用于檢測(cè)相關(guān)性質(zhì),不過(guò)這個(gè)idea還停留在比較初級(jí)的階段,我覺(jué)得這一塊需要更多high level的框架。
4. Meta learning + generative model方向個(gè)人十分看好,meta learning 框架可以直接套,loss改成生成模型的loss就可以了。Again, GAN已經(jīng)被做了,不過(guò)GAN的paper那么多,隨便找上一個(gè)加上meta learning還是很容易的。類似可以做multitask + GAN.
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!

點(diǎn)個(gè)在看 paper不斷!
