2021年深度學(xué)習(xí)哪些方向比較新穎,處于上升期或者朝陽(yáng)階段,比較有研究潛力?
來(lái)源 | 知乎問(wèn)答
?https://www.zhihu.com/question/460500204
本文僅作學(xué)術(shù)分享,若侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪文處理
問(wèn)題:本人只對(duì)目標(biāo)檢測(cè)方向比較了解,感覺(jué)現(xiàn)在比較成熟和飽和了,再突破比較難。想嘗試換個(gè)方向進(jìn)行研究,但是我對(duì)整個(gè)深度學(xué)習(xí)大的趨勢(shì)還不是很了解。求大佬解答一下,謝謝。
Zhifeng(UCSD CSE博士)回答:

我的主要研究方向是計(jì)算機(jī)視覺(jué),所以本文也會(huì)比較偏重CV方向。
1. 不適合的研究方向
首先我要反對(duì)兩個(gè)方向:對(duì)比學(xué)習(xí)為代表的自監(jiān)督學(xué)習(xí)算法(包括BYOL等)和Transformer。它們的上限幾乎是肉眼可見(jiàn)的,在沒(méi)有非平凡的改進(jìn)之前,很難有本質(zhì)上的突破。在大量研究者投入精力的情況下,只要沒(méi)有持續(xù)的產(chǎn)出,就必然會(huì)導(dǎo)致其加速衰落。前些年盛極一時(shí)的網(wǎng)絡(luò)架構(gòu)搜索(NAS)就是一個(gè)非常典型的例子。
我們首先分析NAS、對(duì)比學(xué)習(xí)、Transformer的局限性:
原本以NAS為代表的AutoML技術(shù)受到了廣泛的期待,我還主張“自動(dòng)機(jī)器學(xué)習(xí)之于深度學(xué)習(xí),就好比深度學(xué)習(xí)之于傳統(tǒng)方法”,不過(guò)后來(lái)發(fā)現(xiàn)它的缺陷是明顯的。在搜索空間指數(shù)級(jí)擴(kuò)大之后,算法就必須在精度和速度之間做出選擇。后來(lái)盛行的權(quán)重共享類(lèi)搜索方法,相當(dāng)于追求搜索空間中的平攤精度,而平攤精度與最佳個(gè)體的精度往往并不吻合。 對(duì)比學(xué)習(xí)被廣泛引入圖像領(lǐng)域作為自監(jiān)督任務(wù)以后,前世代的自監(jiān)督算法(如預(yù)測(cè)旋轉(zhuǎn)、拼圖、上色等)紛紛被吊打,甚至開(kāi)始在下游任務(wù)中超越有監(jiān)督訓(xùn)練的模型。然而,當(dāng)前的對(duì)比學(xué)習(xí)類(lèi)方法(包括BYOL)對(duì)于數(shù)據(jù)擴(kuò)增(data augmentation)的依賴(lài)過(guò)重,因而不可避免地陷入了invariance和consistency之間的矛盾:強(qiáng)力的augmentation能夠促進(jìn)學(xué)習(xí)效果,但是如果augmentation過(guò)強(qiáng),不同view之間的可預(yù)測(cè)性又無(wú)法保證。 至于Transformer,雖然目前還處在比較興盛的狀態(tài),然而它的上限也是明顯的。除了更快的信息交換,似乎這種模型并沒(méi)有體現(xiàn)出顯著的優(yōu)勢(shì)。問(wèn)題是:CV任務(wù)真的需要頻繁而快速的視覺(jué)信息交換嗎?遺憾的是,學(xué)界依然沉浸在“先將所有任務(wù)用Transformer刷一遍”的廉價(jià)快樂(lè)中,鮮有人愿意思考一些更深入的問(wèn)題。
2. 應(yīng)該關(guān)注的方向(但未必能夠保證產(chǎn)出)
我認(rèn)為CV領(lǐng)域還是存在很多本質(zhì)問(wèn)題沒(méi)有解決的。但是這些問(wèn)題往往非常困難,投入長(zhǎng)期研究的風(fēng)險(xiǎn)也比較大,因而大部分研究者會(huì)回避這些問(wèn)題。然而要從根源上推進(jìn)CV的發(fā)展,這些問(wèn)題就不得不去面對(duì)、解決:
是否存在神經(jīng)網(wǎng)絡(luò)之外的推理方式?當(dāng)前,神經(jīng)網(wǎng)絡(luò)成為訓(xùn)練以后的唯一產(chǎn)物,而幾乎所有算法均假設(shè)將輸入送給神經(jīng)網(wǎng)絡(luò)以后,一次性地得到輸出結(jié)果。然而,是否能夠設(shè)計(jì)直接向前傳遞以外的其他推理方式?例如,當(dāng)一個(gè)物體處于罕見(jiàn)的視角或者被嚴(yán)重遮擋時(shí),能否通過(guò)多次迭代式的處理,逐漸恢復(fù)其缺失的特征,最終完成識(shí)別任務(wù)?這就涉及到將強(qiáng)化學(xué)習(xí)引入訓(xùn)練,或者通過(guò)類(lèi)似于image warping的方式找到一條困難樣例和簡(jiǎn)單樣例之間的路徑。后者可以導(dǎo)向一個(gè)非常本質(zhì)的問(wèn)題:如何以盡可能低的維度刻畫(huà)語(yǔ)義空間?GAN以及相關(guān)的方法或許能夠提供一些思路,但是目前還沒(méi)有通用的、能夠輕易跨越不同domain的方法。
是否存在更精細(xì)的標(biāo)注方式,能夠推進(jìn)視覺(jué)的理解?我最近提出了一個(gè)假想:當(dāng)前所有的視覺(jué)識(shí)別算法都遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到完整,而這很可能是當(dāng)前不夠精細(xì)的標(biāo)注所導(dǎo)致的。那么,是否能夠在可行的范圍內(nèi),定義一種超越instance segmentation的標(biāo)注方式,進(jìn)一步推進(jìn)視覺(jué)識(shí)別?這就涉及到一系列根本問(wèn)題:什么是一個(gè)物體?如何定義一個(gè)物體?物體和部件之間有什么聯(lián)系?這些問(wèn)題不得到解決,物體檢測(cè)和分割將步圖像分類(lèi)的后塵,迅速陷入過(guò)擬合的困境。
如何解決大模型和小樣本之間的矛盾?當(dāng)前,大模型成為AI領(lǐng)域頗有前景的規(guī)模化解決方案。然而,大模型的本質(zhì)在于,通過(guò)預(yù)訓(xùn)練階段大量吸收數(shù)據(jù)(有標(biāo)簽或者無(wú)標(biāo)簽均可),緩解下游小樣本學(xué)習(xí)的壓力。這就帶來(lái)了一個(gè)新的矛盾:大模型看到的數(shù)據(jù)越多,模型就越需要適應(yīng)一個(gè)廣泛而分散的數(shù)據(jù)分布,因而通過(guò)小樣本進(jìn)行局部擬合的難度就越大。這很可能是制約大模型思路落地的一個(gè)瓶頸。
能否通過(guò)各種方式生成接近真實(shí)的數(shù)據(jù)?生成數(shù)據(jù)(包括虛擬場(chǎng)景或者GAN生成的數(shù)據(jù))很可能會(huì)帶來(lái)新的學(xué)習(xí)范式,然而這些數(shù)據(jù)和真實(shí)數(shù)據(jù)之間存在一種難以逾越的domain gap,制約了其在識(shí)別任務(wù)中發(fā)揮作用。我們提出問(wèn)題:這種domain gap,本質(zhì)上是不是特定的識(shí)別任務(wù)帶來(lái)的learning bias?我們希望通過(guò)改變學(xué)習(xí)目標(biāo),使得這種domain gap得到緩解甚至消失,從而能夠在有朝一日消滅人工標(biāo)注,真正開(kāi)啟新的學(xué)習(xí)范式。
是否存在更高效的人機(jī)交互模式?目前,人機(jī)之間的交互效率還很低,我就經(jīng)常因?yàn)闉樽鯬PT而頭疼不已。我認(rèn)為AI算法或許會(huì)深刻地改變?nèi)藱C(jī)交互的模式,使得以下場(chǎng)景變得更容易:多媒體內(nèi)容設(shè)計(jì)和排版、跨模態(tài)信息檢索、游戲微操作,等等。多模態(tài)算法很可能會(huì)在這波“人機(jī)交互革命”中發(fā)揮重要作用。
在我看來(lái),上述任何一個(gè)問(wèn)題,相比于無(wú)止境的燒卡刷點(diǎn),都要有趣且接近本質(zhì),但是風(fēng)險(xiǎn)也要更大一些。因此,大部分研究人員迫于現(xiàn)實(shí)壓力而選擇跟風(fēng),是再正常不過(guò)的事情。只要有人在認(rèn)真思考這些問(wèn)題并且穩(wěn)步推進(jìn)它們,AI就不是一個(gè)遙不可及的夢(mèng)。
限于時(shí)間,無(wú)法將上述每個(gè)點(diǎn)寫(xiě)得太仔細(xì);同時(shí)限于水平和視野,我也無(wú)法囊括所有重要的問(wèn)題(如可解釋性——雖然我對(duì)深度學(xué)習(xí)的可解釋性感到悲觀,不過(guò)看到有學(xué)者在這個(gè)領(lǐng)域深耕,還是能夠感覺(jué)到勇氣和希望)。
非常歡迎針對(duì)各種問(wèn)題的討論,也希望這些觀點(diǎn)能夠引發(fā)更多的思考吧。

陀飛輪(復(fù)旦大學(xué)?微電子學(xué)院碩士)回答:
先寫(xiě)兩個(gè)最近火熱我比較看好的方向Transformer和Self-Supervised,我這里舉的例子傾向于計(jì)算機(jī)視覺(jué)方向。最后再補(bǔ)充Zero-Shot和多模態(tài)兩個(gè)方向。
1.Transformer
自從去年DETR和ViT出來(lái)之后,計(jì)算機(jī)視覺(jué)領(lǐng)域掀起了Transformer狂潮。目前可以做的主要有兩個(gè)路徑,一個(gè)是魔改DETR和ViT,另一個(gè)是不同task遷移算法。
魔改DETR和ViT的方法,無(wú)非是引入local和hierarchical,或者魔改算子。
不同task遷移算法主要是探究如何針對(duì)不同的task做適配設(shè)計(jì)。
其中魔改DETR的可以參考以下工作:
[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]
其中魔改ViT的可以參考以下工作:
魔改算子:
[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT]
[BoTNet] [Visformer]
引入local或者h(yuǎn)ierarchical:
[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]
Swin Transformer對(duì)CNN的降維打擊
引入卷積:
[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]
不同task遷移算法的可以參考以下工作:
ViT+Seg [SETR] [TransUNet] [DPT] [U-Transformer]
ViT+Det [ViT-FRCNN] [ACT]
ViT+SOT [TransT] [TMT]
ViT+MOT [TransTrack] [TrackFormer] [TransCenter]
ViT+Video [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]
ViT+GAN [TransGAN] [AOT-GAN] [GANsformer]
ViT+3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]
以上幾個(gè)task是重災(zāi)區(qū)(重災(zāi)區(qū)的意思是聽(tīng)我一句勸,你把握不住)
ViT+Multimodal [Fast and Slow] [VATT]
ViT+Pose [TransPose] [TFPose]
ViT+SR [TTSR]
ViT+Crowd [TransCrowd]
ViT+NAS [BossNAS]
ViT+ReID [TransReID]
ViT+Face [FaceT]
想一想算子怎么魔改,或者還有什么task沒(méi)有做的
2.Self-Supervised
3. Zero-Shot
最近因?yàn)镃LIP的出現(xiàn),Zero-Shot可能會(huì)引起一波熱潮,ViLD將CLIP成功應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域,相信未來(lái)會(huì)有越來(lái)越多的基于CLIP的Zero-Shot方法。
4. 多模態(tài)
最近的ViLT結(jié)合了BERT和ViT來(lái)做多模態(tài),并且通過(guò)增加標(biāo)志位來(lái)巧妙的區(qū)分不同模態(tài),感覺(jué)是一個(gè)非常好的做多模態(tài)的思路,相信未來(lái)會(huì)有更強(qiáng)大的多模態(tài)出現(xiàn)。
至于最近火熱的MLP架構(gòu),極其不推薦,很沙雕
最后,適當(dāng)灌水,有能力還是要做有影響力的工作。
——The ?End——
讀者,你好!為了方便大家交流,我們成立了微信群,歡迎大家進(jìn)群討論。請(qǐng)掃碼加我的微信后,邀請(qǐng)你進(jìn)群。


