↑ 點擊藍字關注極市平臺

作者丨陀飛輪、Zhifeng、謝凌曦

來源丨知乎問答

編輯丨極市平臺

極市導讀

深度學習成為近些年來較為熱門的領域，算法工程師這一崗位也變得越發(fā)的搶手，盡管已經(jīng)踏入了這一領域但對整體的大環(huán)境其實是還不能夠準確的把握。從研究方向去看，2021年的深度學習還有哪些方向還是一片藍海或者比較有研究的潛力呢？本文匯總了知乎三位答主的精華回答，希望能給大家?guī)韼椭?nbsp;>>加入極市CV技術交流群，走在計算機視覺的最前沿

問題詳情：本人只對目標檢測方向比較了解，感覺現(xiàn)在比較成熟和飽和了，再突破比較難。想嘗試換個方向進行研究，但是我對整個深度學習大的趨勢還不是很了解。求大佬解答一下，謝謝。

原問題鏈接：https://www.zhihu.com/question/460500204

# 回答一

作者：Zhifeng

來源鏈接：https://www.zhihu.com/question/460500204/answer/1902459141

回答幾個我最近在研究的方向～我主要在做生成模型，不過亂七八糟的也有涉獵

可解釋性：feature-based研究的很多了，instance-based個人感覺在上升期，從研究的角度來說缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我覺得這里面self influence的概念非常有趣，應該很值得研究。當然，更意思的方向是跳出influence function本身，比如像relatIF 加一些regularization，也是水文章的一貫套路(relatIF是好文章)。

Influence function for generative models也是很值得做的。Influence function for GAN已經(jīng)有人做了，雖然文章直接優(yōu)化FID是有點問題的，但是框架搭好了，換一個evaluation換個setting就可以直接發(fā)paper。

我最近寫了Influence function for VAE, 有不少比較有意思的observation (paper: https://arxiv.org/pdf/2105.14203.pdf; code repo: VAE-TracIn-pytorch)。

----------分割線----------

無監(jiān)督生成學習：最近的denoising diffusion probabilistic model(DDPM)絕對是熱坑，效果好，但是速度慢沒有meaningful latent space限制了很多應用，有待發(fā)掘。我去年實習寫了一篇DiffWave是這個方法在語音上的應用，效果很好，最近應該能看到這個模型的application井噴，比如3D point cloud生成。

DDPM的加速最近已經(jīng)有不少paper了，目前來看有幾類，有的用conditioned on noise level去重新訓練，有的用jumping step縮短Markov Chain，有的在DDPM++里面研究更快的solver. 我最近寫了FastDPM, 是一種結合noise level和jumping step的快速生成的框架(無需retrain, original DDPM checkpoint拿來直接用)，統(tǒng)一并推廣了目前的好幾種方法，給出了不同任務(圖像, 語音)的recipe (paper: https//arxiv.org/pdf/2106.00132.pdf; code repo: FastDPM_pytorch)。

生成模型里的Normalizing flow模型，用可逆網(wǎng)絡轉化數(shù)據(jù)分布，很fancy 能提供likelihood和比較好的解釋性但是效果偏偏做不上去，一方面需要在理論上有補充，因為可逆或者Lipschitz網(wǎng)絡的capacity確實有限。另一方面，實際應用中，training不穩(wěn)定可能是效果上不去的原因，其中initialization 和training landscape都是有待研究的問題。潛在的突破口：augmented dimension或者類似surVAE那種generalized mapping. 除此之外，normalizing flow on discrete domain也是很重要的問題，潛在突破口是用OT里面的sinkhorn network。

我對residual flow這個模型有執(zhí)念，很喜歡這個框架，雖然它不火。今年早些時候我寫了residual flow的universal approximation in MMD的證明，很難做，需要比較特殊的假設 (paper: https://arxiv.org/pdf/2103.05793.pdf)。之后可能繼續(xù)鉆研它的capacity和learnability。

再補充一個：

生成模型的overfitting是一個長久的問題，但是本身很難定義，很大一個原因是mode collapse和copy training data耦合在一起。我們組去年發(fā)表了data-copying test用于檢測相關性質(zhì)，不過這個idea還停留在比較初級的階段，我覺得這一塊需要更多high level的框架。

----------分割線----------

Meta learning + generative model方向個人十分看好，meta learning 框架可以直接套，loss改成生成模型的loss就可以了。Again, GAN已經(jīng)被做了，不過GAN的paper那么多，隨便找上一個加上meta learning還是很容易的。類似可以做multitask + GAN。

# 回答二

作者：謝凌曦

來源鏈接：https://www.zhihu.com/question/460500204/answer/1930151239

所有內(nèi)容均只代表作者本人觀點，均有可能被推翻，二次轉載務必連同聲明一起轉載。

我的主要研究方向是計算機視覺，所以本文也會比較偏重CV方向。

1. 不適合的研究方向

首先我要反對兩個方向：對比學習為代表的自監(jiān)督學習算法（包括BYOL等）和Transformer。它們的上限幾乎是肉眼可見的，在沒有非平凡的改進之前，很難有本質(zhì)上的突破。在大量研究者投入精力的情況下，只要沒有持續(xù)的產(chǎn)出，就必然會導致其加速衰落。前些年盛極一時的網(wǎng)絡架構搜索（NAS）就是一個非常典型的例子。

我們首先分析NAS、對比學習、Transformer的局限性：

原本以NAS為代表的AutoML技術受到了廣泛的期待，我還主張“自動機器學習之于深度學習，就好比深度學習之于傳統(tǒng)方法”，不過后來發(fā)現(xiàn)它的缺陷是明顯的。在搜索空間指數(shù)級擴大之后，算法就必須在精度和速度之間做出選擇。后來盛行的權重共享類搜索方法，相當于追求搜索空間中的平攤精度，而平攤精度與最佳個體的精度往往并不吻合。
對比學習被廣泛引入圖像領域作為自監(jiān)督任務以后，前世代的自監(jiān)督算法（如預測旋轉、拼圖、上色等）紛紛被吊打，甚至開始在下游任務中超越有監(jiān)督訓練的模型。然而，當前的對比學習類方法（包括BYOL）對于數(shù)據(jù)擴增（data augmentation）的依賴過重，因而不可避免地陷入了invariance和consistency之間的矛盾：強力的augmentation能夠促進學習效果，但是如果augmentation過強，不同view之間的可預測性又無法保證。
至于Transformer，雖然目前還處在比較興盛的狀態(tài)，然而它的上限也是明顯的。除了更快的信息交換，似乎這種模型并沒有體現(xiàn)出顯著的優(yōu)勢。問題是：CV任務真的需要頻繁而快速的視覺信息交換嗎？遺憾的是，學界依然沉浸在“先將所有任務用Transformer刷一遍”的廉價快樂中，鮮有人愿意思考一些更深入的問題。

因此，我特別希望初學者不要看到一個熱門方向就一擁而上，而要冷靜地思考這個問題：如果全世界都知道這個方向火熱，那么你的研究要想脫穎而出，就必然有某些過人之處——比如你有特別多的卡，或者你有豐富的PR資源。否則，很可能還是捧紅了別人的文章，浪費了自己的時間。

2. 應該關注的方向（但未必能夠保證產(chǎn)出）

我認為CV領域還是存在很多本質(zhì)問題沒有解決的。但是這些問題往往非常困難，投入長期研究的風險也比較大，因而大部分研究者會回避這些問題。然而要從根源上推進CV的發(fā)展，這些問題就不得不去面對、解決：

是否存在神經(jīng)網(wǎng)絡之外的推理方式？當前，神經(jīng)網(wǎng)絡成為訓練以后的唯一產(chǎn)物，而幾乎所有算法均假設將輸入送給神經(jīng)網(wǎng)絡以后，一次性地得到輸出結果。然而，是否能夠設計直接向前傳遞以外的其他推理方式？例如，當一個物體處于罕見的視角或者被嚴重遮擋時，能否通過多次迭代式的處理，逐漸恢復其缺失的特征，最終完成識別任務？這就涉及到將強化學習引入訓練，或者通過類似于image warping的方式找到一條困難樣例和簡單樣例之間的路徑。后者可以導向一個非常本質(zhì)的問題：如何以盡可能低的維度刻畫語義空間？GAN以及相關的方法或許能夠提供一些思路，但是目前還沒有通用的、能夠輕易跨越不同domain的方法。
是否存在更精細的標注方式，能夠推進視覺的理解？我最近提出了一個假想：當前所有的視覺識別算法都遠遠沒有達到完整，而這很可能是當前不夠精細的標注所導致的。那么，是否能夠在可行的范圍內(nèi)，定義一種超越instance segmentation的標注方式，進一步推進視覺識別？這就涉及到一系列根本問題：什么是一個物體？如何定義一個物體？物體和部件之間有什么聯(lián)系？這些問題不得到解決，物體檢測和分割將步圖像分類的后塵，迅速陷入過擬合的困境。
如何解決大模型和小樣本之間的矛盾？當前，大模型成為AI領域頗有前景的規(guī)模化解決方案。然而，大模型的本質(zhì)在于，通過預訓練階段大量吸收數(shù)據(jù)（有標簽或者無標簽均可），緩解下游小樣本學習的壓力。這就帶來了一個新的矛盾：大模型看到的數(shù)據(jù)越多，模型就越需要適應一個廣泛而分散的數(shù)據(jù)分布，因而通過小樣本進行局部擬合的難度就越大。這很可能是制約大模型思路落地的一個瓶頸。
能否通過各種方式生成接近真實的數(shù)據(jù)？生成數(shù)據(jù)（包括虛擬場景或者GAN生成的數(shù)據(jù)）很可能會帶來新的學習范式，然而這些數(shù)據(jù)和真實數(shù)據(jù)之間存在一種難以逾越的domain gap，制約了其在識別任務中發(fā)揮作用。我們提出問題：這種domain gap，本質(zhì)上是不是特定的識別任務帶來的learning bias？我們希望通過改變學習目標，使得這種domain gap得到緩解甚至消失，從而能夠在有朝一日消滅人工標注，真正開啟新的學習范式。
是否存在更高效的人機交互模式？目前，人機之間的交互效率還很低，我就經(jīng)常因為為做PPT而頭疼不已。我認為AI算法或許會深刻地改變?nèi)藱C交互的模式，使得以下場景變得更容易：多媒體內(nèi)容設計和排版、跨模態(tài)信息檢索、游戲微操作，等等。多模態(tài)算法很可能會在這波“人機交互革命”中發(fā)揮重要作用。

在我看來，上述任何一個問題，相比于無止境的燒卡刷點，都要有趣且接近本質(zhì)，但是風險也要更大一些。因此，大部分研究人員迫于現(xiàn)實壓力而選擇跟風，是再正常不過的事情。只要有人在認真思考這些問題并且穩(wěn)步推進它們，AI就不是一個遙不可及的夢。

限于時間，無法將上述每個點寫得太仔細；同時限于水平和視野，我也無法囊括所有重要的問題（如可解釋性——雖然我對深度學習的可解釋性感到悲觀，不過看到有學者在這個領域深耕，還是能夠感覺到勇氣和希望）。

非常歡迎針對各種問題的討論，也希望這些觀點能夠引發(fā)更多的思考吧。

# 回答三

作者：陀飛輪

來源鏈接：https://www.zhihu.com/question/460500204/answer/1902640999

先寫兩個最近火熱我比較看好的方向Transformer和Self-Supervised，我這里舉的例子傾向于計算機視覺方向。最后再補充Zero-Shot和多模態(tài)兩個方向。

1.Transformer

自從去年DETR和ViT出來之后，計算機視覺領域掀起了Transformer狂潮。目前可以做的主要有兩個路徑，一個是魔改DETR和ViT，另一個是不同task遷移算法。

魔改DETR和ViT的方法，無非是引入local和hierarchical，或者魔改算子。

不同task遷移算法主要是探究如何針對不同的task做適配設計。

其中魔改DETR的可以參考以下工作：

[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]

其中魔改ViT的可以參考以下工作：

魔改算子：

[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT]

[BoTNet] [Visformer]

引入local或者hierarchical：

[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]

Swin Transformer對CNN的降維打擊

引入卷積:

[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]

不同task遷移算法的可以參考以下工作：

ViT+Seg [SETR] [TransUNet] [DPT] [U-Transformer]

ViT+Det [ViT-FRCNN] [ACT]

ViT+SOT [TransT] [TMT]

ViT+MOT [TransTrack] [TrackFormer] [TransCenter]

ViT+Video [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]

ViT+GAN [TransGAN] [AOT-GAN] [GANsformer]

ViT+3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]

以上幾個task是重災區(qū)（重災區(qū)的意思是聽我一句勸，你把握不住）

ViT+Multimodal [Fast and Slow] [VATT]

ViT+Pose [TransPose] [TFPose]

ViT+SR [TTSR]

ViT+Crowd [TransCrowd]

ViT+NAS [BossNAS]

ViT+ReID [TransReID]

ViT+Face [FaceT]

想一想算子怎么魔改，或者還有什么task沒有做的

2.Self-Supervised

Self-Supervised自從何愷明做出MoCo以來再度火熱，目前仍然是最為火熱的方向之一。目前可以做的主要有三個路徑，一個是探索退化解的充要條件，一個是Self-Supervised+Transformer探索上限，還有一個是探索非對比學習的方法。

探索退化解的充要條件主要是探索無negative pair的時候，避免退化解的最優(yōu)方案是什么。

[SimCLR] [BYOL] [SwAV] [SimSiam] [Twins]

Self-Supervised+Transformer是MoCov3首次提出的，NLP領域強大的預訓練模型(BERT和GPT-3)都是Transformer架構的，CV可以嘗試去復制NLP的路徑，探究Self-Supervised+Transformer的上限。

[MoCov1] [MoCov2] [MoCov3] [SiT]

探索非對比學習的方法就是要設計合適的proxy task。

基于上下文 [Unsupervised Visual Representation Learning by Context Prediction] [Unsupervised Representation Learning by Predicting Image Rotations] [Self-supervised Label Augmentation via Input Transformations]

基于時序 [Time-Contrastive Networks: Self-Supervised Learning from Video] [Unsupervised Learning of Visual Representations using Videos]

剛寫了基于時序，何愷明和Ross Girshick就搞了個時序的

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning