丁香亚洲,九九九九九九九九九精品,老B乱子伦,大香蕉肏屄,污污污在线免费观看,黄色精品久久,视频国产91,国产精品久久久久久久久夜色

點(diǎn)擊上方“視學(xué)算法”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

作者丨謝凌曦、數(shù)據(jù)誤碼率、Zhifeng

來(lái)源丨知乎問(wèn)答

編輯丨極市平臺(tái)

導(dǎo)讀

在目前的深度學(xué)習(xí)領(lǐng)域，有些研究方向已經(jīng)較為成熟，實(shí)現(xiàn)新突破的難度與過(guò)去相比顯著提升。那么就目前來(lái)看，還有哪些方向處于朝陽(yáng)階段，相比之下更有研究潛力？

問(wèn)題鏈接：

https://www.zhihu.com/question/460500204

作者：謝凌曦

來(lái)源鏈接：

https://www.zhihu.com/question/460500204/answer/1930151239

注：本回答所有內(nèi)容均只代表作者本人觀點(diǎn)，均有可能被推翻，二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。

我的主要研究方向是計(jì)算機(jī)視覺(jué)，所以本文也會(huì)比較偏重CV方向。

1. 不適合的研究方向

首先我要反對(duì)兩個(gè)方向：對(duì)比學(xué)習(xí)為代表的自監(jiān)督學(xué)習(xí)算法（包括BYOL等）和Transformer。它們的上限幾乎是肉眼可見(jiàn)的，在沒(méi)有非平凡的改進(jìn)之前，很難有本質(zhì)上的突破。在大量研究者投入精力的情況下，只要沒(méi)有持續(xù)的產(chǎn)出，就必然會(huì)導(dǎo)致其加速衰落。前些年盛極一時(shí)的網(wǎng)絡(luò)架構(gòu)搜索（NAS）就是一個(gè)非常典型的例子。

我們首先分析NAS、對(duì)比學(xué)習(xí)、Transformer的局限性：

（1）原本以NAS為代表的AutoML技術(shù)受到了廣泛的期待，我還主張“自動(dòng)機(jī)器學(xué)習(xí)之于深度學(xué)習(xí)，就好比深度學(xué)習(xí)之于傳統(tǒng)方法”，不過(guò)后來(lái)發(fā)現(xiàn)它的缺陷是明顯的。在搜索空間指數(shù)級(jí)擴(kuò)大之后，算法就必須在精度和速度之間做出選擇。后來(lái)盛行的權(quán)重共享類搜索方法，相當(dāng)于追求搜索空間中的平攤精度，而平攤精度與最佳個(gè)體的精度往往并不吻合。

（2）對(duì)比學(xué)習(xí)被廣泛引入圖像領(lǐng)域作為自監(jiān)督任務(wù)以后，前世代的自監(jiān)督算法（如預(yù)測(cè)旋轉(zhuǎn)、拼圖、上色等）紛紛被吊打，甚至開(kāi)始在下游任務(wù)中超越有監(jiān)督訓(xùn)練的模型。然而，當(dāng)前的對(duì)比學(xué)習(xí)類方法（包括BYOL）對(duì)于數(shù)據(jù)擴(kuò)增（data augmentation）的依賴過(guò)重，因而不可避免地陷入了invariance和consistency之間的矛盾：強(qiáng)力的augmentation能夠促進(jìn)學(xué)習(xí)效果，但是如果augmentation過(guò)強(qiáng)，不同view之間的可預(yù)測(cè)性又無(wú)法保證。

（3）至于Transformer，雖然目前還處在比較興盛的狀態(tài)，然而它的上限也是明顯的。除了更快的信息交換，似乎這種模型并沒(méi)有體現(xiàn)出顯著的優(yōu)勢(shì)。問(wèn)題是：CV任務(wù)真的需要頻繁而快速的視覺(jué)信息交換嗎？遺憾的是，學(xué)界依然沉浸在“先將所有任務(wù)用Transformer刷一遍”的廉價(jià)快樂(lè)中，鮮有人愿意思考一些更深入的問(wèn)題。

因此，我特別希望初學(xué)者不要看到一個(gè)熱門(mén)方向就一擁而上，而要冷靜地思考這個(gè)問(wèn)題：如果全世界都知道這個(gè)方向火熱，那么你的研究要想脫穎而出，就必然有某些過(guò)人之處——比如你有特別多的卡，或者你有豐富的PR資源。否則，很可能還是捧紅了別人的文章，浪費(fèi)了自己的時(shí)間。

2. 應(yīng)該關(guān)注的方向（但未必能夠保證產(chǎn)出）

我認(rèn)為CV領(lǐng)域還是存在很多本質(zhì)問(wèn)題沒(méi)有解決的。但是這些問(wèn)題往往非常困難，投入長(zhǎng)期研究的風(fēng)險(xiǎn)也比較大，因而大部分研究者會(huì)回避這些問(wèn)題。然而要從根源上推進(jìn)CV的發(fā)展，這些問(wèn)題就不得不去面對(duì)、解決：

（1）是否存在神經(jīng)網(wǎng)絡(luò)之外的推理方式？當(dāng)前，神經(jīng)網(wǎng)絡(luò)成為訓(xùn)練以后的唯一產(chǎn)物，而幾乎所有算法均假設(shè)將輸入送給神經(jīng)網(wǎng)絡(luò)以后，一次性地得到輸出結(jié)果。然而，是否能夠設(shè)計(jì)直接向前傳遞以外的其他推理方式？例如，當(dāng)一個(gè)物體處于罕見(jiàn)的視角或者被嚴(yán)重遮擋時(shí)，能否通過(guò)多次迭代式的處理，逐漸恢復(fù)其缺失的特征，最終完成識(shí)別任務(wù)？這就涉及到將強(qiáng)化學(xué)習(xí)引入訓(xùn)練，或者通過(guò)類似于image warping的方式找到一條困難樣例和簡(jiǎn)單樣例之間的路徑。后者可以導(dǎo)向一個(gè)非常本質(zhì)的問(wèn)題：如何以盡可能低的維度刻畫(huà)語(yǔ)義空間？GAN以及相關(guān)的方法或許能夠提供一些思路，但是目前還沒(méi)有通用的、能夠輕易跨越不同domain的方法。

（2）是否存在更精細(xì)的標(biāo)注方式，能夠推進(jìn)視覺(jué)的理解？我最近提出了一個(gè)假想：當(dāng)前所有的視覺(jué)識(shí)別算法都遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到完整[1]，而這很可能是當(dāng)前不夠精細(xì)的標(biāo)注所導(dǎo)致的。那么，是否能夠在可行的范圍內(nèi)，定義一種超越instance segmentation的標(biāo)注方式，進(jìn)一步推進(jìn)視覺(jué)識(shí)別？這就涉及到一系列根本問(wèn)題：什么是一個(gè)物體？如何定義一個(gè)物體？物體和部件之間有什么聯(lián)系？這些問(wèn)題不得到解決，物體檢測(cè)和分割將步圖像分類的后塵，迅速陷入過(guò)擬合的困境。

（3）如何解決大模型和小樣本之間的矛盾？當(dāng)前，大模型成為AI領(lǐng)域頗有前景的規(guī)模化解決方案。然而，大模型的本質(zhì)在于，通過(guò)預(yù)訓(xùn)練階段大量吸收數(shù)據(jù)（有標(biāo)簽或者無(wú)標(biāo)簽均可），緩解下游小樣本學(xué)習(xí)的壓力。這就帶來(lái)了一個(gè)新的矛盾：大模型看到的數(shù)據(jù)越多，模型就越需要適應(yīng)一個(gè)廣泛而分散的數(shù)據(jù)分布，因而通過(guò)小樣本進(jìn)行局部擬合的難度就越大。這很可能是制約大模型思路落地的一個(gè)瓶頸。

（4）能否通過(guò)各種方式生成接近真實(shí)的數(shù)據(jù)？生成數(shù)據(jù)（包括虛擬場(chǎng)景或者GAN生成的數(shù)據(jù)）很可能會(huì)帶來(lái)新的學(xué)習(xí)范式，然而這些數(shù)據(jù)和真實(shí)數(shù)據(jù)之間存在一種難以逾越的domain gap，制約了其在識(shí)別任務(wù)中發(fā)揮作用。我們提出問(wèn)題：這種domain gap，本質(zhì)上是不是特定的識(shí)別任務(wù)帶來(lái)的learning bias？我們希望通過(guò)改變學(xué)習(xí)目標(biāo)，使得這種domain gap得到緩解甚至消失，從而能夠在有朝一日消滅人工標(biāo)注，真正開(kāi)啟新的學(xué)習(xí)范式。

（5）是否存在更高效的人機(jī)交互模式？目前，人機(jī)之間的交互效率還很低，我就經(jīng)常因?yàn)闉樽鯬PT而頭疼不已。我認(rèn)為AI算法或許會(huì)深刻地改變?nèi)藱C(jī)交互的模式，使得以下場(chǎng)景變得更容易：多媒體內(nèi)容設(shè)計(jì)和排版、跨模態(tài)信息檢索、游戲微操作，等等。多模態(tài)算法很可能會(huì)在這波“人機(jī)交互革命”中發(fā)揮重要作用。

在我看來(lái)，上述任何一個(gè)問(wèn)題，相比于無(wú)止境的燒卡刷點(diǎn)，都要有趣且接近本質(zhì)，但是風(fēng)險(xiǎn)也要更大一些。因此，大部分研究人員迫于現(xiàn)實(shí)壓力而選擇跟風(fēng)，是再正常不過(guò)的事情。只要有人在認(rèn)真思考這些問(wèn)題并且穩(wěn)步推進(jìn)它們，AI就不是一個(gè)遙不可及的夢(mèng)。

限于時(shí)間，無(wú)法將上述每個(gè)點(diǎn)寫(xiě)得太仔細(xì)；同時(shí)限于水平和視野，我也無(wú)法囊括所有重要的問(wèn)題（如可解釋性——雖然我對(duì)深度學(xué)習(xí)的可解釋性感到悲觀，不過(guò)看到有學(xué)者在這個(gè)領(lǐng)域深耕，還是能夠感覺(jué)到勇氣和希望）。

非常歡迎針對(duì)各種問(wèn)題的討論，也希望這些觀點(diǎn)能夠引發(fā)更多的思考吧。

[1] https://zhuanlan.zhihu.com/p/376145664

作者：數(shù)據(jù)誤碼率

來(lái)源鏈接：

https://www.zhihu.com/question/460500204/answer/1915471641

如果以CVPR為CV的導(dǎo)向的話，目前發(fā)展大概是這樣：

MLP（2012年的前）—>CNN（2012-約2020）—>transformer（2020年以后）—>MLP（？？Google最近又把這玩意刨出來(lái)了，至于是不是，不敢推測(cè)結(jié)果如何）

先說(shuō)結(jié)論：

越來(lái)越比拼硬件資源能力了。

總之就我做的醫(yī)學(xué)圖像分割上來(lái)說(shuō)，最直觀的感受就是幾個(gè)點(diǎn)吧：

（1）傳統(tǒng)基于CNN的文章除非在理論上、網(wǎng)絡(luò)結(jié)構(gòu)上（萬(wàn)年薅UNet，各種魔改）有大的創(chuàng)新，否則給人的感覺(jué)創(chuàng)新性都不大，甚至可以歸為“水文”，二區(qū)都難。

（2）獨(dú)立于網(wǎng)絡(luò)之外的用于提升網(wǎng)絡(luò)性能的模塊上，attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改，要說(shuō)最近的方向，可能就是類似ECA-module這種類似的走輕量注意力上才有的發(fā)paper。

（3）transformer：是個(gè)很新的方向，目前應(yīng)該是醫(yī)學(xué)圖像分割上最好灌水的方向之一了，我記得去年開(kāi)組會(huì)剛想把Unet的編碼器或者解碼器部分改成transformer，試試效果如何，結(jié)果一上知乎，我校某實(shí)驗(yàn)室就在編碼器部分搞了出來(lái)一篇transUnet。看完swin-tranformer我一拍大腿，我去，這個(gè)好，這下解碼器編碼器都可以改了，對(duì)我這個(gè)小菜雞還好理解點(diǎn)，結(jié)果馬上有人做出來(lái)了swin-unet。總的來(lái)說(shuō)就是，目前想水醫(yī)學(xué)圖像分割的transformer文章的，代碼+硬件兩手都硬的同行們，可以抓緊了。因?yàn)槟壳爸灰闼俣葔蚩欤琺ethod部分不需要寫(xiě)大量公式計(jì)算，也不用憋著想如何寫(xiě)創(chuàng)新點(diǎn)，創(chuàng)新點(diǎn)統(tǒng)一為：

“本文首次把transformer應(yīng)用于XXX檢測(cè)/識(shí)別/分類/分割”

（4）大顯存、多數(shù)量GPU，無(wú)論顯存還是數(shù)量，越多越好，堪比挖礦。我曾經(jīng)嘗試把DA-Net中的PAM和CAM丟到UNet里去，結(jié)果直接out of memory….you need another 64GB。把我嚇得，團(tuán)隊(duì)只有4卡RTX2080Ti瑟瑟發(fā)抖。transformer那種基于self-attention的大型注意力包，理論上計(jì)算資源只會(huì)多不會(huì)少，等忙完這段時(shí)間我準(zhǔn)備搞一個(gè)3層的swin結(jié)構(gòu)的編解碼結(jié)構(gòu)試試，但愿能跑起來(lái)，這樣畢業(yè)論文就顯得新一點(diǎn) 。

作者：Zhifeng

來(lái)源鏈接：

https://www.zhihu.com/question/460500204/answer/1902459141

回答幾個(gè)我最近在研究的方向～我主要在做生成模型，不過(guò)亂七八糟的也有涉獵。

1. 可解釋性

feature-based研究的很多了，instance-based個(gè)人感覺(jué)在上升期，從研究的角度來(lái)說(shuō)缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我覺(jué)得這里面self influence的概念非常有趣，應(yīng)該很值得研究。當(dāng)然，更意思的方向是跳出influence function本身，比如像relatIF 加一些regularization，也是水文章的一貫套路(relatIF是好文章)。

Influence function for generative models也是很值得做的。Influence function for GAN已經(jīng)有人做了，雖然文章直接優(yōu)化FID是有點(diǎn)問(wèn)題的，但是框架搭好了，換一個(gè)evaluation換個(gè)setting就可以直接發(fā)paper.

我最近寫(xiě)了Influence function for VAE, 有不少比較有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).

2. 無(wú)監(jiān)督生成學(xué)習(xí)

最近的denoising diffusion probabilistic model(DDPM)絕對(duì)是熱坑，效果好，但是速度慢沒(méi)有meaningful latent space限制了很多應(yīng)用，有待發(fā)掘。我去年實(shí)習(xí)寫(xiě)了一篇DiffWave是這個(gè)方法在語(yǔ)音上的應(yīng)用，效果很好，最近應(yīng)該能看到這個(gè)模型的application井噴，比如3D point cloud生成。

DDPM的加速最近已經(jīng)有不少paper了，目前來(lái)看有幾類，有的用conditioned on noise level去重新訓(xùn)練，有的用jumping step縮短Markov Chain，有的在DDPM++里面研究更快的solver. 我最近寫(xiě)了FastDPM, 是一種結(jié)合noise level和jumping step的快速生成的框架(無(wú)需retrain, original DDPM checkpoint拿來(lái)直接用)，統(tǒng)一并推廣了目前的好幾種方法，給出了不同任務(wù)(圖像, 語(yǔ)音)的recipe (paper[2]; code repo: FastDPM_pytorch).

生成模型里的Normalizing flow模型，用可逆網(wǎng)絡(luò)轉(zhuǎn)化數(shù)據(jù)分布，很fancy 能提供likelihood和比較好的解釋性但是效果偏偏做不上去，一方面需要在理論上有補(bǔ)充，因?yàn)榭赡婊蛘週ipschitz網(wǎng)絡(luò)的capacity確實(shí)有限。另一方面，實(shí)際應(yīng)用中，training不穩(wěn)定可能是效果上不去的原因，其中initialization 和training landscape都是有待研究的問(wèn)題。潛在的突破口：augmented dimension或者類似surVAE那種generalized mapping. 除此之外，normalizing flow on discrete domain也是很重要的問(wèn)題，潛在突破口是用OT里面的sinkhorn network.

我對(duì)residual flow這個(gè)模型有執(zhí)念，很喜歡這個(gè)框架，雖然它不火。今年早些時(shí)候我寫(xiě)了residual flow的universal approximation in MMD的證明，很難做，需要比較特殊的假設(shè) (paper[3])。之后可能繼續(xù)鉆研它的capacity和learnability.

再補(bǔ)充一個(gè)：

3. 生成模型的overfitting是一個(gè)長(zhǎng)久的問(wèn)題，但是本身很難定義，很大一個(gè)原因是mode collapse和copy training data耦合在一起。我們組去年發(fā)表了data-copying test用于檢測(cè)相關(guān)性質(zhì)，不過(guò)這個(gè)idea還停留在比較初級(jí)的階段，我覺(jué)得這一塊需要更多high level的框架。

4. Meta learning + generative model方向個(gè)人十分看好，meta learning 框架可以直接套，loss改成生成模型的loss就可以了。Again, GAN已經(jīng)被做了，不過(guò)GAN的paper那么多，隨便找上一個(gè)加上meta learning還是很容易的。類似可以做multitask + GAN.

[1] https://arxiv.org/pdf/2105.14203.pdf

[2] https//arxiv.org/pdf/2106.00132.pdf

[3] https://arxiv.org/pdf/2103.05793.pdf

如果覺(jué)得有用，就請(qǐng)分享到朋友圈吧！

點(diǎn)個(gè)在看 paper不斷！

干貨 | 2021年，深度學(xué)習(xí)還有哪些研究方向可以做？

1. 不適合的研究方向

2. 應(yīng)該關(guān)注的方向（但未必能夠保證產(chǎn)出）