總結(jié) | 深度學(xué)習(xí)領(lǐng)域有哪些瓶頸?

來源 | NLP情報(bào)局
編輯 | 極市平臺(tái)
極市導(dǎo)讀
對(duì)于知乎問答“深度學(xué)習(xí)領(lǐng)域有哪些瓶頸”,作者回顧了過去的科研和工作經(jīng)歷,做了8方面總結(jié)。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

前幾天在知乎刷到一個(gè)提問,關(guān)于深度學(xué)習(xí)的瓶頸。
回想自己每天“焚香沐浴,架爐煉丹”,卻很少去思考底層的約束。于是我回顧了過去的科研和工作經(jīng)歷,做了8方面總結(jié)。
去年秋招,我面試不少大廠時(shí)其實(shí)被問過這個(gè)問題,面試官基本是部門總監(jiān)。所以能關(guān)注該問題,恭喜你已經(jīng)比絕大部分人站得更高,想得更遠(yuǎn)了哈。
1. 對(duì)標(biāo)注數(shù)據(jù)依賴性大
眾所周知,無論是傳統(tǒng)的分類、匹配、序列標(biāo)注、文本生成任務(wù),還是近期的圖像理解、音頻情感分析、Text2SQL等跨模態(tài)任務(wù),凡是采用深度學(xué)習(xí)的地方都對(duì)標(biāo)注數(shù)據(jù)有很高的依賴。
這也是為什么前期數(shù)據(jù)不足或冷啟動(dòng)階段,深度學(xué)習(xí)模型效果差強(qiáng)人意。相比人類而言,模型在學(xué)習(xí)新事物時(shí)需要更多的事例。
雖然近期有了一些 low-resource 甚至 zero-resource 工作(例如對(duì)話生成的兩篇論文[1-2]),總體來說這些方法僅適用于某些特定領(lǐng)域,難以直接推廣。
2. 模型具有領(lǐng)域依賴性,難以直接遷移
緊接上一話題,當(dāng)我們通過標(biāo)注團(tuán)隊(duì)或眾包經(jīng)長時(shí)間迭代獲得了大規(guī)模標(biāo)注數(shù)據(jù),訓(xùn)好了模型,可是換了一個(gè)業(yè)務(wù)場景時(shí),模型效果又一落千丈。
或者模型僅在論文數(shù)據(jù)集上表現(xiàn)良好,在其余數(shù)據(jù)中無法復(fù)現(xiàn)類似效果。這些都是非常常見的問題。
提升模型的遷移能力是深度學(xué)習(xí)非常有價(jià)值的課題,可以大幅減少數(shù)據(jù)標(biāo)注帶來的成本。好比我一個(gè)同學(xué)玩跑跑卡丁車很老練,現(xiàn)在新出了QQ飛車手游,他開兩局就能觸類旁通,輕松上星耀和車神,而不需要從最原始的漂移練起。
雖然NLP預(yù)訓(xùn)練+微調(diào)的方式緩解了這一問題,但深度學(xué)習(xí)可遷移性還有待進(jìn)一步增強(qiáng)。
3. 巨無霸模型對(duì)資源要求高
雖然近兩年NLP領(lǐng)域頻現(xiàn)效果驚人的巨無霸模型,卻讓普通科研人員望而卻步。先不考慮預(yù)訓(xùn)練的數(shù)萬(BERT->1.2w)乃至上百萬美金成本,僅使用預(yù)訓(xùn)練權(quán)重就對(duì)GPU等硬件有很高的要求。
因?yàn)榇竽P偷膮?shù)量在呈指數(shù)增長趨勢:BERT(1.1億)、T5(110億)、GPT3(1500億)、盤古(2000億)...開發(fā)高性能小模型是深度學(xué)習(xí)另一個(gè)很有價(jià)值的方向。
慶幸的是,在NLP領(lǐng)域已經(jīng)有了一些不錯(cuò)的輕量化工作,例如TinyBERT[3],F(xiàn)astBERT[4]等。
4. 模型欠缺常識(shí)和推理能力
當(dāng)前深度學(xué)習(xí)對(duì)人類情感的理解還停留在淺層語義層面,不具備良好的推理能力,無法真正理解用戶訴求。
另一方面,如何有效地將常識(shí)或背景知識(shí)融入模型訓(xùn)練,也是深度學(xué)習(xí)需要克服的瓶頸之一。
將來的某天,深度學(xué)習(xí)模型除了能寫詩、解方程、下圍棋,還能回答家長里短的常識(shí)性問題,才真正算是擁有了“智能”。
5. 應(yīng)用場景有限
雖然NLP有很多子領(lǐng)域,但是目前發(fā)展最好的方向依舊只有分類、匹配、翻譯、搜索幾種,大部分任務(wù)的應(yīng)用場景依然受限。
例如閑聊機(jī)器人一般作為問答系統(tǒng)的兜底模塊,在FAQ或意圖模塊沒有命中用戶提問時(shí)回復(fù)一個(gè)標(biāo)準(zhǔn)擬人話術(shù)。但如果在開放域直接應(yīng)用閑聊機(jī)器人,很容易從人工智能拐向人工智障,讓用戶反感。

6. 缺少高效的超參數(shù)自動(dòng)搜索方案
深度學(xué)習(xí)領(lǐng)域超參數(shù)眾多,盡管目前也有一些自動(dòng)化調(diào)參工具如微軟的nni[5],但整體還依賴于算法工程師的個(gè)人經(jīng)驗(yàn);由于訓(xùn)練時(shí)間長,參數(shù)驗(yàn)證過程需要很高的時(shí)間成本。
此外,AutoML仍舊需要大規(guī)模計(jì)算力才能快速出結(jié)果,因此也需要關(guān)注增大運(yùn)算規(guī)模。
7. 部分paper僅以比賽SOTA為導(dǎo)向
把某個(gè)知名比賽刷到SOTA,然后發(fā)一篇頂會(huì)是很多研究人員的做法(包括曾經(jīng)的我)。一種典型的pipeline是:
1)不惜任何資源代價(jià)把榜單刷到第一;
2)開始反推和解釋這種方法為何如此有效(王婆賣瓜,自賣自夸)。
當(dāng)然這里并不是說這種方法不好,只是我們做研究不應(yīng)該只以刷榜為唯一目標(biāo)。因?yàn)楹芏鄷r(shí)候?yàn)榱颂嵘?shù)點(diǎn)后那0.XX%的分?jǐn)?shù)真的意義不大,難以對(duì)現(xiàn)有的深度學(xué)習(xí)發(fā)展帶來任何益處。
這也解釋了面試官問“如何在某比賽中獲得了不錯(cuò)的成績”,聽到“多模集成”等堆模型的方式上分就反感。因?yàn)閷?shí)際場景受限于資源、時(shí)間等因素,一般不會(huì)這么干。
8. 可解釋性不強(qiáng)
最后一點(diǎn)也是該領(lǐng)域的通病,整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)像是一個(gè)黑盒子,缺少清晰透澈的可解釋性。
比如為什么給大熊貓圖片增加了一點(diǎn)噪聲擾動(dòng)(相當(dāng)于對(duì)抗樣本),被分類為長臂猿的置信度就高達(dá) 99.3%了呢?

對(duì)一些模型學(xué)到的特征可視化(CNN、Attention等),或許可以幫助我們理解模型是怎樣學(xué)習(xí)的。此前,機(jī)器學(xué)習(xí)領(lǐng)域也有利用降維技術(shù)(t-SNE等)來理解高維特征分布的方法。
更多深度學(xué)習(xí)可解釋性研究可以參考[6]。
我是Giant,一個(gè)喜歡用接地氣的文風(fēng),為年輕朋友分享職場經(jīng)驗(yàn)和算法知識(shí)的小碼農(nóng),有任何問題歡迎和我交流哈。
Reference
[1] (NeurIPS, 2020) Zero-resource knowledge-grounded dialogue generation
[2] (ICLR, 2020) LOW-RESOURCE KNOWLEDGE-GROUNDED DIALOGUE GENERATION
[3] (EMNLP, 2020) TinyBERT: Distilling BERT for Natural Language Understanding
[4] (ACL, 2020) FastBERT: a Self-distilling BERT with Adaptive Inference Timev1/README.md#question-generation---squad
[5] microsoft/nni
[6] 要研究深度學(xué)習(xí)的可解釋性,應(yīng)從哪幾個(gè)方面著手?https://www.zhihu.com/question/320688440
如果覺得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

