<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多任務(wù)學(xué)習(xí)(Multi-task Learning)方法總結(jié)

          共 9855字,需瀏覽 20分鐘

           ·

          2022-11-02 01:02

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)


          來自 | 知乎             作者丨Anticoder
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/59413549
          僅作學(xué)術(shù)交流,如有侵權(quán),請(qǐng)聯(lián)系刪文

          背景:只專注于單個(gè)模型可能會(huì)忽略一些相關(guān)任務(wù)中可能提升目標(biāo)任務(wù)的潛在信息,通過進(jìn)行一定程度的共享不同任務(wù)之間的參數(shù),可能會(huì)使原任務(wù)泛化更好。廣義的講,只要loss有多個(gè)就算MTL,一些別名(joint learning,learning to learn,learning with auxiliary task)

          目標(biāo):通過權(quán)衡主任務(wù)與輔助的相關(guān)任務(wù)中的訓(xùn)練信息來提升模型的泛化性與表現(xiàn)。從機(jī)器學(xué)習(xí)的視角來看,MTL可以看作一種inductive transfer(先驗(yàn)知識(shí)),通過提供inductive bias(某種對(duì)模型的先驗(yàn)假設(shè))來提升模型效果。比如,使用L1正則,我們對(duì)模型的假設(shè)模型偏向于sparse solution(參數(shù)要少)。在MTL中,這種先驗(yàn)是通過auxiliary task來提供,更靈活,告訴模型偏向一些其他任務(wù),最終導(dǎo)致模型會(huì)泛化得更好。

          一 MTL Methods for DNN


          • hard parameter sharing (此方法已經(jīng)有26歲了<1993>)

          在所有任務(wù)中共享一些參數(shù)(一般底層),在特定任務(wù)層(頂層)使用自己獨(dú)有參數(shù)。這種情況,共享參數(shù)得過擬合幾率比較低(相對(duì)非共享參數(shù)),過擬合的幾率是O(#tasks). [1]

          • soft parameter sharing

          每個(gè)任務(wù)有自己的參數(shù),最后通過對(duì)不同任務(wù)的參數(shù)之間的差異加約束,表達(dá)相似性。比如可以使用L2, trace norm等。

          優(yōu)點(diǎn)及使用場景

          1. implicit data augmentation: 每個(gè)任務(wù)多少都有樣本噪聲,不同的任務(wù)可能噪聲不同,最終多個(gè)任務(wù)學(xué)習(xí)會(huì)抵消一部分噪聲(類似bagging的思想,不同任務(wù)噪聲存在于各個(gè)方向,最終平均就會(huì)趨于零)
          2. 一些噪聲很大的任務(wù),或者訓(xùn)練樣本不足,維度高,模型可能無法有效學(xué)習(xí),甚至無法無法學(xué)習(xí)到相關(guān)特征
          3. 某些特征可能在主任務(wù)不好學(xué)習(xí)(比如只存在很高階的相關(guān)性,或被其他因素抑制),但在輔助任務(wù)上好學(xué)習(xí)??梢酝ㄟ^輔助任務(wù)來學(xué)習(xí)這些特征,方法比如hints(預(yù)測重要特征)[2]
          4. 通過學(xué)習(xí)足夠大的假設(shè)空間,在未來某些新任務(wù)中可以有較好的表現(xiàn)(解決冷啟動(dòng)),前提是這些任務(wù)都是同源的。
          5. 作為一種正則方式,約束模型。所謂的inductive bias。緩解過擬合,降低模型的Rademacher complexity(擬合噪聲的能力,用于衡量模型的能力)

          傳統(tǒng)方法中的MTL (linear model, kernel methods, Bayesian algo),其主要關(guān)注兩點(diǎn):

          1. 通過norm regularization使模型在任務(wù)之間具有稀疏性
          2. 對(duì)多任務(wù)之間關(guān)系進(jìn)行建模

          1.1 Block-sparse regularization (mixed l1/lq norm)

          目標(biāo):強(qiáng)制模型只考慮部分特征,前提為不同任務(wù)之間必須相關(guān)。

          假設(shè)K個(gè)任務(wù)有相同的特征,和相同數(shù)量的模型參數(shù)。形成一個(gè)矩陣A(DxK),D為參數(shù)維度,K為任務(wù)數(shù),目標(biāo)為這些任務(wù)只使用一些特征,也就是A的某些行也0。(最簡單的想法就是使其變?yōu)橐粋€(gè)low rank的矩陣;或者使用L1正則,因?yàn)長1可以約束某些特征到0,如果我們想使某些行為0,則只要先對(duì)行聚合操作,再對(duì)聚合后的結(jié)果使用L1即可,具體可以參考文章 [3]。通常,使用lq norm 先對(duì)行(每個(gè)特征)進(jìn)行約束,之后使用L1 norm再約束,就是mixer l1/lq norm。

          發(fā)展:

          1. group lasso [4] : l1/l2 norm,通過trace norm 解決l1/l2 norm非凸;之后有人對(duì)此提出了upper bound for using group lasso in MTL [5]
          2. 當(dāng)多個(gè)任務(wù)公共特征不多時(shí),l1/lq norm可能沒有elment-wise norm效果好。有人提出了結(jié)合這兩種方法,分解參數(shù)矩陣為A = S + B,對(duì)S使用lassso,對(duì)B使用l1/l_infinite。[6]
          3. distributed version of group-sparse reguarization [7]

          2.1 regularization way for learning task relationship

          當(dāng)任務(wù)之間相關(guān)性較弱,使用上述方法可能導(dǎo)致negative transfer(也就是負(fù)向效果)。在此情景下,我們希望增加的先驗(yàn)知識(shí)是,某些任務(wù)之間是相關(guān)的,但是某些任務(wù)之間是相關(guān)性較差??梢酝ㄟ^引入任務(wù)clustering來約束模型。可以通過penalize 不同任務(wù)的parameter vectors 和他們的方差。限制不同模型趨向于不同的各自 cluster mean vector。

          類似的,比如SVM中引入bayesian方法,事先指定一些cluster,目標(biāo)在最大化margin的同時(shí)使不同任務(wù)趨向于各自的cluster中心;[8]

          指定了cluster,可以通過聚類方法(類內(nèi),類間,自己的復(fù)雜度)對(duì)模型進(jìn)行約束

          有些場景下,任務(wù)可能不會(huì)出現(xiàn)在同一個(gè)cluster,但存在潛在的相似結(jié)構(gòu),比如group-lasso在樹結(jié)構(gòu)和圖結(jié)構(gòu)的任務(wù)。

          2.2 other methods for learning task relationship

          1. KNN methods for task clustering. [9]
          2. semi-supervised learning for learning common structures of some related tasks. [10]
          3. 多任務(wù)BNN,通過先驗(yàn)控制多任務(wù)的相似,模型復(fù)雜度大,可以使用sparse approximation貪心選擇樣本 [11];高斯過程中通過不同任務(wù)之間使用相同的covariance matrix和相同的先驗(yàn)(進(jìn)而也降低復(fù)雜度)[12]
          4. 對(duì)每個(gè)task-specific layers 使用高斯先驗(yàn),可以使用一個(gè)cluster的混合分布(事先定好)來促使不同任務(wù)的相似 [13]
          5. 進(jìn)而,通過一個(gè)dirichlet process采樣分布,使模型任務(wù)之間的相似性和cluster的數(shù)目。相同cluster的任務(wù)使用同一個(gè)模型 [14]
          6. hierarchical Bayesian model,學(xué)習(xí)一個(gè)潛在的任務(wù)結(jié)構(gòu) [15]
          7. MTL extension of the regularized Perceptron,encodes task relatedness in a matrix. 之后可以通過不同正則對(duì)其限制(比如rank)[16]
          8. 不同tasks屬于不同的獨(dú)立cluster,每個(gè)cluster存在于一個(gè)低維空間,每個(gè)cluster的任務(wù)共用同一個(gè)模型。通過交替迭代學(xué)習(xí)不同cluster的分配權(quán)重和每個(gè)cluster的模型權(quán)重。假定任務(wù)之間的絕對(duì)獨(dú)立可能不太好 [17]
          9. 假設(shè)兩個(gè)不同cluster的兩個(gè)任務(wù)之間存在重疊,存在一部分的latent basis tasks。令每個(gè)任務(wù)的模型參數(shù)是latent basis tasks的線性組合,對(duì)latent basis tasks限制為稀疏的。重疊部分控制共享程度 [18]
          10. 學(xué)習(xí)一小撮shared hypotheses,之后map each task to a single hypothesis [19]

          二 DNN中的MTL


          Deep Relation Network [20]

          計(jì)算機(jī)視覺中,一般共享卷積層,之后是任務(wù)特定的DNN層。通過對(duì)任務(wù)層設(shè)定先驗(yàn),使模型學(xué)習(xí)任務(wù)之間的關(guān)系。

          Fully-Adaptive Feature Sharing [21]

          從一個(gè)簡單結(jié)構(gòu)開始,貪心地動(dòng)態(tài)地加寬模型,使相似的模型聚簇。貪心方法可能無法學(xué)到全局最優(yōu)結(jié)構(gòu);每個(gè)分支一個(gè)任務(wù)無法學(xué)習(xí)任務(wù)之間的復(fù)雜關(guān)系。

          Cross-stitch Networks [22]

          soft parameter sharing,通過線性組合學(xué)習(xí)前一層的輸出,允許模型決定不同任務(wù)之間的分享程度

          Low supervision [23]

          尋找更好的多任務(wù)結(jié)構(gòu),復(fù)雜任務(wù)的底層應(yīng)該被低級(jí)任務(wù)目標(biāo)來監(jiān)督(比如NLP前幾層學(xué)習(xí)一個(gè)NER或POS輔助任務(wù))

          A Joint Many-task Model [24]

          對(duì)多個(gè)NLP任務(wù)預(yù)先設(shè)定層級(jí)結(jié)構(gòu),之后joint learning

          Weighting losses with uncertainty [25]

          不考慮學(xué)習(xí)共享的結(jié)構(gòu),考慮每個(gè)任務(wù)的不確定性。通過優(yōu)化loss(Gaussian likelihood with task-dependant uncertainty),調(diào)節(jié)不同tasks之間的相似性。

          Tensor factorisation for MTL [26]

          對(duì)每層參數(shù)進(jìn)行分解,為shared和task-specific

          Sluice Networks [27]

          大雜燴(hard parameter sharing + cross stitch networks + block-sparse regularization + task hierarchy(NLP) ),使得模型自己學(xué)習(xí)哪些層,哪些子空間來共享,在哪層模型找到了inputs的最優(yōu)表達(dá)。

          當(dāng)不同的任務(wù)相關(guān)性大,近似服從相同的分布,共享參數(shù)是有益的,如果相關(guān)性不大或者不相關(guān)的任務(wù)呢?

          早期工作是預(yù)先為每對(duì)任務(wù)指定哪些層來分享,這種方法擴(kuò)展性差且模型結(jié)構(gòu)嚴(yán)重有偏;當(dāng)任務(wù)相關(guān)性下降或需要不同level推理時(shí),hard parameter sharing就不行了。

          目前比較火的是learning what to share(outperform hard parameter sharing);還有就是對(duì)任務(wù)層級(jí)進(jìn)行學(xué)習(xí)在任務(wù)具有多粒度因素時(shí)也是有用的。


          三 Auxiliary task


          我們只關(guān)注主任務(wù)目標(biāo),但是希望從其他有效的輔助任務(wù)中獲利!

          目前選擇一些輔助任務(wù)方法

          1. Related task:常規(guī)思路(自動(dòng)駕駛+路標(biāo)識(shí)別;query classification+web search;坐標(biāo)預(yù)測+物體識(shí)別;duration+frequency)
          2. Adversarial:在domain adaption,相關(guān)的任務(wù)可能無法獲取,可以使用對(duì)抗任務(wù)作為negative task(最大化training error),比如輔助任務(wù)為預(yù)測輸入的domain,則導(dǎo)致主任務(wù)模型學(xué)習(xí)的表征不能區(qū)分不同的domain。
          3. Hints:前面提到的某些特征在某些任務(wù)不好學(xué),選擇輔助任務(wù)為predicting features(NLP中主任務(wù)為情感預(yù)測,輔助任務(wù)為inputs是否包含積極或消極的詞;主任務(wù)name error detection,輔助任務(wù)為句子中是否有name)
          4. Focusing attention:使模型注意到那些在任務(wù)中可能不容易被注意到的部分(自動(dòng)駕駛+路標(biāo)檢測;面部識(shí)別+頭部位置識(shí)別)
          5. Quantization smoothing:某些任務(wù)中,訓(xùn)練目標(biāo)是高度離散化的(人為打分,情感打分,疾病風(fēng)險(xiǎn)等級(jí)),使用離散程度較小的輔助任務(wù)可能是有幫助的,因?yàn)?strong style="color: black;">目標(biāo)更平滑使任務(wù)更好學(xué)
          6. prediting inputs:有些場景下,可能不會(huì)選擇某些特征,由于其不利于預(yù)估目標(biāo),但是這可能這些特征對(duì)模型的訓(xùn)練有一定的幫助,這種場景下,這些特征可以作為outputs而不是inputs
          7. Using the future to predict the presnet有些特征只有在決策之后才會(huì)有,比如自動(dòng)駕駛時(shí),當(dāng)車路過一些物體才得到這些物體的數(shù)據(jù);醫(yī)療中只有使用過藥物才知此藥物的效果。這些特征不能作為inputs,但是可以用作輔助任務(wù),來給主任務(wù)在訓(xùn)練過程中透露信息。
          8. representation learning:auxiliary task大多都是潛在地學(xué)習(xí)一些特征表達(dá),且一定程度上都利于主任務(wù)。也可以顯示地對(duì)此學(xué)習(xí)(使用一個(gè)學(xué)習(xí)遷移特征表達(dá)的輔助任務(wù),比如AE)

          那么,哪些auxiliary task是有用的呢?

          auxiliary task背后的假設(shè)是輔助任務(wù)應(yīng)該在一定程度上與主任務(wù)相關(guān),利于主任務(wù)的學(xué)習(xí)。

          那么如何衡量兩個(gè)任務(wù)是否相關(guān)呢?

          一些理論研究:

          1. 使用相同的特征做決策
          2. 相關(guān)的任務(wù)共享同一個(gè)最優(yōu)假設(shè)空間(having the same inductive bias)
          3. F-related: 如果兩個(gè)任務(wù)的數(shù)據(jù)是通過一個(gè)固定分布經(jīng)過一些變換得到 [28]
          4. 分類邊界(parameter vectors)接近

          任務(wù)是否相似不是非0即1的,越相似的任務(wù),收益越大。learning what to share允許我們暫時(shí)忽略理論上的不足,即使相關(guān)性不好的任務(wù)之間也能有所收益。但是發(fā)展任務(wù)之間的相似性對(duì)我們?cè)谶x擇輔助任務(wù)上也是有絕對(duì)的幫助的。

          四 MTL learning Tips


          1. 緊湊分布均勻的label的輔助任務(wù)更好(from POS in NLP)[29]
          2. 主任務(wù)訓(xùn)練曲線更快平穩(wěn),輔助任務(wù)平穩(wěn)慢(還未平穩(wěn))[30]
          3. 不同任務(wù)尺度不一樣,任務(wù)最優(yōu)學(xué)習(xí)率可能不同
          4. 某個(gè)任務(wù)的輸出可以作為某些任務(wù)的輸入
          5. 某些任務(wù)的迭代周期不同,可能需要異步訓(xùn)練(后驗(yàn)信息;特征選擇,特征衍生任務(wù)等)
          6. 整體loss可能被某些任務(wù)主導(dǎo),需要整個(gè)周期對(duì)參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整通過引入一些不確定性,每個(gè)任務(wù)學(xué)習(xí)一個(gè)噪聲參數(shù),統(tǒng)一所有損失 [31]
          7. 某些估計(jì)作為特征(交替訓(xùn)練

          五 總結(jié)

          20多歲的hard parameter shareing還是很流行,目前熱點(diǎn)learning what to learn也很有價(jià)值,我們w對(duì)tasks的理解(similarity, relationship, hierrarchy, benefit for MTL) 還是很有限的,希望以后有重大發(fā)展吧。

          可研究方向

          1. learning what to share
          2. measurement for similarity of tasks
          3. using task uncertainty
          4. 引入異步任務(wù)(特征學(xué)習(xí)任務(wù)),采用交替迭代訓(xùn)練
          5. 學(xué)習(xí)抽象子任務(wù);學(xué)習(xí)任務(wù)結(jié)構(gòu)(類似強(qiáng)化里面的hierarchy learning)
          6. 參數(shù)學(xué)習(xí)輔助任務(wù)
          7. More...

          備注:本文學(xué)習(xí)資料主要來自 _An Overview of Multi-Task Learning in Deep Neural Networks,https://arxiv.org/abs/1706.05098

          Reference

          [1] A Bayesian/information theoretic model of learning to learn via multiple task sampling. http://link.springer.com/article/10.1023/A:1007327622663

          [2] Learning from hints in neural networks. Journal of Complexity https://doi.org/10.1016/0885-064X(90)90006-Y

          [3] Multi-Task Feature Learning http://doi.org/10.1007/s10994-007-5040-8

          [4] Model selection and estimation in regression with grouped variables

          [5] Taking Advantage of Sparsity in Multi-Task Learninghttp://arxiv.org/pdf/0903.1468

          [6] A Dirty Model for Multi-task Learning. Advances in Neural Information Processing Systems https://papers.nips.cc/paper/4125-a-dirty-model-for-multi-task-learning.pdf

          [7] Distributed Multi-task Relationship Learning http://arxiv.org/abs/1612.04022

          [8] Regularized multi-task learning https://doi.org/10.1145/1014052.1014067

          [9] Discovering Structure in Multiple Learning Tasks: The TC Algorithm http://scholar.google.com/scholar?cluster=956054018507723832&hl=en

          [10] A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data

          [11] Empirical Bayes for Learning to Learn

          [12] Learning to learn with the informative vector machine https://doi.org/10.1145/1015330.1015382

          [13] Task Clustering and Gating for Bayesian Multitask Learning https://doi.org/10.1162/153244304322765658

          [14] Multi-Task Learning for Classification with Dirichlet Process Priors

          [15] Bayesian multitask learning with latent hierarchies http://dl.acm.org.sci-hub.io/citation.cfm?id=1795131

          [16] Linear Algorithms for Online Multitask Classification

          [17] Learning with whom to share in multi-task feature learning

          [18] Learning Task Grouping and Overlap in Multi-task Learning

          [19] Learning Multiple Tasks Using Shared Hypotheses

          [20] Learning Multiple Tasks with Deep Relationship Networks http://arxiv.org/abs/1506.02117

          [21] Fully-adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attribute Classification http://arxiv.org/abs/1611.05377

          [22] Cross-stitch Networks for Multi-task Learning https://doi.org/10.1109/CVPR.2016.433

          [23] Deep multi-task learning with low level tasks supervised at lower layers

          [24] A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks http://arxiv.org/abs/1611.01587

          [25] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics http://arxiv.org/abs/1705.07115

          [26] Deep Multi-task Representation Learning: A Tensor Factorisation Approach https://doi.org/10.1002/joe.20070

          [27] Sluice networks: Learning what to share between loosely related tasks http://arxiv.org/abs/1705.08142

          [28] Exploiting task relatedness for multiple task learning. Learning Theory and Kernel Machines https://doi.org/10.1007/978-3-540-45167-9_41

          [29] When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions http://arxiv.org/abs/1612.02251

          [30] Identifying beneficial task relations for multi-task learning in deep neural networks http://arxiv.org/abs/1702.08303

          [31] Multitask learning using uncertainty to weigh losses for scene geometry and senantics

          好消息!

          小白學(xué)視覺知識(shí)星球

          開始面向外開放啦??????



          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 83
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美麻豆一区 | 99re在线视频播放 | 欧美激情xxx | 五月丁香涩涩婷婷 | 51精品人人搡人人妻 |