<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          曠視孫劍博士聯(lián)手西安交大提出LGD,適用于目標(biāo)檢測的知識(shí)蒸餾,訓(xùn)練速度提升51%

          共 3413字,需瀏覽 7分鐘

           ·

          2021-10-08 14:02



          ??新智元報(bào)道??

          來源:arxiv

          編輯:LRS

          【新智元導(dǎo)讀】知識(shí)蒸餾已經(jīng)成了目前常用的模型壓縮方法,但相關(guān)研究還局限在圖像分類任務(wù)上。最近曠視孫劍博士聯(lián)手西安交大發(fā)表了一篇論文,提出新模型LGD,無需一個(gè)強(qiáng)力的teacher模型也能在目標(biāo)檢測任務(wù)上取得超強(qiáng)效果,并且訓(xùn)練速度提升51%,內(nèi)存消耗降低34%!

          知識(shí)蒸餾(Knowledge distillation, KD)剛開始被用于圖像分類任務(wù)時(shí)就取得了不錯(cuò)的效果,通常流程就是將指導(dǎo)性知識(shí)從預(yù)訓(xùn)練的模型作為教師teacher轉(zhuǎn)移到較小的學(xué)生student模型,從而在性能下降較少的情況下完成模型壓縮。
          ?
          隨著研究的發(fā)展,知識(shí)蒸餾在目標(biāo)檢測任務(wù)上也取得了一些進(jìn)展,但目前的模型仍然存在一個(gè)缺陷,就是需要一個(gè)訓(xùn)練的非常好的teacher,因?yàn)橛醒芯勘砻?,更?qiáng)的teacher 可以提高蒸餾效率。
          ?
          但現(xiàn)實(shí)世界中的應(yīng)用場景很難訓(xùn)練得到一個(gè)完美的teacher,所以無需預(yù)訓(xùn)練的教師的通用檢測知識(shí)蒸餾(KD for generic detection without pretrained teacher)的問題幾乎沒有得到研究。為了緩解對teacher模型的依賴,一些研究關(guān)注teacher-free schemes,主要包括1)自蒸餾 self-distillation;2)協(xié)作學(xué)習(xí) colorative learning;3)標(biāo)簽正則化 label regularization,其中指導(dǎo)性的知識(shí)(instructive knowledge)可以是跨層特征、競爭對手(competitive counterparts) 和調(diào)制標(biāo)簽分布(modulated label distribution)。
          ?
          但是這些方法是為分類而設(shè)計(jì)的,并不適用于檢測。
          ?
          針對這個(gè)問題,曠視科技聯(lián)合西安交大提出了一個(gè)新的無教師目標(biāo)檢測方法 Label-Guided self-Distillation (LGD)。通過高效的設(shè)計(jì),LGD 能夠與學(xué)生模型聯(lián)合訓(xùn)練,簡化流程,降低訓(xùn)練成本。在推理過程中,只保留學(xué)生檢測器,不會(huì)帶來額外開銷。
          ?
          ?
          這篇論文由孫劍博士指導(dǎo),他是曠視首席科學(xué)家、曠視研究院院長,全面負(fù)責(zé)曠視技術(shù)研發(fā),帶領(lǐng)曠視研究院發(fā)展成為全球規(guī)模最大的計(jì)算機(jī)視覺研究院。在孫劍博士的帶領(lǐng)下,曠視研究院研發(fā)了包括移動(dòng)端高效卷積神經(jīng)網(wǎng)絡(luò)ShuffleNet、開源深度學(xué)習(xí)框架天元MegEngine、AI生產(chǎn)力平臺(tái)Brain++等多項(xiàng)創(chuàng)新技術(shù),引領(lǐng)前沿人工智能應(yīng)用。
          ?
          ?
          他的主要研究方向是計(jì)算機(jī)視覺和計(jì)算攝影學(xué),擁有超過40項(xiàng)專利,自2002年以來在頂級學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文100余篇。
          ?
          文中提出的LGD 框架包含三個(gè)模塊
          ?
          ?
          1、標(biāo)簽外觀編碼器Label-appearance encoder
          ?
          這個(gè)編碼器主要計(jì)算標(biāo)簽和外觀的embedding。對于每個(gè)對象,把真值框標(biāo)準(zhǔn)化為兩個(gè)坐標(biāo)點(diǎn)(x1,y1,x2,y2)和one-hot 類別向量連接起來作為描述符。面向?qū)ο蟮拿枋龇粋鬟f到標(biāo)簽編碼模塊中用于優(yōu)化標(biāo)簽嵌入。
          ?
          為了引入標(biāo)簽描述符之間的基本關(guān)系建模并保持置換不變性,LGD 采用經(jīng)典的PointNet作為標(biāo)簽編碼模塊。通過多層perceptron 處理描述符,通過空間Transformer 網(wǎng)絡(luò)進(jìn)行局部全局建模。
          ?
          根據(jù)經(jīng)驗(yàn),使用PointNet作為編碼器比MLP或transformer編碼器表現(xiàn)稍好。
          ?
          細(xì)節(jié)上,研究人員將BatchNorm替換為LayerNorm,以適應(yīng)小批量檢測的設(shè)置。值得注意的是,上述1D object-wise的標(biāo)簽編碼方式比LabelEnc中的方式更有效,LabelEnc構(gòu)建了一個(gè)特殊的顏色映射用于描述標(biāo)簽。
          ?
          除了標(biāo)簽編碼之外,研究人員還從包含感知對象外觀特征的學(xué)生檢測器的特征pyramid中檢索appearance embedding,主要采用一個(gè)掩碼池從特征映射中提取面向?qū)ο蟮那度?。預(yù)先計(jì)算對象屏蔽 object-wise mask 用于總共N個(gè)對象和一個(gè)虛擬上下文對象,位置覆蓋整個(gè)圖像。對于每個(gè)對象 ,建立一個(gè)二進(jìn)制矩陣,其值在基本真值區(qū)域內(nèi)設(shè)置為1,否則設(shè)置為0。對所有pyramid levels 同時(shí)進(jìn)行掩碼池,輸入的對象掩碼被縮小以對應(yīng)分辨率,成為特定于比例的掩碼。
          ?
          2、對象間關(guān)系適配器 Inter-object relation adapter?
          ?
          在給定標(biāo)簽和appearance embedding的情況下,可以通過交叉注意過程來描述對象間關(guān)系的自適應(yīng)。該過程在每個(gè)學(xué)生出現(xiàn)金字塔尺度上執(zhí)行以檢索交互嵌入。
          ?
          在交叉注意過程中,利用一系列鍵和查詢標(biāo)記來計(jì)算KQ注意關(guān)系,從而聚合值以獲得注意輸出。為了實(shí)現(xiàn)標(biāo)簽引導(dǎo)的信息自適應(yīng),研究人員利用當(dāng)前尺度下的appearance embedding 作為query,尺度不變的標(biāo)簽嵌入L作為key和value。
          ?
          attention schema測量對象之間較低層次的結(jié)構(gòu)外觀信息和較高層次的標(biāo)簽語義之間的相關(guān)性,然后重新組裝信息標(biāo)簽嵌入以進(jìn)行動(dòng)態(tài)適應(yīng)。
          ?
          3、對象內(nèi)知識(shí)映射器 Intra-object knowledge mapper
          ?
          為了使1D交互embedding 適用于廣泛使用的中間特征提取進(jìn)行檢測,研究人員將appearance embedding 映射到2D特征映射空間以獲取指導(dǎo)性知識(shí)。
          ?
          對于每個(gè)金字塔比例p, 結(jié)果map 的分辨率僅限于與相應(yīng)的學(xué)生特征map相同。直觀地說,由于緊湊表示的標(biāo)簽編碼中未對顯式空間拓?fù)溥M(jìn)行建模,因此恢復(fù)每個(gè)對象的定位信息以實(shí)現(xiàn)幾何透視對齊非常重要。將每個(gè)對象綁定交互嵌入填充到零初始化特征映射上對應(yīng)的真值框區(qū)域中。
          ?
          對于每個(gè)對象,通過計(jì)算向量化對象掩碼之間的矩陣乘法來獲得其p尺度的特征映射,投射和交互的embedding。所有這些面向?qū)ο蟮挠成浔惶砑拥揭粋€(gè)統(tǒng)一的映射中以形成結(jié)構(gòu)化知識(shí)。
          ?
          知識(shí)映射器將交互嵌入映射到特征映射空間,作為最終的指導(dǎo)知識(shí),同時(shí)考慮對象內(nèi)表示一致性和定位啟發(fā)式。
          ?
          ?
          由于上述關(guān)系建模,最終的指導(dǎo)性知識(shí)自然地適應(yīng)了學(xué)生的代表性,有助于有效地提煉出強(qiáng)大的學(xué)生檢測器和減少語義差異。
          ?
          從經(jīng)驗(yàn)上看,LGD在各種檢測器、數(shù)據(jù)集和廣泛的任務(wù)(如實(shí)例分割)上獲得了不錯(cuò)的結(jié)果。
          ?
          例如,在MS-COCO數(shù)據(jù)集中,LGD在2倍單尺度訓(xùn)練下使用ResNet-50將視網(wǎng)膜神經(jīng)網(wǎng)絡(luò)從36.2%提高到39.0%mAP(+2.8%)。在2倍多尺度訓(xùn)練(46.1%)下,對于更強(qiáng)大的檢測器,如帶有ResNeXt-101 DCN v2的FCOS,LGD達(dá)到47.9%(+1.8%)。
          ?
          ?
          對于CrowdHuman數(shù)據(jù)集中的pedes-trian檢測,LGD將mMR提高了2.3%,從而提高了R-CNN與ResNet-50的速度。
          ?
          與經(jīng)典的基于教師的方法FGFI相比,LGD不僅在不需要預(yù)先訓(xùn)練的教師的情況下表現(xiàn)更好。雖然所有的提取或正則化方法都不會(huì)影響學(xué)生的推理速度,但由于先決條件的預(yù)訓(xùn)練和提取過程,它們?nèi)匀豢赡苡?xùn)練效率低下。
          ?
          ?
          成本分為預(yù)訓(xùn)練成本、總體成本和特定模型的成本(除學(xué)生學(xué)習(xí)之外的總體成本,也是所有方法的固有成本)。
          ?
          在8個(gè)Tesla V100 GPU上運(yùn)行下,研究人員發(fā)現(xiàn)提出的方法在總體成本和方法特定成本上分別節(jié)省了34%(23.5小時(shí)對35.5小時(shí))和51%(11.4小時(shí)對23.4小時(shí))。
          ?
          事實(shí)上,F(xiàn)GFI或其他基于教師的知識(shí)蒸餾可能會(huì)有更強(qiáng)的教師開發(fā)能力,表現(xiàn)優(yōu)于文中提出的知識(shí)蒸餾方法,但這可能會(huì)帶來更高的訓(xùn)練負(fù)擔(dān)。與FGFI類似,LabelEnc正則化引入了兩階段訓(xùn)練范式,盡管沒有預(yù)先訓(xùn)練過的教師,但對于LabelEnc,新方法節(jié)省了1小時(shí),并且以一步式方式進(jìn)行訓(xùn)練。并且LabelEnc消耗了3.8G額外的gpu內(nèi)存,除了固有檢測器的內(nèi)存,新方法只消耗了2.5G (相對節(jié)省34%),但性能更好。



          參考資料:

          https://arxiv.org/pdf/2109.11496.pdf





          瀏覽 71
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  台湾成人久久网站视频 | 精品无码久久久久久久久 | 日韩AI视频在线免费观看 | 欧美三级韩国三级日本三斤在线观看 | 我想看韩国毛片 |