<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          顛覆傳統(tǒng)、大規(guī)模檢索系統(tǒng)首次引入「熱刷新」模型升級,騰訊ARC Lab論文入選ICLR 2022

          共 3475字,需瀏覽 7分鐘

           ·

          2022-02-17 12:16

          ↑ 點擊藍(lán)字?關(guān)注極市平臺

          作者丨騰訊ARC Lab & 騰訊OVB-AI技術(shù)中心
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          騰訊ARC Lab、清華大學(xué)及騰訊在線視頻BU-AI技術(shù)中心針對大規(guī)模檢索系統(tǒng)推出“熱刷新”模型升級的新機(jī)制,實現(xiàn)新模型即時部署上線、精度穩(wěn)步在線提升等特性,并針對刷新過程中的模型退化問題提出有效解決方案。?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

          引言:

          顛覆傳統(tǒng)“冷刷新”模型升級范式,騰訊ARC Lab、清華大學(xué)及騰訊在線視頻BU-AI技術(shù)中心針對大規(guī)模檢索系統(tǒng)推出“熱刷新”模型升級的新機(jī)制,實現(xiàn)新模型即時部署上線、精度穩(wěn)步在線提升等特性,并針對刷新過程中的模型退化問題提出有效解決方案。論文收錄于ICLR 2022,這是熱刷新模型升級在學(xué)術(shù)界的首秀,領(lǐng)域主席評價“這是真實世界的圖像檢索系統(tǒng)中一個非常實用且重要的問題”?!盁崴⑿隆蹦P蜕壦惴ㄒ殉晒Σ渴鹪隍v訊PCG視頻關(guān)系中臺,為千億級向量索引系統(tǒng)提供快速模型升級服務(wù),迭代效率提升4+倍。

          論文鏈接:https://arxiv.org/abs/2201.09724

          代碼鏈接:https://github.com/binjiezhang/RACT_ICLR2022

          1 檢索模型升級方式的革新

          圖像檢索的應(yīng)用在生活中無處不在,例如人臉識別、版權(quán)檢測、圖像定位等等,檢索系統(tǒng)在推理時需要利用部署好的模型對查詢圖像進(jìn)行特征提取,再與底庫中所有預(yù)先提取好并存儲的圖像特征進(jìn)行比對。對檢索系統(tǒng)中部署的模型進(jìn)行更新迭代是提升檢索精度、改善用戶體驗的必經(jīng)之路。

          1.1 冷刷新 v.s. 熱刷新

          在傳統(tǒng)的檢索模型升級過程中,需要先用新模型離線刷新底庫中的所有特征(稱之為特征“回填”),再將新模型部署上線,這一過程被稱之 “冷刷新”模型升級。大規(guī)模檢索系統(tǒng)往往存在海量的底庫圖像,將其全部離線刷新一遍可能花費數(shù)周乃至數(shù)月,冷刷新模型升級存在模型迭代的時間成本高、用戶體驗不能得到即時改善等幾大弊端。

          為此,作者首次提出 “熱刷新”模型升級方案,兼容學(xué)習(xí)[1]訓(xùn)練的新模型所提取的新特征由于可以與底庫中的舊特征直接對比,所以無需特征回填便可即時部署上線新模型;同時,由于新特征與舊特征直接可比、可互換,所以在新模型部署上線后,可以利用新模型在線刷新底庫特征,實現(xiàn)檢索精度的逐步爬升,直至全部底庫特征刷新完畢。

          如下圖所示,“熱刷新”模型升級機(jī)制無需等待離線特征回填,精度即時提升(O->A)且用戶體驗逐步改善(A->B),離“無縫”模型升級更近一步。

          “冷刷新”模型升級 & “熱刷新”模型升級

          1.2 熱刷新 v.s. 無刷新

          在過往的兼容學(xué)習(xí)[1]工作中也曾有對模型即時部署的闡述,作者提出新模型的兼容特性使其可以在無特征回填的情況下部署上線,這種升級策略被稱之為 “無刷新”模型升級。在該策略下,底庫特征始終保持不變,限制了新模型的精度上限,在多代模型升級后劣勢尤其顯著。

          如下圖所示,虛線為“無刷新”模型升級,實線為“熱刷新”模型升級,從三次模型升級迭代后的精度變化中,可以明顯觀察出“熱刷新”模型升級的優(yōu)勢。大家在圖中可能發(fā)現(xiàn),熱刷新過程中,模型精度出現(xiàn)了短暫的下降,這也就是下文要繼續(xù)介紹的“模型退化”(model regression)問題。

          “熱刷新”模型升級(實線) & “無刷新”模型升級(虛線)

          2 熱刷新升級中的模型退化問題

          盡管現(xiàn)有的兼容訓(xùn)練算法使得熱刷新模型升級成為了可能,但他們均面臨刷新過程中的“模型退化”問題,即升級中檢索精度的下降,如下圖所示(A->C)。

          熱刷新模型升級中的模型退化問題

          作者發(fā)現(xiàn),這實際上是由升級過程中的負(fù)翻轉(zhuǎn)造成,負(fù)翻轉(zhuǎn)指的是舊檢索系統(tǒng)中可以正確識別的查詢圖像在熱刷新升級過程中被錯誤識別。而造成負(fù)翻轉(zhuǎn)的最主要原因,是在底庫特征在線回填過程中,存在新->新負(fù)樣本對距離小于新->舊正樣本對距離的情況,如下圖所示。

          負(fù)翻轉(zhuǎn)的主要因素

          2.1 緩解退化的兼容約束

          為了緩解熱刷新模型升級過程中的模型退化問題,作者提出了一種簡單有效的正則化,即約束新->舊正樣本對距離不光要小于新->舊負(fù)樣本對距離,也要小于新->新負(fù)樣本對距離(過往兼容學(xué)習(xí)算法只約束了前者),并以對比學(xué)習(xí)的形式呈現(xiàn)。如下圖所示,該正則化被稱之為緩解退化的兼容損失函數(shù),具體公式不在此呈現(xiàn),感興趣的讀者可翻閱論文。

          緩解退化的兼容訓(xùn)練

          這一正則化看似是對已有兼容損失函數(shù)的細(xì)微修改,但對于緩解模型退化問題來說起著本質(zhì)的作用。如下圖所示,作者在Google Landmark v2數(shù)據(jù)集上針對三種不同類型的數(shù)據(jù)設(shè)置(數(shù)據(jù)拓展、開放數(shù)據(jù)以及開放類別)進(jìn)行了實驗,均可觀察到所提出算法的有效性。同時,作者對熱刷新模型升級過程中的負(fù)翻轉(zhuǎn)率進(jìn)行了定義,量化模型退化程度,如圖中內(nèi)嵌小圖所示,所提出的算法可有效減少負(fù)翻轉(zhuǎn)率。

          傳統(tǒng)兼容訓(xùn)練(虛線) & 緩解退化的兼容訓(xùn)練(實線)

          2.2 基于不確定性的回填策略

          上文提到的損失函數(shù)在訓(xùn)練階段顯式地約束新模型減少負(fù)翻轉(zhuǎn)的可能性出現(xiàn),同時作者也提出一種基于不確定性的底庫回填策略,可以在熱刷新過程中隱式地減少負(fù)翻轉(zhuǎn)。該回填策略基于“辨識度差的特征應(yīng)優(yōu)先被刷新”的原則,通過輕量快速地估計底庫舊特征的分類不確定性,判斷特征的可辨識度。如下圖所示,作者在Oxford數(shù)據(jù)集上進(jìn)行了測試,無論在部署傳統(tǒng)兼容訓(xùn)練的新模型(虛線)還是緩解退化兼容訓(xùn)練的新模型(實線)時,基于不確定性的回填策略(彩色)都可以間接減輕模型退化問題并實現(xiàn)精度更快更穩(wěn)定的提升。

          隨機(jī)回填策略(灰色) & 基于不確定性的回填策略(彩色)

          上文中僅展示部分實驗結(jié)果,更多實驗請翻閱原文。

          3 騰訊PCG業(yè)務(wù)中的應(yīng)用和實踐

          騰訊PCG-視頻關(guān)系中臺主要提供視頻排重,視頻侵權(quán),視頻語義關(guān)系的檢測及數(shù)據(jù)服務(wù)。目前,向包括騰訊視頻,騰訊小世界,微信視頻號,微視等多個視頻業(yè)務(wù)提供服務(wù),涉及千億量級的視頻指紋特征,模型迭代帶來的時間及機(jī)器成本十分高昂。基于兼容特征的熱刷新方案加速了4+倍算法版本更新效率,同時節(jié)約了數(shù)百萬元的機(jī)器成本,使得中臺的算法服務(wù)可以更加靈活的面對變化多樣的業(yè)務(wù)環(huán)境。

          4 總結(jié)

          該文對熱刷新模型升級及其過程中會出現(xiàn)的模型退化問題進(jìn)行了首次研究和深入剖析,這是實際應(yīng)用中非常重要的一項任務(wù),作者希望該論文能夠引起公眾對業(yè)界中高效模型升級瓶頸問題的關(guān)注。盡管引入的緩解退化的兼容性正則化可以在一定程度上減少負(fù)翻轉(zhuǎn),但要徹底消除模型退化的問題還有很長的路要走,作者呼吁更多的研究者加入這個方向進(jìn)行進(jìn)一步的研究。最后,如果有對騰訊ARC Lab或騰訊在線視頻BU-AI技術(shù)中心的實習(xí)或全職研究員崗位感興趣的同學(xué),歡迎聯(lián)系[email protected][email protected]

          [1] Yantao Shen, Yuanjun Xiong, Wei Xia, and Stefano Soatto. Towards backward-compatible representation learning. In CVPR, 2020.

          公眾號后臺回復(fù)“數(shù)據(jù)集”獲取30+深度學(xué)習(xí)數(shù)據(jù)集下載~

          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          極市干貨
          數(shù)據(jù)集資源匯總:10個開源工業(yè)檢測數(shù)據(jù)集匯總21個深度學(xué)習(xí)開源數(shù)據(jù)集分類匯總
          算法trick目標(biāo)檢測比賽中的tricks集錦從39個kaggle競賽中總結(jié)出來的圖像分割的Tips和Tricks
          技術(shù)綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(jié)(2019-2020)


          #?CV技術(shù)社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~??
          瀏覽 44
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91操视频 | 九九九九九九九九九九九精品 | 欧美一级黃色a片免费看视频 | 亚洲综合狼人 | 黄色A一级片 |