<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          劍橋大學(xué):機器學(xué)習(xí)模型部署都有哪些坑?

          共 3278字,需瀏覽 7分鐘

           ·

          2021-02-02 10:10

          ↑↑↑點擊上方藍(lán)字,回復(fù)資料,10個G的驚喜

          來源:機器之心

          本文約2500字,建議閱讀6分鐘
          在生產(chǎn)環(huán)境中部署機器學(xué)習(xí)模型是一個復(fù)雜的過程,需要考慮諸多因素,也存在很多挑戰(zhàn)。近日,來自劍橋的研究者梳理了該流程常見的問題。

          近年來,機器學(xué)習(xí)在學(xué)術(shù)研究領(lǐng)域和實際應(yīng)用領(lǐng)域得到越來越多的關(guān)注。但是,在生產(chǎn)系統(tǒng)中部署機器學(xué)習(xí)模型存在許多問題和擔(dān)憂。近日,來自劍橋的研究者做了一項調(diào)查,綜述了在各個用例、行業(yè)和應(yīng)用中部署機器學(xué)習(xí)解決方案的報告,并提取了機器學(xué)習(xí)部署工作流程各階段需要實際考量的因素。


          論文地址:

          https://arxiv.org/pdf/2011.09926.pdf


          該調(diào)查表明,機器學(xué)習(xí)從業(yè)者在部署模型的每一個階段都面臨挑戰(zhàn)。該論文的意義是制定研究議程,以探索解決這些挑戰(zhàn)的方法。

          該調(diào)查主要考慮了三種類型的論文:

          • 用例研究型論文:這類論文提供單個機器學(xué)習(xí)部署項目的經(jīng)過,通常會深入討論作者面臨的每個挑戰(zhàn)以及克服方式。
          • 綜述文章:這類文章描述了機器學(xué)習(xí)在特定領(lǐng)域或行業(yè)中的應(yīng)用,通??偨Y(jié)了在所涉及領(lǐng)域中部署機器學(xué)習(xí)解決方案最常遇到的挑戰(zhàn)。
          • 經(jīng)驗總結(jié)型論文:作者通常會回顧他們在生產(chǎn)中部署機器學(xué)習(xí)模型的經(jīng)驗。

          為確保本次調(diào)查聚焦當(dāng)前挑戰(zhàn),劍橋大學(xué)研究人員僅考慮近 5 年發(fā)表的論文,只有少數(shù)例外。此外,他們還引用了其他類型的論文,例如實踐指導(dǎo)報告、訪談研究、規(guī)則制度。需要注意的是,該論文沒有進(jìn)行新的訪談。

          機器學(xué)習(xí)部署流程

          該論文使用 Ashmore 等人 [14] 提出的機器學(xué)習(xí)部署工作流程定義。根據(jù)該定義,在工業(yè)環(huán)境中開發(fā) ML 解決方案的過程包含 4 個階段:

          • 數(shù)據(jù)管理:重點是準(zhǔn)備構(gòu)建機器學(xué)習(xí)模型所需的數(shù)據(jù)。
          • 模型學(xué)習(xí):模型選擇和訓(xùn)練。
          • 模型驗證:確保模型符合特定功能和性能要求。
          • 模型部署:將訓(xùn)練好的模型集成到運行模型所需的軟件基礎(chǔ)架構(gòu)中。此階段還涵蓋模型維護(hù)和更新的問題。

          以上每個階段還可以進(jìn)一步細(xì)分。但需要注意的是其順序與現(xiàn)實場景未必完全相符,這些階段并行執(zhí)行或存在反饋循環(huán)是很正常的。

          本文探討了每個階段會出現(xiàn)的常見問題,以及會對各階段帶來影響的跨領(lǐng)域問題,參見下表:


          數(shù)據(jù)處理

          數(shù)據(jù)是任何機器學(xué)習(xí)解決方案中不可或缺的部分,訓(xùn)練和測試數(shù)據(jù)對解決方案整體效果的影響不比算法少。創(chuàng)建高質(zhì)量數(shù)據(jù)集通常是生產(chǎn)級機器學(xué)習(xí)流程的第一步。該論文介紹了數(shù)據(jù)管理的四個步驟:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強和數(shù)據(jù)分析。

          數(shù)據(jù)收集

          數(shù)據(jù)收集旨在發(fā)現(xiàn)和了解可用數(shù)據(jù),以及組織數(shù)據(jù)的存儲結(jié)構(gòu)。發(fā)現(xiàn)和尋找數(shù)據(jù)本身就是一項挑戰(zhàn),特別是在大型生產(chǎn)環(huán)境中。查找數(shù)據(jù)源并了解其結(jié)構(gòu)是主要任務(wù),對于后續(xù)數(shù)據(jù)科學(xué)家開展實際應(yīng)用開發(fā)具有重要作用。

          數(shù)據(jù)預(yù)處理

          預(yù)處理步驟通常涉及一系列數(shù)據(jù)清洗步驟:插補缺失值、將數(shù)據(jù)縮減為有序且簡化的形式、從原始格式映射為更便于處理的格式。

          數(shù)據(jù)增強

          數(shù)據(jù)增強的原因有多種,其中最重要的原因之一是數(shù)據(jù)缺少標(biāo)簽?,F(xiàn)實世界中的數(shù)據(jù)通常沒有標(biāo)簽,缺少標(biāo)注數(shù)據(jù)的可能因素有三個:專家訪問受限、缺乏高方差(high-variance)數(shù)據(jù)、數(shù)據(jù)量過大。

          數(shù)據(jù)分析

          數(shù)據(jù)分析旨在發(fā)現(xiàn)數(shù)據(jù)中的潛在偏差或意外分布。高質(zhì)量工具對于任何類型的數(shù)據(jù)分析都至關(guān)重要,其中數(shù)據(jù)剖析(data profiling)的可視化是極具挑戰(zhàn)性的。

          模型學(xué)習(xí)

          近年來,機器學(xué)習(xí)方法的研究傾向于在模型學(xué)習(xí)階段更好地選擇和使用各種模型和方法。六年來,機器學(xué)習(xí)頂會 NeurIPS 的論文提交量翻了兩番,從 2014 年的 1678 篇到 2019 年的 6743 篇。盡管如此,模型學(xué)習(xí)階段仍然受到許多實際因素的影響。本文主要闡明了與模型選擇、訓(xùn)練和超參數(shù)選擇 3 個步驟有關(guān)的問題。

          模型選擇

          在許多實際例子中,模型選擇通常取決于模型的一個關(guān)鍵特性:復(fù)雜度。盡管深度學(xué)習(xí)和強化學(xué)習(xí)在研究界越來越受歡迎,但實際情況中往往會選擇比較簡單的模型。常用的模型包括:淺層網(wǎng)絡(luò)架構(gòu),基于 PCA 的簡單方法、決策樹、隨機森林。

          訓(xùn)練

          模型訓(xùn)練最受關(guān)注的問題之一是因計算資源導(dǎo)致的經(jīng)濟(jì)成本。在自然語言處理(NLP)領(lǐng)域,盡管單個浮點運算的成本在降低,但訓(xùn)練 NLP 模型的總成本卻在增長。Sharir 等人選擇 SOTA 模型之一 BERT 進(jìn)行實驗,結(jié)果發(fā)現(xiàn)根據(jù)所選模型的大小,完整訓(xùn)練過程的經(jīng)濟(jì)成本可能在 5 萬到 160 萬美元不等,而這是大多數(shù)研究機構(gòu)甚至企業(yè)無法承受的。此外,訓(xùn)練數(shù)據(jù)集的大小、模型參數(shù)的數(shù)量和訓(xùn)練過程中用到的操作數(shù)量都會對總成本產(chǎn)生影響。值得一提的是,模型參數(shù)量是尤其重要的影響因素:新的 NLP 模型已經(jīng)達(dá)到了數(shù)十億的參數(shù)量,未來這一數(shù)字還可能進(jìn)一步增加。

          超參數(shù)選擇

          除了在訓(xùn)練過程中學(xué)習(xí)到的參數(shù)以外,許多機器學(xué)習(xí)模型還定義了一些超參數(shù)。超參數(shù)優(yōu)化(HPO)是選擇這些超參數(shù)最佳集合的過程。大多數(shù) HPO 技術(shù)涉及機器學(xué)習(xí)模型的多個訓(xùn)練周期。此外,HPO 任務(wù)的規(guī)模隨著每個新的超參數(shù)呈指數(shù)式增長,因為它為搜索空間增加了新的維度。正如 Yang 和 Shami 所說,這些考慮因素使 HPO 技術(shù)在實踐中非常昂貴且耗費資源,尤其是對于深度學(xué)習(xí)的應(yīng)用而言。即使 Hyperband 和貝葉斯優(yōu)化這類專門設(shè)計用來最小化所需訓(xùn)練周期的方法,由于模型復(fù)雜度和數(shù)據(jù)集大小等問題,有些問題仍然無法解決。

          模型驗證

          模型驗證階段的目標(biāo)是多方面的,因為機器學(xué)習(xí)模型應(yīng)該很好地泛化到未見過的輸入,顯示出對邊緣情況的合理處理和整體魯棒性,并滿足所有的功能需求。該論文討論了與模型驗證中的三個步驟——需求編碼、形式驗證和基于測試的驗證有關(guān)的問題。

          需求編碼

          定義機器學(xué)習(xí)模型的需求是測試活動的關(guān)鍵前提,但實際情況中經(jīng)常會發(fā)現(xiàn)模型性能提升并不能轉(zhuǎn)換為商業(yè)價值的增益。

          形式驗證

          形式驗證是指驗證模型功能是否符合項目范圍內(nèi)所定義的要求。這類驗證包括對其正確性的數(shù)學(xué)證明,也可以包括輸出誤差范圍的數(shù)值估計,但是這種情況實際上很少發(fā)生,往往是通過廣泛的監(jiān)管框架形式化設(shè)置高質(zhì)量標(biāo)準(zhǔn)。

          基于測試的驗證

          基于測試的驗證旨在確保模型能夠很好地泛化到未見過的數(shù)據(jù)。盡管收集驗證數(shù)據(jù)集通常不是問題,但對于生產(chǎn)部署而言這可能還不夠。

          模型部署

          在生產(chǎn)環(huán)境中運行的機器學(xué)習(xí)系統(tǒng)是復(fù)雜的軟件系統(tǒng),需要根據(jù)時間的變化進(jìn)行維護(hù)。這給開發(fā)人員帶來了新的挑戰(zhàn)。其中一些挑戰(zhàn)在運行常規(guī)軟件服務(wù)時也存在,而有些挑戰(zhàn)則是機器學(xué)習(xí)特有的。

          模型集成

          模型集成步驟包括兩個主要活動:構(gòu)建運行模型的基礎(chǔ)架構(gòu),以可使用和支持的形式實現(xiàn)模型。前者幾乎是完全屬于系統(tǒng)工程的主題,后者則屬于機器學(xué)習(xí)領(lǐng)域,它揭示了機器學(xué)習(xí)與軟件工程交集中的重要問題。

          模型監(jiān)測

          模型監(jiān)測是維護(hù)機器學(xué)習(xí)系統(tǒng)方面的問題之一。社區(qū)正處于理解待監(jiān)測數(shù)據(jù)和模型的關(guān)鍵指標(biāo)以及如何啟動警報的早期階段。監(jiān)測不斷變化的輸入數(shù)據(jù)、預(yù)測偏差和機器學(xué)習(xí)模型的整體性能是一個尚未解決的問題。

          該論文強調(diào)的另一個維護(hù)問題與數(shù)據(jù)驅(qū)動決策有關(guān),即反饋循環(huán)。生產(chǎn)級機器學(xué)習(xí)模型可以通過定期的再訓(xùn)練影響自己的行為。在確保模型保持最新狀態(tài)的同時,我們可以創(chuàng)建反饋循環(huán),即調(diào)整模型的輸入以影響其行為。

          模型更新

          模型完成初始部署后,通常還需要更改,以確保模型始終反映數(shù)據(jù)和環(huán)境的最新趨勢。有多種技術(shù)可以使模型適應(yīng)新數(shù)據(jù),包括按計劃定期再訓(xùn)練和持續(xù)學(xué)習(xí)。但在生產(chǎn)環(huán)境中,模型更新會受到多種實際因素的影響。
          也可以加一下老胡的微信
          圍觀朋友圈~~~


          推薦閱讀

          (點擊標(biāo)題可跳轉(zhuǎn)閱讀)

          我愛線代,線代使我快樂

          麻省理工學(xué)院計算機課程【中文版】

          【清華大學(xué)王東老師】現(xiàn)代機器學(xué)習(xí)技術(shù)導(dǎo)論.pdf

          機器學(xué)習(xí)中令你事半功倍的pipeline處理機制

          機器學(xué)習(xí)避坑指南:訓(xùn)練集/測試集分布一致性檢查

          機器學(xué)習(xí)深度研究:特征選擇中幾個重要的統(tǒng)計學(xué)概念

          老鐵,三連支持一下,好嗎?↓↓↓


          瀏覽 26
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色婷婷在线资源 | 久久大香蕉视频 | 内射免费视频 | 国产l精品久久久久久久久久 | 成人性交网 |