<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          機(jī)器學(xué)習(xí)模型部署都有哪些坑?劍橋研究者梳理了99篇相關(guān)研究

          共 3435字,需瀏覽 7分鐘

           ·

          2020-12-18 11:43

          點(diǎn)擊上方AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          來(lái)源:機(jī)器之心
          在生產(chǎn)環(huán)境中部署機(jī)器學(xué)習(xí)模型是一個(gè)復(fù)雜的過(guò)程,需要考慮諸多因素,也存在很多挑戰(zhàn)。近日,來(lái)自劍橋的研究者梳理了該流程常見的問(wèn)題。
          近年來(lái),機(jī)器學(xué)習(xí)在學(xué)術(shù)研究領(lǐng)域和實(shí)際應(yīng)用領(lǐng)域得到越來(lái)越多的關(guān)注。但是,在生產(chǎn)系統(tǒng)中部署機(jī)器學(xué)習(xí)模型存在許多問(wèn)題和擔(dān)憂。近日,來(lái)自劍橋的研究者做了一項(xiàng)調(diào)查,綜述了在各個(gè)用例、行業(yè)和應(yīng)用中部署機(jī)器學(xué)習(xí)解決方案的報(bào)告,并提取了機(jī)器學(xué)習(xí)部署工作流程各階段需要實(shí)際考量的因素。


          論文地址:https://arxiv.org/pdf/2011.09926.pdf

          該調(diào)查表明,機(jī)器學(xué)習(xí)從業(yè)者在部署模型的每一個(gè)階段都面臨挑戰(zhàn)。該論文的意義是制定研究議程,以探索解決這些挑戰(zhàn)的方法。

          該調(diào)查主要考慮了三種類型的論文:

          • 用例研究型論文:這類論文提供單個(gè)機(jī)器學(xué)習(xí)部署項(xiàng)目的經(jīng)過(guò),通常會(huì)深入討論作者面臨的每個(gè)挑戰(zhàn)以及克服方式。

          • 綜述文章:這類文章描述了機(jī)器學(xué)習(xí)在特定領(lǐng)域或行業(yè)中的應(yīng)用,通??偨Y(jié)了在所涉及領(lǐng)域中部署機(jī)器學(xué)習(xí)解決方案最常遇到的挑戰(zhàn)。

          • 經(jīng)驗(yàn)總結(jié)型論文:作者通常會(huì)回顧他們?cè)谏a(chǎn)中部署機(jī)器學(xué)習(xí)模型的經(jīng)驗(yàn)。


          為確保本次調(diào)查聚焦當(dāng)前挑戰(zhàn),劍橋大學(xué)研究人員僅考慮近 5 年發(fā)表的論文,只有少數(shù)例外。此外,他們還引用了其他類型的論文,例如實(shí)踐指導(dǎo)報(bào)告、訪談研究、規(guī)則制度。需要注意的是,該論文沒有進(jìn)行新的訪談。

          機(jī)器學(xué)習(xí)部署流程

          該論文使用 Ashmore 等人 [14] 提出的機(jī)器學(xué)習(xí)部署工作流程定義。根據(jù)該定義,在工業(yè)環(huán)境中開發(fā) ML 解決方案的過(guò)程包含 4 個(gè)階段:

          • 數(shù)據(jù)管理:重點(diǎn)是準(zhǔn)備構(gòu)建機(jī)器學(xué)習(xí)模型所需的數(shù)據(jù)。

          • 模型學(xué)習(xí):模型選擇和訓(xùn)練。

          • 模型驗(yàn)證:確保模型符合特定功能和性能要求。

          • 模型部署:將訓(xùn)練好的模型集成到運(yùn)行模型所需的軟件基礎(chǔ)架構(gòu)中。此階段還涵蓋模型維護(hù)和更新的問(wèn)題。


          以上每個(gè)階段還可以進(jìn)一步細(xì)分。但需要注意的是其順序與現(xiàn)實(shí)場(chǎng)景未必完全相符,這些階段并行執(zhí)行或存在反饋循環(huán)是很正常的。

          本文探討了每個(gè)階段會(huì)出現(xiàn)的常見問(wèn)題,以及會(huì)對(duì)各階段帶來(lái)影響的跨領(lǐng)域問(wèn)題,參見下表:


          數(shù)據(jù)處理

          數(shù)據(jù)是任何機(jī)器學(xué)習(xí)解決方案中不可或缺的部分,訓(xùn)練和測(cè)試數(shù)據(jù)對(duì)解決方案整體效果的影響不比算法少。創(chuàng)建高質(zhì)量數(shù)據(jù)集通常是生產(chǎn)級(jí)機(jī)器學(xué)習(xí)流程的第一步。該論文介紹了數(shù)據(jù)管理的四個(gè)步驟:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)和數(shù)據(jù)分析。

          數(shù)據(jù)收集

          數(shù)據(jù)收集旨在發(fā)現(xiàn)和了解可用數(shù)據(jù),以及組織數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。發(fā)現(xiàn)和尋找數(shù)據(jù)本身就是一項(xiàng)挑戰(zhàn),特別是在大型生產(chǎn)環(huán)境中。查找數(shù)據(jù)源并了解其結(jié)構(gòu)是主要任務(wù),對(duì)于后續(xù)數(shù)據(jù)科學(xué)家開展實(shí)際應(yīng)用開發(fā)具有重要作用。

          數(shù)據(jù)預(yù)處理

          預(yù)處理步驟通常涉及一系列數(shù)據(jù)清洗步驟:插補(bǔ)缺失值、將數(shù)據(jù)縮減為有序且簡(jiǎn)化的形式、從原始格式映射為更便于處理的格式。

          數(shù)據(jù)增強(qiáng)

          數(shù)據(jù)增強(qiáng)的原因有多種,其中最重要的原因之一是數(shù)據(jù)缺少標(biāo)簽?,F(xiàn)實(shí)世界中的數(shù)據(jù)通常沒有標(biāo)簽,缺少標(biāo)注數(shù)據(jù)的可能因素有三個(gè):專家訪問(wèn)受限、缺乏高方差(high-variance)數(shù)據(jù)、數(shù)據(jù)量過(guò)大。

          數(shù)據(jù)分析

          數(shù)據(jù)分析旨在發(fā)現(xiàn)數(shù)據(jù)中的潛在偏差或意外分布。高質(zhì)量工具對(duì)于任何類型的數(shù)據(jù)分析都至關(guān)重要,其中數(shù)據(jù)剖析(data profiling)的可視化是極具挑戰(zhàn)性的。

          模型學(xué)習(xí)

          近年來(lái),機(jī)器學(xué)習(xí)方法的研究?jī)A向于在模型學(xué)習(xí)階段更好地選擇和使用各種模型和方法。六年來(lái),機(jī)器學(xué)習(xí)頂會(huì) NeurIPS 的論文提交量翻了兩番,從 2014 年的 1678 篇到 2019 年的 6743 篇。盡管如此,模型學(xué)習(xí)階段仍然受到許多實(shí)際因素的影響。本文主要闡明了與模型選擇、訓(xùn)練和超參數(shù)選擇 3 個(gè)步驟有關(guān)的問(wèn)題。

          模型選擇

          在許多實(shí)際例子中,模型選擇通常取決于模型的一個(gè)關(guān)鍵特性:復(fù)雜度。盡管深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在研究界越來(lái)越受歡迎,但實(shí)際情況中往往會(huì)選擇比較簡(jiǎn)單的模型。常用的模型包括:淺層網(wǎng)絡(luò)架構(gòu),基于 PCA 的簡(jiǎn)單方法、決策樹、隨機(jī)森林。

          訓(xùn)練

          模型訓(xùn)練最受關(guān)注的問(wèn)題之一是因計(jì)算資源導(dǎo)致的經(jīng)濟(jì)成本。在自然語(yǔ)言處理(NLP)領(lǐng)域,盡管單個(gè)浮點(diǎn)運(yùn)算的成本在降低,但訓(xùn)練 NLP 模型的總成本卻在增長(zhǎng)。Sharir 等人選擇 SOTA 模型之一 BERT 進(jìn)行實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)根據(jù)所選模型的大小,完整訓(xùn)練過(guò)程的經(jīng)濟(jì)成本可能在 5 萬(wàn)到 160 萬(wàn)美元不等,而這是大多數(shù)研究機(jī)構(gòu)甚至企業(yè)無(wú)法承受的。此外,訓(xùn)練數(shù)據(jù)集的大小、模型參數(shù)的數(shù)量和訓(xùn)練過(guò)程中用到的操作數(shù)量都會(huì)對(duì)總成本產(chǎn)生影響。值得一提的是,模型參數(shù)量是尤其重要的影響因素:新的 NLP 模型已經(jīng)達(dá)到了數(shù)十億的參數(shù)量,未來(lái)這一數(shù)字還可能進(jìn)一步增加。

          超參數(shù)選擇

          除了在訓(xùn)練過(guò)程中學(xué)習(xí)到的參數(shù)以外,許多機(jī)器學(xué)習(xí)模型還定義了一些超參數(shù)。超參數(shù)優(yōu)化(HPO)是選擇這些超參數(shù)最佳集合的過(guò)程。大多數(shù) HPO 技術(shù)涉及機(jī)器學(xué)習(xí)模型的多個(gè)訓(xùn)練周期。此外,HPO 任務(wù)的規(guī)模隨著每個(gè)新的超參數(shù)呈指數(shù)式增長(zhǎng),因?yàn)樗鼮樗阉骺臻g增加了新的維度。正如 Yang 和 Shami 所說(shuō),這些考慮因素使 HPO 技術(shù)在實(shí)踐中非常昂貴且耗費(fèi)資源,尤其是對(duì)于深度學(xué)習(xí)的應(yīng)用而言。即使 Hyperband 和貝葉斯優(yōu)化這類專門設(shè)計(jì)用來(lái)最小化所需訓(xùn)練周期的方法,由于模型復(fù)雜度和數(shù)據(jù)集大小等問(wèn)題,有些問(wèn)題仍然無(wú)法解決。

          模型驗(yàn)證

          模型驗(yàn)證階段的目標(biāo)是多方面的,因?yàn)闄C(jī)器學(xué)習(xí)模型應(yīng)該很好地泛化到未見過(guò)的輸入,顯示出對(duì)邊緣情況的合理處理和整體魯棒性,并滿足所有的功能需求。該論文討論了與模型驗(yàn)證中的三個(gè)步驟——需求編碼、形式驗(yàn)證和基于測(cè)試的驗(yàn)證有關(guān)的問(wèn)題。

          需求編碼

          定義機(jī)器學(xué)習(xí)模型的需求是測(cè)試活動(dòng)的關(guān)鍵前提,但實(shí)際情況中經(jīng)常會(huì)發(fā)現(xiàn)模型性能提升并不能轉(zhuǎn)換為商業(yè)價(jià)值的增益。

          形式驗(yàn)證

          形式驗(yàn)證是指驗(yàn)證模型功能是否符合項(xiàng)目范圍內(nèi)所定義的要求。這類驗(yàn)證包括對(duì)其正確性的數(shù)學(xué)證明,也可以包括輸出誤差范圍的數(shù)值估計(jì),但是這種情況實(shí)際上很少發(fā)生,往往是通過(guò)廣泛的監(jiān)管框架形式化設(shè)置高質(zhì)量標(biāo)準(zhǔn)。

          基于測(cè)試的驗(yàn)證

          基于測(cè)試的驗(yàn)證旨在確保模型能夠很好地泛化到未見過(guò)的數(shù)據(jù)。盡管收集驗(yàn)證數(shù)據(jù)集通常不是問(wèn)題,但對(duì)于生產(chǎn)部署而言這可能還不夠。

          模型部署

          在生產(chǎn)環(huán)境中運(yùn)行的機(jī)器學(xué)習(xí)系統(tǒng)是復(fù)雜的軟件系統(tǒng),需要根據(jù)時(shí)間的變化進(jìn)行維護(hù)。這給開發(fā)人員帶來(lái)了新的挑戰(zhàn)。其中一些挑戰(zhàn)在運(yùn)行常規(guī)軟件服務(wù)時(shí)也存在,而有些挑戰(zhàn)則是機(jī)器學(xué)習(xí)特有的。

          模型集成

          模型集成步驟包括兩個(gè)主要活動(dòng):構(gòu)建運(yùn)行模型的基礎(chǔ)架構(gòu),以可使用和支持的形式實(shí)現(xiàn)模型。前者幾乎是完全屬于系統(tǒng)工程的主題,后者則屬于機(jī)器學(xué)習(xí)領(lǐng)域,它揭示了機(jī)器學(xué)習(xí)與軟件工程交集中的重要問(wèn)題。

          模型監(jiān)測(cè)

          模型監(jiān)測(cè)是維護(hù)機(jī)器學(xué)習(xí)系統(tǒng)方面的問(wèn)題之一。社區(qū)正處于理解待監(jiān)測(cè)數(shù)據(jù)和模型的關(guān)鍵指標(biāo)以及如何啟動(dòng)警報(bào)的早期階段。監(jiān)測(cè)不斷變化的輸入數(shù)據(jù)、預(yù)測(cè)偏差和機(jī)器學(xué)習(xí)模型的整體性能是一個(gè)尚未解決的問(wèn)題。

          該論文強(qiáng)調(diào)的另一個(gè)維護(hù)問(wèn)題與數(shù)據(jù)驅(qū)動(dòng)決策有關(guān),即反饋循環(huán)。生產(chǎn)級(jí)機(jī)器學(xué)習(xí)模型可以通過(guò)定期的再訓(xùn)練影響自己的行為。在確保模型保持最新狀態(tài)的同時(shí),我們可以創(chuàng)建反饋循環(huán),即調(diào)整模型的輸入以影響其行為。

          模型更新

          模型完成初始部署后,通常還需要更改,以確保模型始終反映數(shù)據(jù)和環(huán)境的最新趨勢(shì)。有多種技術(shù)可以使模型適應(yīng)新數(shù)據(jù),包括按計(jì)劃定期再訓(xùn)練和持續(xù)學(xué)習(xí)。但在生產(chǎn)環(huán)境中,模型更新會(huì)受到多種實(shí)際因素的影響。

          除了與機(jī)器學(xué)習(xí)模型部署工作流程四階段相關(guān)的問(wèn)題以下,該論文還探討了倫理、用戶信任、安全性相關(guān)的問(wèn)題,詳情參見原論文。

          下載1:何愷明頂會(huì)分享


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:leetcode?開源


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!



          下載3 CVPR2020

          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文
          個(gè)人微信(如果沒有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱


          覺得不錯(cuò)就點(diǎn)亮在看吧

          瀏覽 19
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.操操操.com | 日本一级A片 | www.日本在线 | 国产视频色情 | 日本久久精品一区 |