中国一级大黄片,中文字幕AV在线观看,操草网,一起操在线,偷拍视频中文字幕资源,日韩无码成人三级片,丝袜美逼在线视频播放,中文三区

點(diǎn)擊上方“AI算法與圖像處理”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

來(lái)源：機(jī)器之心

在生產(chǎn)環(huán)境中部署機(jī)器學(xué)習(xí)模型是一個(gè)復(fù)雜的過(guò)程，需要考慮諸多因素，也存在很多挑戰(zhàn)。近日，來(lái)自劍橋的研究者梳理了該流程常見的問(wèn)題。

近年來(lái)，機(jī)器學(xué)習(xí)在學(xué)術(shù)研究領(lǐng)域和實(shí)際應(yīng)用領(lǐng)域得到越來(lái)越多的關(guān)注。但是，在生產(chǎn)系統(tǒng)中部署機(jī)器學(xué)習(xí)模型存在許多問(wèn)題和擔(dān)憂。近日，來(lái)自劍橋的研究者做了一項(xiàng)調(diào)查，綜述了在各個(gè)用例、行業(yè)和應(yīng)用中部署機(jī)器學(xué)習(xí)解決方案的報(bào)告，并提取了機(jī)器學(xué)習(xí)部署工作流程各階段需要實(shí)際考量的因素。

論文地址：https://arxiv.org/pdf/2011.09926.pdf

該調(diào)查表明，機(jī)器學(xué)習(xí)從業(yè)者在部署模型的每一個(gè)階段都面臨挑戰(zhàn)。該論文的意義是制定研究議程，以探索解決這些挑戰(zhàn)的方法。

該調(diào)查主要考慮了三種類型的論文：

用例研究型論文：這類論文提供單個(gè)機(jī)器學(xué)習(xí)部署項(xiàng)目的經(jīng)過(guò)，通常會(huì)深入討論作者面臨的每個(gè)挑戰(zhàn)以及克服方式。
綜述文章：這類文章描述了機(jī)器學(xué)習(xí)在特定領(lǐng)域或行業(yè)中的應(yīng)用，通?？偨Y(jié)了在所涉及領(lǐng)域中部署機(jī)器學(xué)習(xí)解決方案最常遇到的挑戰(zhàn)。
經(jīng)驗(yàn)總結(jié)型論文：作者通常會(huì)回顧他們?cè)谏a(chǎn)中部署機(jī)器學(xué)習(xí)模型的經(jīng)驗(yàn)。

為確保本次調(diào)查聚焦當(dāng)前挑戰(zhàn)，劍橋大學(xué)研究人員僅考慮近 5 年發(fā)表的論文，只有少數(shù)例外。此外，他們還引用了其他類型的論文，例如實(shí)踐指導(dǎo)報(bào)告、訪談研究、規(guī)則制度。需要注意的是，該論文沒有進(jìn)行新的訪談。

機(jī)器學(xué)習(xí)部署流程

該論文使用 Ashmore 等人 [14] 提出的機(jī)器學(xué)習(xí)部署工作流程定義。根據(jù)該定義，在工業(yè)環(huán)境中開發(fā) ML 解決方案的過(guò)程包含 4 個(gè)階段：

數(shù)據(jù)管理：重點(diǎn)是準(zhǔn)備構(gòu)建機(jī)器學(xué)習(xí)模型所需的數(shù)據(jù)。
模型學(xué)習(xí)：模型選擇和訓(xùn)練。
模型驗(yàn)證：確保模型符合特定功能和性能要求。
模型部署：將訓(xùn)練好的模型集成到運(yùn)行模型所需的軟件基礎(chǔ)架構(gòu)中。此階段還涵蓋模型維護(hù)和更新的問(wèn)題。

以上每個(gè)階段還可以進(jìn)一步細(xì)分。但需要注意的是其順序與現(xiàn)實(shí)場(chǎng)景未必完全相符，這些階段并行執(zhí)行或存在反饋循環(huán)是很正常的。

本文探討了每個(gè)階段會(huì)出現(xiàn)的常見問(wèn)題，以及會(huì)對(duì)各階段帶來(lái)影響的跨領(lǐng)域問(wèn)題，參見下表：

數(shù)據(jù)處理

數(shù)據(jù)是任何機(jī)器學(xué)習(xí)解決方案中不可或缺的部分，訓(xùn)練和測(cè)試數(shù)據(jù)對(duì)解決方案整體效果的影響不比算法少。創(chuàng)建高質(zhì)量數(shù)據(jù)集通常是生產(chǎn)級(jí)機(jī)器學(xué)習(xí)流程的第一步。該論文介紹了數(shù)據(jù)管理的四個(gè)步驟：數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)和數(shù)據(jù)分析。

數(shù)據(jù)收集

數(shù)據(jù)收集旨在發(fā)現(xiàn)和了解可用數(shù)據(jù)，以及組織數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。發(fā)現(xiàn)和尋找數(shù)據(jù)本身就是一項(xiàng)挑戰(zhàn)，特別是在大型生產(chǎn)環(huán)境中。查找數(shù)據(jù)源并了解其結(jié)構(gòu)是主要任務(wù)，對(duì)于后續(xù)數(shù)據(jù)科學(xué)家開展實(shí)際應(yīng)用開發(fā)具有重要作用。

數(shù)據(jù)預(yù)處理

預(yù)處理步驟通常涉及一系列數(shù)據(jù)清洗步驟：插補(bǔ)缺失值、將數(shù)據(jù)縮減為有序且簡(jiǎn)化的形式、從原始格式映射為更便于處理的格式。

數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)的原因有多種，其中最重要的原因之一是數(shù)據(jù)缺少標(biāo)簽?，F(xiàn)實(shí)世界中的數(shù)據(jù)通常沒有標(biāo)簽，缺少標(biāo)注數(shù)據(jù)的可能因素有三個(gè)：專家訪問(wèn)受限、缺乏高方差（high-variance）數(shù)據(jù)、數(shù)據(jù)量過(guò)大。

數(shù)據(jù)分析

數(shù)據(jù)分析旨在發(fā)現(xiàn)數(shù)據(jù)中的潛在偏差或意外分布。高質(zhì)量工具對(duì)于任何類型的數(shù)據(jù)分析都至關(guān)重要，其中數(shù)據(jù)剖析（data profiling）的可視化是極具挑戰(zhàn)性的。

模型學(xué)習(xí)

近年來(lái)，機(jī)器學(xué)習(xí)方法的研究?jī)A向于在模型學(xué)習(xí)階段更好地選擇和使用各種模型和方法。六年來(lái)，機(jī)器學(xué)習(xí)頂會(huì) NeurIPS 的論文提交量翻了兩番，從 2014 年的 1678 篇到 2019 年的 6743 篇。盡管如此，模型學(xué)習(xí)階段仍然受到許多實(shí)際因素的影響。本文主要闡明了與模型選擇、訓(xùn)練和超參數(shù)選擇 3 個(gè)步驟有關(guān)的問(wèn)題。

模型選擇

在許多實(shí)際例子中，模型選擇通常取決于模型的一個(gè)關(guān)鍵特性：復(fù)雜度。盡管深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在研究界越來(lái)越受歡迎，但實(shí)際情況中往往會(huì)選擇比較簡(jiǎn)單的模型。常用的模型包括：淺層網(wǎng)絡(luò)架構(gòu)，基于 PCA 的簡(jiǎn)單方法、決策樹、隨機(jī)森林。

訓(xùn)練

模型訓(xùn)練最受關(guān)注的問(wèn)題之一是因計(jì)算資源導(dǎo)致的經(jīng)濟(jì)成本。在自然語(yǔ)言處理（NLP）領(lǐng)域，盡管單個(gè)浮點(diǎn)運(yùn)算的成本在降低，但訓(xùn)練 NLP 模型的總成本卻在增長(zhǎng)。Sharir 等人選擇 SOTA 模型之一 BERT 進(jìn)行實(shí)驗(yàn)，結(jié)果發(fā)現(xiàn)根據(jù)所選模型的大小，完整訓(xùn)練過(guò)程的經(jīng)濟(jì)成本可能在 5 萬(wàn)到 160 萬(wàn)美元不等，而這是大多數(shù)研究機(jī)構(gòu)甚至企業(yè)無(wú)法承受的。此外，訓(xùn)練數(shù)據(jù)集的大小、模型參數(shù)的數(shù)量和訓(xùn)練過(guò)程中用到的操作數(shù)量都會(huì)對(duì)總成本產(chǎn)生影響。值得一提的是，模型參數(shù)量是尤其重要的影響因素：新的 NLP 模型已經(jīng)達(dá)到了數(shù)十億的參數(shù)量，未來(lái)這一數(shù)字還可能進(jìn)一步增加。

超參數(shù)選擇

除了在訓(xùn)練過(guò)程中學(xué)習(xí)到的參數(shù)以外，許多機(jī)器學(xué)習(xí)模型還定義了一些超參數(shù)。超參數(shù)優(yōu)化（HPO）是選擇這些超參數(shù)最佳集合的過(guò)程。大多數(shù) HPO 技術(shù)涉及機(jī)器學(xué)習(xí)模型的多個(gè)訓(xùn)練周期。此外，HPO 任務(wù)的規(guī)模隨著每個(gè)新的超參數(shù)呈指數(shù)式增長(zhǎng)，因?yàn)樗鼮樗阉骺臻g增加了新的維度。正如 Yang 和 Shami 所說(shuō)，這些考慮因素使 HPO 技術(shù)在實(shí)踐中非常昂貴且耗費(fèi)資源，尤其是對(duì)于深度學(xué)習(xí)的應(yīng)用而言。即使 Hyperband 和貝葉斯優(yōu)化這類專門設(shè)計(jì)用來(lái)最小化所需訓(xùn)練周期的方法，由于模型復(fù)雜度和數(shù)據(jù)集大小等問(wèn)題，有些問(wèn)題仍然無(wú)法解決。

模型驗(yàn)證

模型驗(yàn)證階段的目標(biāo)是多方面的，因?yàn)闄C(jī)器學(xué)習(xí)模型應(yīng)該很好地泛化到未見過(guò)的輸入，顯示出對(duì)邊緣情況的合理處理和整體魯棒性，并滿足所有的功能需求。該論文討論了與模型驗(yàn)證中的三個(gè)步驟——需求編碼、形式驗(yàn)證和基于測(cè)試的驗(yàn)證有關(guān)的問(wèn)題。

需求編碼

定義機(jī)器學(xué)習(xí)模型的需求是測(cè)試活動(dòng)的關(guān)鍵前提，但實(shí)際情況中經(jīng)常會(huì)發(fā)現(xiàn)模型性能提升并不能轉(zhuǎn)換為商業(yè)價(jià)值的增益。

形式驗(yàn)證

形式驗(yàn)證是指驗(yàn)證模型功能是否符合項(xiàng)目范圍內(nèi)所定義的要求。這類驗(yàn)證包括對(duì)其正確性的數(shù)學(xué)證明，也可以包括輸出誤差范圍的數(shù)值估計(jì)，但是這種情況實(shí)際上很少發(fā)生，往往是通過(guò)廣泛的監(jiān)管框架形式化設(shè)置高質(zhì)量標(biāo)準(zhǔn)。

基于測(cè)試的驗(yàn)證

基于測(cè)試的驗(yàn)證旨在確保模型能夠很好地泛化到未見過(guò)的數(shù)據(jù)。盡管收集驗(yàn)證數(shù)據(jù)集通常不是問(wèn)題，但對(duì)于生產(chǎn)部署而言這可能還不夠。

模型部署

在生產(chǎn)環(huán)境中運(yùn)行的機(jī)器學(xué)習(xí)系統(tǒng)是復(fù)雜的軟件系統(tǒng)，需要根據(jù)時(shí)間的變化進(jìn)行維護(hù)。這給開發(fā)人員帶來(lái)了新的挑戰(zhàn)。其中一些挑戰(zhàn)在運(yùn)行常規(guī)軟件服務(wù)時(shí)也存在，而有些挑戰(zhàn)則是機(jī)器學(xué)習(xí)特有的。

模型集成

模型集成步驟包括兩個(gè)主要活動(dòng)：構(gòu)建運(yùn)行模型的基礎(chǔ)架構(gòu)，以可使用和支持的形式實(shí)現(xiàn)模型。前者幾乎是完全屬于系統(tǒng)工程的主題，后者則屬于機(jī)器學(xué)習(xí)領(lǐng)域，它揭示了機(jī)器學(xué)習(xí)與軟件工程交集中的重要問(wèn)題。

模型監(jiān)測(cè)

模型監(jiān)測(cè)是維護(hù)機(jī)器學(xué)習(xí)系統(tǒng)方面的問(wèn)題之一。社區(qū)正處于理解待監(jiān)測(cè)數(shù)據(jù)和模型的關(guān)鍵指標(biāo)以及如何啟動(dòng)警報(bào)的早期階段。監(jiān)測(cè)不斷變化的輸入數(shù)據(jù)、預(yù)測(cè)偏差和機(jī)器學(xué)習(xí)模型的整體性能是一個(gè)尚未解決的問(wèn)題。

該論文強(qiáng)調(diào)的另一個(gè)維護(hù)問(wèn)題與數(shù)據(jù)驅(qū)動(dòng)決策有關(guān)，即反饋循環(huán)。生產(chǎn)級(jí)機(jī)器學(xué)習(xí)模型可以通過(guò)定期的再訓(xùn)練影響自己的行為。在確保模型保持最新狀態(tài)的同時(shí)，我們可以創(chuàng)建反饋循環(huán)，即調(diào)整模型的輸入以影響其行為。

模型更新

模型完成初始部署后，通常還需要更改，以確保模型始終反映數(shù)據(jù)和環(huán)境的最新趨勢(shì)。有多種技術(shù)可以使模型適應(yīng)新數(shù)據(jù)，包括按計(jì)劃定期再訓(xùn)練和持續(xù)學(xué)習(xí)。但在生產(chǎn)環(huán)境中，模型更新會(huì)受到多種實(shí)際因素的影響。

除了與機(jī)器學(xué)習(xí)模型部署工作流程四階段相關(guān)的問(wèn)題以下，該論文還探討了倫理、用戶信任、安全性相關(guān)的問(wèn)題，詳情參見原論文。

下載1：何愷明頂會(huì)分享

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：leetcode?開源書

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：leetcode，即可下載。每題都 runtime beats 100% 的開源好書，你值得擁有！


下載3 CVPR2020

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：CVPR2020，即可下載1467篇CVPR?2020論文
個(gè)人微信（如果沒有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

覺得不錯(cuò)就點(diǎn)亮在看吧

機(jī)器學(xué)習(xí)模型部署都有哪些坑？劍橋研究者梳理了99篇相關(guān)研究

機(jī)器學(xué)習(xí)模型部署都有哪些坑？劍橋研究者梳理了99篇相關(guān)研究