<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么90%的機器學(xué)習(xí)模型從未應(yīng)用于生產(chǎn)?

          共 4024字,需瀏覽 9分鐘

           ·

          2022-06-01 11:01

          點擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          作者 | Rhea Moutafis

          譯者 | 平川(From:InfoQ)

          策劃 | 陳思

          時代變幻莫測,僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業(yè)的壓力。在這種情況下,投入數(shù)十億美元開發(fā)可以改進(jìn)產(chǎn)品的機器學(xué)習(xí)模型就可以理解了。但有一個問題。公司不能只是把錢砸在數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師身上,就希望可以有奇跡發(fā)生。據(jù) VentureBeat 報道,大約 90% 的機器學(xué)習(xí)模型從未投入生產(chǎn)。換句話說,數(shù)據(jù)科學(xué)家的工作只有十分之一能夠真正產(chǎn)出對公司有用的東西。

          大多數(shù)機器學(xué)習(xí)模型從未部署。圖片由作者提供。


          企業(yè)正在經(jīng)歷艱難時期。我說的不是病毒流行和股市波動。

          時代變幻莫測,僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業(yè)的壓力。在這種情況下,投入 數(shù)十億美元 開發(fā)可以改進(jìn)產(chǎn)品的機器學(xué)習(xí)模型就可以理解了。

          但有一個問題。公司不能只是把錢砸在數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師身上,就希望可以有奇跡發(fā)生。

          有數(shù)據(jù)為證。據(jù) VentureBeat 報道,大約 90% 的機器學(xué)習(xí)模型從未投入生產(chǎn)。換句話說,數(shù)據(jù)科學(xué)家的工作只有十分之一能夠真正產(chǎn)出對公司有用的東西。

          盡管 十分之九 的科技高管相信,人工智能將成為下一次科技革命的中心,但人工智能的采用和部署尚未獲得長足的發(fā)展,而這不能怪?jǐn)?shù)據(jù)科學(xué)家。

          企業(yè)尚未準(zhǔn)備好采用機器學(xué)習(xí)
          領(lǐng)導(dǎo)支持并不意味著投錢多

          數(shù)據(jù)科學(xué)家的 就業(yè)市場非常好。企業(yè)在招聘,而且也已經(jīng)準(zhǔn)備好支付高薪。

          當(dāng)然,管理人員和企業(yè)負(fù)責(zé)人期望這些數(shù)據(jù)科學(xué)家能帶來巨大的價值。然而,就目前而言,他們并沒有為此提供便利。

          GAP 數(shù)據(jù)分析高級副總裁 Chris Chapo表示:“有時人們會想,我所需要做的只是針對一個問題投入資金或技術(shù),成功就會到來?!?/p>

          為了幫助數(shù)據(jù)科學(xué)家在工作中發(fā)揮出色的作用,領(lǐng)導(dǎo)者不僅需要將資源引向正確的方向,還需要了解機器學(xué)習(xí)模型是干什么的。一個可能的解決方案是,讓領(lǐng)導(dǎo)者們自己接受一些數(shù)據(jù)科學(xué)的入門培訓(xùn),這樣他們就可以在公司里把這些知識付諸實踐。

          數(shù)據(jù)訪問難度大

          公司不擅長收集數(shù)據(jù)。許多公司都是高度筒倉化的,這意味著每個部門都有自己收集數(shù)據(jù)的方式、首選格式、存儲位置以及安全和隱私偏好。

          另一方面,數(shù)據(jù)科學(xué)家經(jīng)常需要來自多個部門的數(shù)據(jù)。筒倉化增加了清理和處理這些數(shù)據(jù)的難度。此外,許多數(shù)據(jù)科學(xué)家 抱怨,他們甚至無法獲得他們需要的數(shù)據(jù)。如果你沒有必要的數(shù)據(jù),怎么開始訓(xùn)練一個模型呢?

          也許在過去,筒倉化的公司結(jié)構(gòu)——以及無法訪問的數(shù)據(jù)——便于管理。但在一個技術(shù)飛速變革的時代,企業(yè)將需要加快步伐,在整個過程中建立起統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。

          對于數(shù)據(jù)科學(xué)家來說,能夠獲取所需的數(shù)據(jù)至關(guān)重要。圖片由作者提供。

          IT、數(shù)據(jù)科學(xué)和工程脫節(jié)

          如果公司的目標(biāo)是減少“筒倉”,這就意味著各部門需要更多地相互溝通,調(diào)整各自的目標(biāo)。

          在許多公司中,IT 部門和數(shù)據(jù)科學(xué)部門之間存在著 根本性的分歧。IT 傾向于優(yōu)先考慮讓事情正常運轉(zhuǎn)并保持穩(wěn)定。另一方面,數(shù)據(jù)科學(xué)家喜歡實驗和破壞東西。這會導(dǎo)致溝通困難。

          此外,對于數(shù)據(jù)科學(xué)家來說,工程并非總是必不可少的。這是一個問題,因為工程師有時候可能無法了解數(shù)據(jù)科學(xué)家所設(shè)想的所有細(xì)節(jié),或者可能會由于溝通錯誤而改變實現(xiàn)方式。因此,正如 StackOverflow 指出 的那樣,能夠部署模型的數(shù)據(jù)科學(xué)家比那些不能部署模型的數(shù)據(jù)科學(xué)家更有競爭優(yōu)勢。

          機器學(xué)習(xí)模型自身面臨的挑戰(zhàn)
          擴(kuò)展比你想象的要難

          模型在小環(huán)境中工作得很好,并不意味著它在任何地方都可以工作得很好。

          首先,可能沒有處理更大數(shù)據(jù)集的硬件或云存儲空間可供使用。此外,在規(guī)模很大時,機器學(xué)習(xí)模型的模塊并不總是像規(guī)模較小時那么有效。

          最后,數(shù)據(jù)獲取可能比較困難,甚至不可能。正如前面所討論的,這可能是由于公司的筒倉結(jié)構(gòu),也可能是由于在獲取更多數(shù)據(jù)時遇到的其他挑戰(zhàn)。

          這也是在組織之間統(tǒng)一數(shù)據(jù)結(jié)構(gòu)、鼓勵不同部門之間進(jìn)行交流的另一個原因。

          重復(fù)工作

          在部署機器學(xué)習(xí)模型的漫長道路上,超過四分之一 的企業(yè)都存在重復(fù)工作。

          例如,軟件工程師可能會按數(shù)據(jù)科學(xué)家的說法進(jìn)行實現(xiàn)。后者可能也會繼續(xù),自己做一些工作。

          這不僅浪費時間和資源,而且,當(dāng)涉眾不知道使用了哪個版本的代碼,在遇到任何錯誤時就不知道應(yīng)該向誰求助,這會導(dǎo)致額外的混亂。

          如果數(shù)據(jù)科學(xué)家能夠?qū)崿F(xiàn)他們的模型,這是他們的優(yōu)勢,但對于誰做什么,他們應(yīng)該與工程師溝通清楚。這樣,就可以節(jié)省公司的時間和資源。

          有效溝通對于機器學(xué)習(xí)模型正常運行至關(guān)重要。圖片由作者提供。

          高管們可能會不認(rèn)可

          總體來說,技術(shù)高管 非常相信 人工智能的力量,但這并不意味著他們會同意所有的想法。據(jù) Algorithmia 報道,三分之一的企業(yè)高管將糟糕的部署統(tǒng)計數(shù)據(jù)歸咎于缺乏高層支持。

          似乎人們?nèi)匀徽J(rèn)為數(shù)據(jù)科學(xué)家有點書呆子氣,缺乏商業(yè)意識。為此,數(shù)據(jù)科學(xué)家應(yīng)加強他們的業(yè)務(wù)技能,并盡可能尋求與高管的對話。

          當(dāng)然,這并不意味著每個數(shù)據(jù)科學(xué)家需要 MBA 學(xué)位才能勝任他們的工作。然而,從課程或業(yè)務(wù)經(jīng)驗中學(xué)習(xí)一些關(guān)鍵知識可能會對他們有長遠(yuǎn)的幫助。

          不能跨語言且缺少框架支持

          由于機器學(xué)習(xí)模型仍處于起步階段,不同的語言和框架仍有相當(dāng)大的差距。

          有些管道開始時是 Python 開始,中間是 R,最后是 Julia。有的則相反,或者完全使用其他語言。由于每種語言都有自己獨特的庫和依賴項,項目很快就變得很難跟蹤。

          此外,有些管道可能會使用 Docker 和 Kubernetes 進(jìn)行容器化,其他管道可能不會。有些管道將部署特定的 API,其他管道則不會。這樣的例子不勝枚舉。

          為了彌補這種不足,像 TFX、Mlflow 和 Kubeflow 這樣的工具出現(xiàn)了。但這些工具仍處于起步階段,到目前為止,這方面的專家還很少。

          數(shù)據(jù)科學(xué)家們知道,他們需要不斷了解自己領(lǐng)域的最新進(jìn)展。這應(yīng)該也適用于模型部署。

          版本控制和再現(xiàn)仍面臨挑戰(zhàn)

          與上述問題相關(guān)的是,到目前為止,機器學(xué)習(xí)模型版本控制還沒有一種可行的方法。顯然,數(shù)據(jù)科學(xué)家需要跟蹤他們所做的任何更改,但現(xiàn)在這相當(dāng)麻煩。

          此外,數(shù)據(jù)集可能會隨時間漂移。隨著公司和項目的發(fā)展,這是很自然的,但這使得再現(xiàn)過去的結(jié)果變得更加困難。

          更重要的是,一旦項目啟動,就會建立一個基準(zhǔn),用于現(xiàn)在和將來對模型進(jìn)行測試。結(jié)合版本控制,數(shù)據(jù)科學(xué)家可以再現(xiàn)他們的模型。

          如果模型不可再現(xiàn),就會導(dǎo)致漫長的調(diào)查研究。圖片由作者提供。

          停止嘗試,開始部署

          如果數(shù)據(jù)科學(xué)家 90% 的努力都沒有結(jié)果,這可不是一個好現(xiàn)象。這不是數(shù)據(jù)科學(xué)家的錯,如上所述,這是由于組織結(jié)構(gòu)上固有的障礙。

          變革不是一天能完成的。對于剛剛開始接觸機器學(xué)習(xí)模型的公司,建議他們從一個非常小而簡單的項目開始。

          一旦管理者勾勒出一個清晰而簡單的項目,第二步就是選擇合適的團(tuán)隊。這個團(tuán)隊?wèi)?yīng)該是跨職能的,應(yīng)該包括數(shù)據(jù)科學(xué)家、工程師、DevOps 和任何其他看起來對于獲得成功至關(guān)重要的角色。

          第三,在開始的時候,管理者應(yīng)該考慮利用第三方來幫助他們加速這個過程。IBM 是提供這種服務(wù)的公司之一,但市場上也有其他公司。

          最后一點是,切莫不惜一切代價追求先進(jìn)。如果一個簡單的低成本模型能滿足 80% 的客戶需求,并能在幾個月內(nèi)交付,這已經(jīng)是一個了不起的成就了。此外,從構(gòu)建簡單模型積累的經(jīng)驗將有助于實現(xiàn)更復(fù)雜的模型,并有望使客戶百分之百滿意。

          結(jié)論:革命需要時間

          下一個十年注定是革命性的,就像上一個十年一樣。人工智能的廣泛應(yīng)用只是 眾多發(fā)展趨勢 中的一個,物聯(lián)網(wǎng)、高級機器人技術(shù)和區(qū)塊鏈技術(shù)也在興起。

          我說的是幾十年,而不是幾年。例如,考慮到 90% 的公司都 已上云——如此之多,以至于我們很難想象沒有云我們怎么生活。而另一方面,云是花了 幾十年時間 才被廣泛地采用。

          我們沒有理由認(rèn)為人工智能革命會有任何不同。它需要一段時間才能推廣開,因為目前還有許多需要解決的障礙。

          但是,由于機器學(xué)習(xí)提供了如此多的方法來改善客戶體驗和企業(yè)效率,顯然,贏家將是那些快速并盡早部署模型的公司。

          原文鏈接:

          https://towardsdatascience.com/why-90-percent-of-all-machine-learning-models-never-make-it-into-production-ce7e250d5a4a

          好消息! 

          小白學(xué)視覺知識星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 31
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久AV片| 亚洲日本中文字幕乱码在线 | 国产乱子伦精品视频潮 | 色播丁香五月天 | 大香蕉免费主播福利视频 |