一文看完吳恩達(dá)最新演講精髓,人工智能部署的三大挑戰(zhàn)及解決方案
? ?
??新智元報道??
【新智元導(dǎo)讀】AI算法研究的進(jìn)展似乎已經(jīng)到了一個瓶頸期,現(xiàn)在許多公司和研究團(tuán)隊正在努力將研究轉(zhuǎn)化為實際的生產(chǎn)部署。吳恩達(dá)(Andrew Ng)最近在斯坦福大學(xué)的一個線上的演講中,分享了一些他認(rèn)為有趣的觀點(diǎn)。
Andrew這次演講的主題是「Bridging AI's Proof-of-Concept to Production Gap」,即「將人工智能的概念驗證與生產(chǎn)差距連接起來」,提出了人工智能部署面臨的三個調(diào)整和解決的方案,并解答了一些問題。
?
人工智能部署面臨的三大挑戰(zhàn)
人工智能部署面臨的三大挑戰(zhàn)
?
1.小數(shù)據(jù)(Small data:Moving beyond big data)
?
當(dāng)今很多互聯(lián)網(wǎng)公司的人工智能算法研究通常使用的是「Big Data」,因為用戶產(chǎn)生了很多的數(shù)據(jù)可供模型訓(xùn)練,而小數(shù)據(jù)在消費(fèi)者互聯(lián)網(wǎng)之外的工業(yè)應(yīng)用領(lǐng)域中卻很常見。
?? ? ? ?
? ? ? ?
?智能手機(jī)上的各種APP,因為「拿到」了數(shù)以億計的用戶數(shù)據(jù),所以訓(xùn)練出一個效果很好的神經(jīng)網(wǎng)絡(luò)是非常簡單的。
?
但是如何使用小數(shù)據(jù)來讓很多其他行業(yè)也能得到效果不錯的模型,將是未來的AI發(fā)展面臨的一個挑戰(zhàn)。
?? ? ? ?
例如在做X射線的時候,當(dāng)樣本量達(dá)到11000時,AI算法的診斷結(jié)果和放射科專家的結(jié)果是沒有區(qū)別的,但在數(shù)據(jù)量很小的時候,放射科醫(yī)生的準(zhǔn)確率就會遠(yuǎn)大于模型的結(jié)果。
?? ? ? ?
? ? ? ?
吳恩達(dá)指出,當(dāng)數(shù)據(jù)分布大致呈現(xiàn)出均勻分布的時候,模型的效果通常是不錯的,但是當(dāng)模型的分布非常不均勻的時候,機(jī)器學(xué)習(xí)算法的效果就會差強(qiáng)人意,這正是人工智能在醫(yī)療領(lǐng)域面臨的一個重大問題。
?
如上圖所示,「Hernia」是一種罕見的案例,統(tǒng)計數(shù)據(jù)量非常少,忽略不計對模型準(zhǔn)確度的影響不大,但是在醫(yī)療領(lǐng)域,「Hernia」作為一種癥狀,是絕對不可以被忽略的。
?
就像他經(jīng)常聽到很多的有趣對話一樣,通常算法工程師在炫耀說:「快看我的模型在測試集上得到了非常高的準(zhǔn)確率」,而醫(yī)生則通常會說:「恭喜你的算法取得了很好的效果,并且能發(fā)論文了,但是你的系統(tǒng)不能用」。
?
而這種結(jié)果就導(dǎo)致了人工智能面臨的第二個挑戰(zhàn)。
?
2.算法的魯棒性和泛化性(Generalizability and robustness)
?
一個模型通常在已發(fā)表的論文中work,而在實際生產(chǎn)環(huán)境中通常不work。
?? ? ? ?
? ? ? ?
?而這種情況不僅僅只發(fā)生在醫(yī)療領(lǐng)域,在其他的領(lǐng)域中也非常常見。很多情況下,當(dāng)你使用了一個完全不同的數(shù)據(jù)集,模型的泛化能力就會大大降低。
?
3.變革管理(Change management:manage the change the technology brings)
?
在自動化工作流中,一個部分使用的模型可能會潛在地影響整個系統(tǒng)和許多其他相關(guān)方。
?? ? ? ?
? ? ? ?
吳恩達(dá)舉了一個姑息療法(Palliative care,也叫臨終關(guān)懷)的例子:在美國,很多醫(yī)生雖然非常的關(guān)注自己的病人,但是由于醫(yī)生人數(shù)的短缺,他們卻很少會去做Palliative care。
?? ? ? ?
? ? ? ?
而通過人工智能設(shè)計的系統(tǒng),醫(yī)生們可以了解到每一位病人的死亡率,可以更高效的輔助他們的工作。
?? ? ? ?
? ? ? ?
同時,在醫(yī)療系統(tǒng)中,「可解釋AI」的作用非常重要,因為醫(yī)生是無法輕易信任一個黑盒算法給出的結(jié)果的。
?
最后,吳恩達(dá)還指出,機(jī)器學(xué)習(xí)的代碼(ML Code)只是解決問題的非常小的一部分,需要很多環(huán)節(jié)形成一個整體的閉環(huán)。
?? ? ? ?
? ? ? ?
應(yīng)對挑戰(zhàn)的解決方案
應(yīng)對挑戰(zhàn)的解決方案
?
通常來講,一個AI項目的整體流程包括如下幾個階段:? ? ? ?
完成一個項目需要系統(tǒng)地規(guī)劃機(jī)器學(xué)習(xí)項目的整個周期,從范圍到數(shù)據(jù)、建模和部署。
?? ? ? ?
? ? ? ?
在部署階段,吳恩達(dá)指出了一種「Shadow deployment」的方法,就像在放射科使用AI系統(tǒng)一樣,算法本身不會做出任何的決策,只會用來輔助醫(yī)生得到診斷結(jié)果。
?? ? ? ?
在模型構(gòu)建和訓(xùn)練的階段,Andrew提出了訓(xùn)練數(shù)據(jù)的重要性,在訓(xùn)練階段使用一些現(xiàn)成的數(shù)據(jù)集得出的模型并不一定在實際使用中有很好的泛化能力。
?? ? ? ?
? ? ? ?
在數(shù)據(jù)方面,「不要等待找到完美的數(shù)據(jù)才開始行動」,這是Andrew接觸過的很多CEO經(jīng)常會犯的錯誤。
?? ? ? ?
吳恩達(dá)還指出,AI解決問題不可以憑空想象,一定要結(jié)合各個行業(yè)的實際痛點(diǎn),解決對商業(yè)有價值的需求。
?
演講的最后,他還分享了一個麥肯錫的調(diào)研圖表:
?? ? ? ?
? ? ? ?
結(jié)果顯示,AI所能做的領(lǐng)域遠(yuǎn)不止消費(fèi)電子行業(yè),其他領(lǐng)域也有非常廣闊的市場空間。
?
完整版視頻地址放送如下:
https://crossminds.ai/video/5f9a11f026cd723d6a05efa4/?timecode=1134.021093202179&&utm_campaign=bc839cc127703d0c&utm_medium=share


