吳恩達(dá),45歲生日快樂(lè)!提出著名二八定律:80%數(shù)據(jù)+20%模型=更好...

【導(dǎo)讀】昨天是吳恩達(dá)45歲生日。他是國(guó)際最權(quán)威的ML學(xué)者之一,學(xué)生遍布世界各地。在最近的一期線(xiàn)上課程中,吳恩達(dá)提出了以模型為中心向以數(shù)據(jù)為中心的AI。他發(fā)推稱(chēng),「大家為自己送上最好的禮物就是,觀看這個(gè)視頻并提出自己的見(jiàn)解」。
?
?吳恩達(dá)發(fā)推稱(chēng),「大家為自己送上最好的禮物就是,觀看這個(gè)視頻觀看并提出自己的見(jiàn)解。讓大家的工作從以模型為中心向以數(shù)據(jù)為中心的AI轉(zhuǎn)變。」?在這個(gè)視頻中,吳恩達(dá)提出了著名二八定律:80%的數(shù)據(jù)+20%的模型=更好的AI。?
?他是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電子工程系副教授,還是在線(xiàn)教育平臺(tái)Coursera的聯(lián)合創(chuàng)始人。?是當(dāng)今人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際最權(quán)威的學(xué)者之一,學(xué)生遍布世界各地。?謝謝他帶給我們的禮物,也感謝他為機(jī)器學(xué)習(xí)領(lǐng)域做出的貢獻(xiàn)!二八定律:80%的數(shù)據(jù)+20%的模型=更好的機(jī)器學(xué)習(xí)
?機(jī)器學(xué)習(xí)的進(jìn)步很大程度上歸功于團(tuán)隊(duì)下載模型并試圖在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上做得更好。所以他們大部分的時(shí)間都花在了改進(jìn)代碼,模型或算法上。?機(jī)器學(xué)習(xí)的進(jìn)步一直是由提高基準(zhǔn)數(shù)據(jù)集性能的努力所推動(dòng)的。研究人員的常見(jiàn)做法是在嘗試改進(jìn)代碼的同時(shí)保持?jǐn)?shù)據(jù)固定。但是,當(dāng)數(shù)據(jù)集大小適中(<10,000個(gè)示例)時(shí),如果數(shù)據(jù)集良好,則ML(Machine Learning)的團(tuán)隊(duì)將取得更快的進(jìn)步。?
?所以對(duì)于很多問(wèn)題,我們應(yīng)該做的不僅是改進(jìn)代碼,而且應(yīng)該將思維方式轉(zhuǎn)向如何創(chuàng)造出一種更系統(tǒng)的方式來(lái)改進(jìn)數(shù)據(jù),這才是很有用的。?吳恩達(dá)(Andrew Ng)認(rèn)為如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機(jī)器學(xué)習(xí)將快速發(fā)展。?傳統(tǒng)軟件是由代碼提供動(dòng)力,而AI系統(tǒng)是同時(shí)使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。?
?當(dāng)系統(tǒng)運(yùn)行不正常時(shí),許多團(tuán)隊(duì)會(huì)本能地嘗試改進(jìn)代碼。但是對(duì)于許多實(shí)際應(yīng)用而言,集中精力改善數(shù)據(jù)會(huì)更有效。?吳恩達(dá)(Andrew Ng)提到每個(gè)人都應(yīng)對(duì)ML做出80%的數(shù)據(jù)準(zhǔn)備。?小編快速瀏覽了一下arxiv,了解到ML研究的方向現(xiàn)在圍繞基準(zhǔn)測(cè)試展開(kāi)了前所未有的競(jìng)爭(zhēng),所以我們更應(yīng)該充分做好數(shù)據(jù)準(zhǔn)備,爭(zhēng)取在競(jìng)爭(zhēng)中脫穎而出。?我們都知道Google具有BERT,則OpenAI具有GPT-3。但是,這些神奇的模型僅解決了業(yè)務(wù)問(wèn)題的20%。?良好部署的不同之處就在于數(shù)據(jù)的質(zhì)量。每個(gè)人都可以使用經(jīng)過(guò)預(yù)先訓(xùn)練的模型或許可的API。?
?根據(jù)劍橋研究人員所做的一項(xiàng)研究,最重要的但卻經(jīng)常被忽略的問(wèn)題就是數(shù)據(jù)分散。?當(dāng)數(shù)據(jù)從不同的源流式傳輸時(shí)會(huì)出現(xiàn)問(wèn)題,這些源可能具有不同的架構(gòu),不同的約定及其存儲(chǔ)和訪(fǎng)問(wèn)數(shù)據(jù)的方式。?現(xiàn)在,這對(duì)于ML工程師來(lái)說(shuō)是一個(gè)繁瑣的過(guò)程,因?yàn)樾枰麄儗⑿畔⒔M合成適合機(jī)器學(xué)習(xí)的單個(gè)數(shù)據(jù)集,較大的數(shù)據(jù)量可能還會(huì)使標(biāo)記變得困難。?
MLOps是什么?
?與DevOps或DataOps方法類(lèi)似,MLOps希望提高自動(dòng)化程度并提高生產(chǎn)ML的質(zhì)量,同時(shí)還要關(guān)注業(yè)務(wù)和法規(guī)要求。?互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應(yīng)用場(chǎng)景中進(jìn)行部署AI時(shí),例如農(nóng)業(yè)場(chǎng)景,你不能指望自己有一百萬(wàn)臺(tái)拖拉機(jī)為自己收集數(shù)據(jù)。?
?基于MLOps,吳恩達(dá)也提出幾點(diǎn)建議:?- MLOps的最重要任務(wù)是提供高質(zhì)量數(shù)據(jù)。
- 標(biāo)簽的一致性也很重要。檢驗(yàn)標(biāo)簽是否有自己所管轄的明確界限,即使標(biāo)簽的定義是好的,缺乏一致性也會(huì)導(dǎo)致模型效果不佳。
- 系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。
- 如果訓(xùn)練期間出現(xiàn)錯(cuò)誤,那么應(yīng)當(dāng)采取以數(shù)據(jù)為中心的方法。
- 如果以數(shù)據(jù)為中心,對(duì)于較小的數(shù)據(jù)集(<10,000個(gè)樣本),則數(shù)據(jù)容量上存在很大的改進(jìn)空間。
- 當(dāng)使用較小的數(shù)據(jù)集時(shí),提高數(shù)據(jù)質(zhì)量的工具和服務(wù)至關(guān)重要。
?吳恩達(dá)同時(shí)建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開(kāi)發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復(fù)性。除此之外,MLOps是一個(gè)新生領(lǐng)域,MLOps團(tuán)隊(duì)的最重要目標(biāo)應(yīng)該是確保整個(gè)項(xiàng)目各個(gè)階段的高質(zhì)量和一致的數(shù)據(jù)流。在線(xiàn)教育平臺(tái)Coursera上市,吳恩達(dá)身價(jià)超4億美元
?Coursera由斯坦福大學(xué)計(jì)算機(jī)科學(xué)系教授Daphne Koller和吳恩達(dá)于2012年創(chuàng)辦。?吳恩達(dá)的理想是讓世界上每個(gè)人能夠接受高質(zhì)量的免費(fèi)教育。?
?沒(méi)想到的是,吳恩達(dá)74歲的父親Ronald Paul Ng在過(guò)去八年的時(shí)間里一直在使用自己兒子創(chuàng)辦的在線(xiàn)學(xué)習(xí)平臺(tái)Coursera,他是兒子最有力的支持者!?吳老在Coursera上報(bào)名參加的第一門(mén)課程名為《模型思維》(Model Thinking),這是密歇根大學(xué)(University of Michigan)的一門(mén)基于邏輯的在線(xiàn)課程。他甚至還上過(guò)自己兒子的課程:吳恩達(dá)的深度學(xué)習(xí)AI課程。?吳老不僅是Coursera的第一批學(xué)生,他還立志要終身學(xué)習(xí)!?吳恩達(dá)曾經(jīng)還有一次為自己的父親學(xué)完了Coursera上面的146門(mén)課發(fā)了推特表示慶祝。?
?所以吳恩達(dá)為什么會(huì)創(chuàng)辦在線(xiàn)教育平臺(tái)Coursera呢??
?這是因?yàn)槎嗄昵埃瑓嵌鬟_(dá)收到一本父親在1980年寫(xiě)的有關(guān)機(jī)器學(xué)習(xí)診斷肝臟疾病的論文副本,吳恩達(dá)備受鼓舞,他想進(jìn)一步將機(jī)器學(xué)習(xí)與醫(yī)療等行業(yè)結(jié)合起來(lái),因此創(chuàng)辦了Coursera。?Coursera旨在同世界頂尖大學(xué)合作,在線(xiàn)提供網(wǎng)絡(luò)公開(kāi)課程。Coursera的首批合作院校包括斯坦福大學(xué)、密歇根大學(xué)、普林斯頓大學(xué)、賓夕法尼亞大學(xué)等美國(guó)名校,還有很多世界上非常有名大學(xué)與企業(yè)與Coursera紛紛合作。?Coursera作為MOOC(大型開(kāi)放式網(wǎng)絡(luò)課程)中的領(lǐng)頭羊,在創(chuàng)立后三年就擁有了160多名員工,由原耶魯校長(zhǎng)擔(dān)任CEO,Coursera的使命就是讓所有人最便捷的獲取世界最優(yōu)質(zhì)的教育機(jī)會(huì),“Universal Access to the World's Best Education”。?
?小編也經(jīng)常在Coursera上面看國(guó)外知名大學(xué)的網(wǎng)課,真的受益匪淺!看來(lái)Coursera成功上市也是志在必得!?現(xiàn)在Coursera的股票差不多45美金/股,你們會(huì)買(mǎi)嗎??參考資料:
https://www.163.com/dy/article/FP2LTNA90511831M.htmlhttps://twitter.com/AndrewYNg/status/1383461008920891397https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/
大家好,最后給大家免費(fèi)分享吳恩達(dá)老師的學(xué)習(xí)資料和視頻,只需要后臺(tái)回復(fù):吳恩達(dá)合集
領(lǐng)取方式:
長(zhǎng)按下方掃碼,關(guān)注后發(fā)消息?[吳恩達(dá)合集]
感謝你的分享,點(diǎn)贊,在看三連??
評(píng)論
圖片
表情
