<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          吳恩達,45歲生日快樂!提出著名二八定律:80%數(shù)據(jù)+20%模型=更好的AI

          共 3903字,需瀏覽 8分鐘

           ·

          2021-04-18 14:55



            新智元報道  

          來源:Twitter

          編輯:yaxin、LZY

          【新智元導(dǎo)讀】今天是吳恩達45歲生日。他是國際最權(quán)威的ML學(xué)者之一,學(xué)生遍布世界各地。在最近的一期線上課程中,吳恩達提出了以模型為中心向以數(shù)據(jù)為中心的AI。他發(fā)推稱,「大家為自己送上最好的禮物就是,觀看這個視頻并提出自己的見解」。


          今天是吳恩達(Andrew Ng)45歲生日,讓我們祝他生日快樂!
           
           
          吳恩達發(fā)推稱,「大家為自己送上最好的禮物就是,觀看這個視頻觀看并提出自己的見解。讓大家的工作從以模型為中心向以數(shù)據(jù)為中心的AI轉(zhuǎn)變?!?/span>
           
          在這個視頻中,吳恩達提出了著名二八定律:80%的數(shù)據(jù)+20%的模型=更好的AI。
           
           
          他是斯坦福大學(xué)計算機科學(xué)系和電子工程系副教授,還是在線教育平臺Coursera的聯(lián)合創(chuàng)始人。
           
          是當(dāng)今人工智能和機器學(xué)習(xí)領(lǐng)域國際最權(quán)威的學(xué)者之一,學(xué)生遍布世界各地。
           
          謝謝他帶給我們的禮物,也感謝他為機器學(xué)習(xí)領(lǐng)域做出的貢獻!


          二八定律:80%的數(shù)據(jù)+20%的模型=更好的機器學(xué)習(xí)


          機器學(xué)習(xí)操作(MLOps)——從以模型為中心到以數(shù)據(jù)為中心的AI這一課程上線的第一天,就引來了全球近3萬人的觀看。
           
          吳恩達開場的第一句話就深入人心:
           
          AI = Data + Code
           
          他表示,「如果我們80%的工作是數(shù)據(jù)準備,那么確保數(shù)據(jù)質(zhì)量是機器學(xué)習(xí)團隊的重要工作。
           
          機器學(xué)習(xí)的進步是模型帶來的還是數(shù)據(jù)帶來的,這可能是一個世紀辯題。
           
          吳恩達對此的想法是,一個機器學(xué)習(xí)團隊80%的工作應(yīng)該放在數(shù)據(jù)準備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個人都知道應(yīng)該如此做,但沒人在乎。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學(xué)習(xí)的發(fā)展會更快。
           
           
          機器學(xué)習(xí)的進步很大程度上歸功于團隊下載模型并試圖在標(biāo)準基準數(shù)據(jù)集上做得更好。所以他們大部分的時間都花在了改進代碼,模型或算法上。
           
          機器學(xué)習(xí)的進步一直是由提高基準數(shù)據(jù)集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數(shù)據(jù)固定。但是,當(dāng)數(shù)據(jù)集大小適中(<10,000個示例)時,如果數(shù)據(jù)集良好,則ML(Machine Learning)的團隊將取得更快的進步
           
           
          所以對于很多問題,我們應(yīng)該做的不僅是改進代碼,而且應(yīng)該將思維方式轉(zhuǎn)向如何創(chuàng)造出一種更系統(tǒng)的方式來改進數(shù)據(jù),這才是很有用的。
           
          吳恩達(Andrew Ng)認為如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學(xué)習(xí)將快速發(fā)展。
           
          傳統(tǒng)軟件是由代碼提供動力,而AI系統(tǒng)是同時使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。
           
           
          當(dāng)系統(tǒng)運行不正常時,許多團隊會本能地嘗試改進代碼。但是對于許多實際應(yīng)用而言,集中精力改善數(shù)據(jù)會更有效。
           
          吳恩達(Andrew Ng)提到每個人都應(yīng)對ML做出80%的數(shù)據(jù)準備
           
          小編快速瀏覽了一下arxiv,了解到ML研究的方向現(xiàn)在圍繞基準測試展開了前所未有的競爭,所以我們更應(yīng)該充分做好數(shù)據(jù)準備,爭取在競爭中脫穎而出。
           
          我們都知道Google具有BERT,則OpenAI具有GPT-3。但是,這些神奇的模型僅解決了業(yè)務(wù)問題的20%。
           
          良好部署的不同之處就在于數(shù)據(jù)的質(zhì)量。每個人都可以使用經(jīng)過預(yù)先訓(xùn)練的模型或許可的API。
           
           
          根據(jù)劍橋研究人員所做的一項研究,最重要的但卻經(jīng)常被忽略的問題就是數(shù)據(jù)分散。
           
          當(dāng)數(shù)據(jù)從不同的源流式傳輸時會出現(xiàn)問題,這些源可能具有不同的架構(gòu),不同的約定及其存儲和訪問數(shù)據(jù)的方式。
           
          現(xiàn)在,這對于ML工程師來說是一個繁瑣的過程,因為需要他們將信息組合成適合機器學(xué)習(xí)的單個數(shù)據(jù)集,較大的數(shù)據(jù)量可能還會使標(biāo)記變得困難。
           


          MLOps是什么?


          MLOps,即Machine Learning和Operations的組合,是ModelOps的子集。
           
          它是數(shù)據(jù)科學(xué)家與操作專業(yè)人員之間進行協(xié)作和交流以幫助管理機器學(xué)習(xí)任務(wù)生命周期的一種實踐。
           
           
          與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產(chǎn)ML的質(zhì)量,同時還要關(guān)注業(yè)務(wù)和法規(guī)要求。
           
          互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應(yīng)用場景中進行部署AI時,例如農(nóng)業(yè)場景,你不能指望自己有一百萬臺拖拉機為自己收集數(shù)據(jù)。
           
          視頻地址:https://www.youtube.com/watch?v=06-AZXmwHjo
           
          基于MLOps,吳恩達也提出幾點建議:
           
          1. MLOps的最重要任務(wù)是提供高質(zhì)量數(shù)據(jù)。
          2. 標(biāo)簽的一致性也很重要。檢驗標(biāo)簽是否有自己所管轄的明確界限,即使標(biāo)簽的定義是好的,缺乏一致性也會導(dǎo)致模型效果不佳。
          3. 系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。
          4. 如果訓(xùn)練期間出現(xiàn)錯誤,那么應(yīng)當(dāng)采取以數(shù)據(jù)為中心的方法。
          5. 如果以數(shù)據(jù)為中心,對于較小的數(shù)據(jù)集(<10,000個樣本),則數(shù)據(jù)容量上存在很大的改進空間。
          6. 當(dāng)使用較小的數(shù)據(jù)集時,提高數(shù)據(jù)質(zhì)量的工具和服務(wù)至關(guān)重要。
           
          一致性的數(shù)據(jù)定義,涵蓋所有邊界情況,從生產(chǎn)數(shù)據(jù)中得到及時的反饋,數(shù)據(jù)集大小合適。
           
           
          吳恩達同時建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復(fù)性。除此之外,MLOps是一個新生領(lǐng)域,MLOps團隊的最重要目標(biāo)應(yīng)該是確保整個項目各個階段的高質(zhì)量和一致的數(shù)據(jù)流。


          在線教育平臺Coursera上市,吳恩達身價超4億美元


          值得關(guān)注的是,3月31日,在線教育平臺Coursera以超過40億美元的估值首次公開募股(IPO)。吳恩達身價超4億美元。
           
           
          Coursera由斯坦福大學(xué)計算機科學(xué)系教授Daphne Koller和吳恩達于2012年創(chuàng)辦。
           
          吳恩達的理想是讓世界上每個人能夠接受高質(zhì)量的免費教育。
           
           
          沒想到的是,吳恩達74歲的父親Ronald Paul Ng在過去八年的時間里一直在使用自己兒子創(chuàng)辦的在線學(xué)習(xí)平臺Coursera,他是兒子最有力的支持者!
           
          吳老在Coursera上報名參加的第一門課程名為《模型思維》(Model Thinking),這是密歇根大學(xué)(University of Michigan)的一門基于邏輯的在線課程。他甚至還上過自己兒子的課程:吳恩達的深度學(xué)習(xí)AI課程。
           
          吳老不僅是Coursera的第一批學(xué)生,他還立志要終身學(xué)習(xí)!
           
          吳恩達曾經(jīng)還有一次為自己的父親學(xué)完了Coursera上面的146門課發(fā)了推特表示慶祝。
           
           
          所以吳恩達為什么會創(chuàng)辦在線教育平臺Coursera呢?
           
           
          這是因為多年前,吳恩達收到一本父親在1980年寫的有關(guān)機器學(xué)習(xí)診斷肝臟疾病的論文副本,吳恩達備受鼓舞,他想進一步將機器學(xué)習(xí)與醫(yī)療等行業(yè)結(jié)合起來,因此創(chuàng)辦了Coursera。
           
          Coursera旨在同世界頂尖大學(xué)合作,在線提供網(wǎng)絡(luò)公開課程。Coursera的首批合作院校包括斯坦福大學(xué)、密歇根大學(xué)、普林斯頓大學(xué)、賓夕法尼亞大學(xué)等美國名校,還有很多世界上非常有名大學(xué)與企業(yè)與Coursera紛紛合作。
           
          Coursera作為MOOC(大型開放式網(wǎng)絡(luò)課程)中的領(lǐng)頭羊,在創(chuàng)立后三年就擁有了160多名員工,由原耶魯校長擔(dān)任CEO,Coursera的使命就是讓所有人最便捷的獲取世界最優(yōu)質(zhì)的教育機會,“Universal Access to the World's Best Education”。
           
           
          小編也經(jīng)常在Coursera上面看國外知名大學(xué)的網(wǎng)課,真的受益匪淺!看來Coursera成功上市也是志在必得!
           
          現(xiàn)在Coursera的股票差不多45美金/股,你們會買嗎?
           
           

          參考資料:

          https://www.163.com/dy/article/FP2LTNA90511831M.html
          https://twitter.com/AndrewYNg/status/1383461008920891397
          https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/


          推薦閱讀:

          中國要做自己的GPT,萬一實現(xiàn)了呢?

          AI家,新天地!新智元星艦在這里等你


          AI家,新天地。西山新綠,新智元在等你!


          【新智元高薪誠聘】主筆、高級編輯、商務(wù)總監(jiān)、運營經(jīng)理、實習(xí)生等崗位,歡迎投遞簡歷至[email protected] (或微信: 13520015375)


          辦公地址:北京海淀中關(guān)村軟件園3號樓1100


          瀏覽 87
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人操日日操 | 憧色AV网在线 | 国产3区在线观看 | 国产人人爽| 国产高清无码视频在线播放 |