<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          吳恩達,45歲生日快樂!提出著名二八定律:80%數據+20%模型=更好的AI

          共 4164字,需瀏覽 9分鐘

           ·

          2021-04-23 23:23

          ↑ 點擊藍字 關注極市平臺

          來源丨新智元
          編輯丨極市平臺

          極市導讀

           

          今天是吳恩達45歲生日。他是國際最權威的ML學者之一,學生遍布世界各地。在最近的一期線上課程中,吳恩達提出了以模型為中心向以數據為中心的AI。他發(fā)推稱,「大家為自己送上最好的禮物就是,觀看這個視頻并提出自己的見解」。 >>加入極市CV技術交流群,走在計算機視覺的最前沿

          今天是吳恩達(Andrew Ng)45歲生日,讓我們祝他生日快樂!
           
           
          吳恩達發(fā)推稱,「大家為自己送上最好的禮物就是,觀看這個視頻觀看并提出自己的見解。讓大家的工作從以模型為中心向以數據為中心的AI轉變。」
           
          在這個視頻中,吳恩達提出了著名二八定律:80%的數據+20%的模型=更好的AI。
           
           
          他是斯坦福大學計算機科學系和電子工程系副教授,還是在線教育平臺Coursera的聯(lián)合創(chuàng)始人。
           
          是當今人工智能和機器學習領域國際最權威的學者之一,學生遍布世界各地。
           
          謝謝他帶給我們的禮物,也感謝他為機器學習領域做出的貢獻!


          二八定律:80%的數據+20%的模型=更好的機器學習


          機器學習操作(MLOps)——從以模型為中心到以數據為中心的AI這一課程上線的第一天,就引來了全球近3萬人的觀看。
           
          吳恩達開場的第一句話就深入人心:
           
          AI = Data + Code
           
          他表示,「如果我們80%的工作是數據準備,那么確保數據質量是機器學習團隊的重要工作。
           
          機器學習的進步是模型帶來的還是數據帶來的,這可能是一個世紀辯題。
           
          吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多地強調以數據為中心而不是以模型為中心,那么機器學習的發(fā)展會更快。
           
           
          機器學習的進步很大程度上歸功于團隊下載模型并試圖在標準基準數據集上做得更好。所以他們大部分的時間都花在了改進代碼,模型或算法上。
           
          機器學習的進步一直是由提高基準數據集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數據固定。但是,當數據集大小適中(<10,000個示例)時,如果數據集良好,則ML(Machine Learning)的團隊將取得更快的進步。
           
           
          所以對于很多問題,我們應該做的不僅是改進代碼,而且應該將思維方式轉向如何創(chuàng)造出一種更系統(tǒng)的方式來改進數據,這才是很有用的。
           
          吳恩達(Andrew Ng)認為如果更多地強調以數據為中心而不是以模型為中心,那么機器學習將快速發(fā)展。
           
          傳統(tǒng)軟件是由代碼提供動力,而AI系統(tǒng)是同時使用代碼(模型+算法)和數據構建的。
           
           
          當系統(tǒng)運行不正常時,許多團隊會本能地嘗試改進代碼。但是對于許多實際應用而言,集中精力改善數據會更有效。
           
          吳恩達(Andrew Ng)提到每個人都應對ML做出80%的數據準備
           
          小編快速瀏覽了一下arxiv,了解到ML研究的方向現(xiàn)在圍繞基準測試展開了前所未有的競爭,所以我們更應該充分做好數據準備,爭取在競爭中脫穎而出。
           
          我們都知道Google具有BERT,則OpenAI具有GPT-3。但是,這些神奇的模型僅解決了業(yè)務問題的20%。
           
          良好部署的不同之處就在于數據的質量。每個人都可以使用經過預先訓練的模型或許可的API。
           
           
          根據劍橋研究人員所做的一項研究,最重要的但卻經常被忽略的問題就是數據分散。
           
          當數據從不同的源流式傳輸時會出現(xiàn)問題,這些源可能具有不同的架構,不同的約定及其存儲和訪問數據的方式。
           
          現(xiàn)在,這對于ML工程師來說是一個繁瑣的過程,因為需要他們將信息組合成適合機器學習的單個數據集,較大的數據量可能還會使標記變得困難。
           


          MLOps是什么?


          MLOps,即Machine Learning和Operations的組合,是ModelOps的子集。
           
          它是數據科學家與操作專業(yè)人員之間進行協(xié)作和交流以幫助管理機器學習任務生命周期的一種實踐。
           
           
          與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產ML的質量,同時還要關注業(yè)務和法規(guī)要求。
           
          互聯(lián)網公司通常用有大量的數據,而如果在缺少數據的應用場景中進行部署AI時,例如農業(yè)場景,你不能指望自己有一百萬臺拖拉機為自己收集數據。
           
          視頻地址:https://www.youtube.com/watch?v=06-AZXmwHjo
           
          基于MLOps,吳恩達也提出幾點建議:
           
          1. MLOps的最重要任務是提供高質量數據。
          2. 標簽的一致性也很重要。檢驗標簽是否有自己所管轄的明確界限,即使標簽的定義是好的,缺乏一致性也會導致模型效果不佳。
          3. 系統(tǒng)地改善baseline模型上的數據質量要比追求具有低質量數據的最新模型要好。
          4. 如果訓練期間出現(xiàn)錯誤,那么應當采取以數據為中心的方法。
          5. 如果以數據為中心,對于較小的數據集(<10,000個樣本),則數據容量上存在很大的改進空間。
          6. 當使用較小的數據集時,提高數據質量的工具和服務至關重要。
           
          一致性的數據定義,涵蓋所有邊界情況,從生產數據中得到及時的反饋,數據集大小合適。
           
           
          吳恩達同時建議不要指望工程師去嘗試改善數據集。相反,他希望ML社區(qū)開發(fā)更多MLOps工具,以幫助產生高質量的數據集和AI系統(tǒng),并使他們具有可重復性。除此之外,MLOps是一個新生領域,MLOps團隊的最重要目標應該是確保整個項目各個階段的高質量和一致的數據流。


          在線教育平臺Coursera上市,吳恩達身價超4億美元


          值得關注的是,3月31日,在線教育平臺Coursera以超過40億美元的估值首次公開募股(IPO)。吳恩達身價超4億美元。
           
           
          Coursera由斯坦福大學計算機科學系教授Daphne Koller和吳恩達于2012年創(chuàng)辦。
           
          吳恩達的理想是讓世界上每個人能夠接受高質量的免費教育。
           
           
          沒想到的是,吳恩達74歲的父親Ronald Paul Ng在過去八年的時間里一直在使用自己兒子創(chuàng)辦的在線學習平臺Coursera,他是兒子最有力的支持者!
           
          吳老在Coursera上報名參加的第一門課程名為《模型思維》(Model Thinking),這是密歇根大學(University of Michigan)的一門基于邏輯的在線課程。他甚至還上過自己兒子的課程:吳恩達的深度學習AI課程。
           
          吳老不僅是Coursera的第一批學生,他還立志要終身學習!
           
          吳恩達曾經還有一次為自己的父親學完了Coursera上面的146門課發(fā)了推特表示慶祝。
           
           
          所以吳恩達為什么會創(chuàng)辦在線教育平臺Coursera呢?
           
           
          這是因為多年前,吳恩達收到一本父親在1980年寫的有關機器學習診斷肝臟疾病的論文副本,吳恩達備受鼓舞,他想進一步將機器學習與醫(yī)療等行業(yè)結合起來,因此創(chuàng)辦了Coursera。
           
          Coursera旨在同世界頂尖大學合作,在線提供網絡公開課程。Coursera的首批合作院校包括斯坦福大學、密歇根大學、普林斯頓大學、賓夕法尼亞大學等美國名校,還有很多世界上非常有名大學與企業(yè)與Coursera紛紛合作。
           
          Coursera作為MOOC(大型開放式網絡課程)中的領頭羊,在創(chuàng)立后三年就擁有了160多名員工,由原耶魯校長擔任CEO,Coursera的使命就是讓所有人最便捷的獲取世界最優(yōu)質的教育機會,“Universal Access to the World's Best Education”。
           
           
          小編也經常在Coursera上面看國外知名大學的網課,真的受益匪淺!看來Coursera成功上市也是志在必得!
           
          現(xiàn)在Coursera的股票差不多45美金/股,你們會買嗎?
           
           

          參考資料:

          https://www.163.com/dy/article/FP2LTNA90511831M.html
          https://twitter.com/AndrewYNg/status/1383461008920891397
          https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/


          推薦閱讀


          趣聞|論文不必參考任何文獻?看到作者,網友大呼失敬了

          2021-04-17

          吳恩達新課發(fā)布1天,引3萬人觀看 | 完整PPT、視頻

          2021-03-26

          老師吳恩達,身家又增20億

          2021-03-24



          # CV技術社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群


          每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          △點擊卡片關注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~  



          瀏覽 24
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉久操 | 91尤物在线 | 亚洲午夜成人精品 | 激情亚洲网站 | 欧美三级片手机在线观看 |