<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          吳恩達(dá)最新采訪:以數(shù)據(jù)為中心的AI

          共 4979字,需瀏覽 10分鐘

           ·

          2022-02-17 11:40

          ↓↓↓點(diǎn)擊關(guān)注,回復(fù)資料,10個(gè)G的驚喜

          編譯丨維克多、王曄

          吳恩達(dá)是人工智能(AI)和機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際最權(quán)威的學(xué)者之一,最近一年里,他一直在提“以數(shù)據(jù)為中心的AI”,希望將大家的目光從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。

          最近,在接受IEEE Spectrum的采訪中,他談到了對(duì)基礎(chǔ)模型、大數(shù)據(jù)、小數(shù)據(jù)以及數(shù)據(jù)工程的一些感悟,并給出了發(fā)起“以數(shù)據(jù)為中心的AI”運(yùn)動(dòng)的原因。

          “過(guò)去十年,代碼—神經(jīng)網(wǎng)絡(luò)的架構(gòu)已經(jīng)非常成熟。保持神經(jīng)網(wǎng)絡(luò)架構(gòu)固定,尋找改進(jìn)數(shù)據(jù)的方法,才會(huì)更有效率。”

          吳恩達(dá)表示,他這種以數(shù)據(jù)為中心的思想受到了很多的批評(píng),就和當(dāng)年他發(fā)起Google brain項(xiàng)目,支持構(gòu)建大型神經(jīng)網(wǎng)絡(luò)行動(dòng),時(shí)候受到的批評(píng)時(shí)一樣:想法不新鮮,方向錯(cuò)誤。據(jù)吳教授介紹,批評(píng)者中不乏行業(yè)資深人士。

          關(guān)于小數(shù)據(jù),吳教授認(rèn)為,它同樣能夠有威力:“只要擁有50個(gè)好數(shù)據(jù)(examples),就足以向神經(jīng)網(wǎng)絡(luò)解釋你想讓它學(xué)習(xí)什么。”

          以下是采訪原文,AI科技評(píng)論做了不改變?cè)獾木幾g。

          IEEE:過(guò)去十年,深度學(xué)習(xí)的成功來(lái)源于大數(shù)據(jù)和大模型,但有人認(rèn)為這是一條不可持續(xù)的路徑,您同意這個(gè)觀點(diǎn)么?

          吳恩達(dá):?好問(wèn)題。

          我們已經(jīng)在自然語(yǔ)言處理(NLP)領(lǐng)域看到了基礎(chǔ)模型(foundation models)的威力。說(shuō)實(shí)話,我對(duì)更大的NLP模型,以及在計(jì)算機(jī)視覺(CV)中構(gòu)建基礎(chǔ)模型感到興奮。視頻數(shù)據(jù)中有很多信息可以利用,但由于計(jì)算性能以及視頻數(shù)據(jù)處理成本的限制,還無(wú)法建立相關(guān)的基礎(chǔ)模型。

          大數(shù)據(jù)與大模型作為深度學(xué)習(xí)引擎已經(jīng)成功運(yùn)行了15年,它仍然具有活力。話雖如此,但在某些場(chǎng)景下,我們也看到,大數(shù)據(jù)并不適用,“小數(shù)據(jù)”才是更好的解決方案。

          IEEE:您提到的CV基礎(chǔ)模型是什么意思?

          吳恩達(dá):?是指規(guī)模非常大,并在大數(shù)據(jù)上訓(xùn)練的模型,使用的時(shí)候可以為特定的應(yīng)用進(jìn)行微調(diào)。是我和斯坦福的朋友創(chuàng)建的術(shù)語(yǔ),例如GPT-3就是NLP領(lǐng)域的基礎(chǔ)模型。基礎(chǔ)模型為開發(fā)機(jī)器學(xué)習(xí)應(yīng)用提供了新的范式,有很大的前景,但同時(shí)也面臨挑戰(zhàn):如何確保合理、公平、無(wú)偏?這些挑戰(zhàn)隨著越來(lái)越多的人在基礎(chǔ)模型上構(gòu)建應(yīng)用,會(huì)越來(lái)越明顯。

          IEEE:為CV創(chuàng)建基礎(chǔ)模型的契機(jī)在哪?

          吳恩達(dá):目前還是存在可擴(kuò)展性難題。相比NLP,CV需要的計(jì)算能力更強(qiáng)大。如果能生產(chǎn)出比現(xiàn)在高10倍性能的處理器,就能夠非常輕松建立包含10倍視頻數(shù)據(jù)的基礎(chǔ)視覺模型。目前,已經(jīng)出現(xiàn)了在CV中開發(fā)基礎(chǔ)模型的跡象。

          說(shuō)到這,我提一嘴:過(guò)去十年,深度學(xué)習(xí)的成功更多的發(fā)生在面向消費(fèi)的公司,這些公司特點(diǎn)是擁有龐大的用戶數(shù)據(jù)。因此,在其他行業(yè),深度學(xué)習(xí)的“規(guī)模范式”并不適用。

          IEEE:您這么一說(shuō)我想起來(lái)了,您早期是在一家面向消費(fèi)者的公司,擁有數(shù)百萬(wàn)用戶。

          吳恩達(dá):十年前,當(dāng)我發(fā)起 Google Brain 項(xiàng)目,并使用 Google的計(jì)算基礎(chǔ)設(shè)施構(gòu)建“大”神經(jīng)網(wǎng)絡(luò)的時(shí)候,引起了很多爭(zhēng)議。當(dāng)時(shí)有位行業(yè)資深人士,“悄悄”告訴我:?jiǎn)?dòng)Google Brain 項(xiàng)目不利于我的職業(yè)生涯,我不應(yīng)該只關(guān)注大規(guī)模,而應(yīng)該專注于架構(gòu)創(chuàng)新。

          到現(xiàn)在我還記著,我和我的學(xué)生發(fā)表的第一篇NeurIPS ?workshop論文,提倡使用CUDA。但另一位行業(yè)資深人勸我:CUDA 編程太復(fù)雜了,將它作為一種編程范式,工作量太大了。我想辦法說(shuō)服他,但我失敗了。

          IEEE:我想現(xiàn)在他們都被說(shuō)服了。

          吳恩達(dá):我想是的。

          在過(guò)去一年,我一直在討論以數(shù)據(jù)為中心的AI,我遇到了和10年前一樣的評(píng)價(jià):“沒有新意”,“這是個(gè)錯(cuò)誤的方向”。

          IEEE:您如何定義“以數(shù)據(jù)為中心的AI”,為什么會(huì)稱它為一場(chǎng)運(yùn)動(dòng)?

          吳恩達(dá):“以數(shù)據(jù)為中心的AI”是一個(gè)系統(tǒng)的學(xué)科,旨在將關(guān)注點(diǎn)放在構(gòu)建AI系統(tǒng)所需的數(shù)據(jù)上。對(duì)于AI系統(tǒng),用代碼實(shí)現(xiàn)算法,然后在數(shù)據(jù)集上訓(xùn)練是非常必要的。過(guò)去十年,人們一直在遵循“下載數(shù)據(jù)集,改進(jìn)代碼”這一范式,多虧了這種范式,深度學(xué)習(xí)獲得了巨大的成功。

          但對(duì)許多應(yīng)用程序來(lái)說(shuō),代碼—神經(jīng)網(wǎng)絡(luò)架構(gòu),已經(jīng)基本解決,不會(huì)成為大的難點(diǎn)。因此保持神經(jīng)網(wǎng)絡(luò)架構(gòu)固定,尋找改進(jìn)數(shù)據(jù)的方法,才會(huì)更有效率。

          當(dāng)我最開始提這件事的時(shí)候,也有許多人舉手贊成:我們已經(jīng)按照“套路”做了20年,一直在憑直覺做事情,是時(shí)候把它變成一門系統(tǒng)的工程學(xué)科了。

          “以數(shù)據(jù)為中心的AI”遠(yuǎn)比一家公司或一群研究人員要大得多。當(dāng)我和朋友在NeurIPS上組織了一個(gè)“以數(shù)據(jù)為中心的AI”研討會(huì)時(shí)候,我對(duì)出席的作者和演講者的數(shù)量感到非常高興。

          IEEE:大多數(shù)公司只要少量數(shù)據(jù),那么“以數(shù)據(jù)為中心的AI”如何幫助他們?

          吳恩達(dá):我曾用3.5億張圖像構(gòu)建了一個(gè)人臉識(shí)別系統(tǒng),你或許也經(jīng)常聽到用數(shù)百萬(wàn)張圖像構(gòu)建視覺系統(tǒng)的故事。但這些規(guī)模產(chǎn)物下的架構(gòu),是無(wú)法只用50張圖片構(gòu)建系統(tǒng)的。事實(shí)證明。如果你只有50張高質(zhì)量的圖片,仍然可以產(chǎn)生非常有價(jià)值的東西,例如缺陷系統(tǒng)檢測(cè)。在許多行業(yè),大數(shù)據(jù)集并不存在,因此,我認(rèn)為目前必須將重點(diǎn)“從大數(shù)據(jù)轉(zhuǎn)移到高質(zhì)量數(shù)據(jù)”。其實(shí),只要擁有50個(gè)好數(shù)據(jù)(examples),就足以向神經(jīng)網(wǎng)絡(luò)解釋你想讓它學(xué)習(xí)什么。

          吳恩達(dá):使用50張圖片訓(xùn)練什么樣的模型?是微調(diào)大模型,還是全新的模型?

          吳恩達(dá):讓我講一下Landing AI的工作。在為制造商做視覺檢查時(shí),我們經(jīng)常使用訓(xùn)練模型,RetinaNet,而預(yù)訓(xùn)練只是其中的一小部分。其中更難的問(wèn)題是提供工具,使制造商能夠挑選并以相同的方式標(biāo)記出正確的用于微調(diào)的圖像集。這是一個(gè)非常實(shí)際的問(wèn)題,無(wú)論是在視覺、NLP,還是語(yǔ)音領(lǐng)域,甚至連標(biāo)記人員也不愿意手動(dòng)標(biāo)記。在使用大數(shù)據(jù)時(shí),如果數(shù)據(jù)參差不齊,常見的處理方式是獲取大量的數(shù)據(jù),然后用算法進(jìn)行平均處理。但是,如果能夠開發(fā)出一些工具標(biāo)記數(shù)據(jù)的不同之處,并提供非常具有針對(duì)性的方法改善數(shù)據(jù)的一致性,這將是一個(gè)獲得高性能系統(tǒng)的更有效的方法。

          例如,如果你有10,000張圖片,其中每30張圖片一組,這30張圖片的標(biāo)記是不一致的。我們所要做的事情之一就是建立工具,能夠讓你關(guān)注到這些不一致的地方。然后,你就可以非常迅速地重新標(biāo)記這些圖像,使其更加一致,這樣就可以使性能得到提高。

          IEEE:您認(rèn)為如果能夠在訓(xùn)練前更好地設(shè)計(jì)數(shù)據(jù),那這種對(duì)高質(zhì)量數(shù)據(jù)的關(guān)注是否能幫助解決數(shù)據(jù)集的偏差問(wèn)題?

          吳恩達(dá):很有可能。有很多研究人員已經(jīng)指出,有偏差的數(shù)據(jù)是導(dǎo)致系統(tǒng)出現(xiàn)偏差的眾多因素之一。其實(shí),在設(shè)計(jì)數(shù)據(jù)方面也已經(jīng)有了很多努力。NeurIPS研討會(huì)上,Olga Russakovsky就這個(gè)問(wèn)題做了一個(gè)很棒的演講。我也非常喜歡Mary Gray在會(huì)上的演講,其中提到了“以數(shù)據(jù)為中心的AI”是解決方案的一部分,但并不是解決方案的全部。像Datasheets for Datasets這樣的新工具似乎也是其中的重要部分。

          “以數(shù)據(jù)為中心的AI”賦予我們的強(qiáng)大工具之一是:對(duì)數(shù)據(jù)的單個(gè)子集進(jìn)行工程化的能力。想象一下,一個(gè)經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)還不錯(cuò),卻只在數(shù)據(jù)的一個(gè)子集上產(chǎn)生了偏差。這時(shí)候,如果要為了提高該子集的性能,而改變整個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu),這是相當(dāng)困難的。但是,如果能僅對(duì)數(shù)據(jù)的一個(gè)子集進(jìn)行設(shè)計(jì),那么就可以更有針對(duì)性的解決這個(gè)問(wèn)題。

          IEEE:您說(shuō)的數(shù)據(jù)工程具體來(lái)講是什么意思?

          吳恩達(dá):在人工智能領(lǐng)域,數(shù)據(jù)清洗很重要,但數(shù)據(jù)清洗的方式往往需要人工手動(dòng)解決。在計(jì)算機(jī)視覺中,有人可能會(huì)通過(guò)Jupyter notebook將圖像可視化,來(lái)發(fā)現(xiàn)并修復(fù)問(wèn)題。

          但我對(duì)那些可以處理很大數(shù)據(jù)集的工具感興趣。即使在標(biāo)記很嘈雜的情況下,這些工具也能快速有效地將你的注意力吸引到數(shù)據(jù)的單個(gè)子集上,或者快速將你的注意力引向100個(gè)分組中的一個(gè)組中,在那里收集更多數(shù)據(jù)會(huì)更有幫助。收集更多的數(shù)據(jù)往往是有幫助的,但如果所有工作都要收集大量數(shù)據(jù),可能會(huì)非常昂貴。

          例如,我有次發(fā)現(xiàn),當(dāng)背景中有汽車噪音時(shí),有一個(gè)語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)會(huì)很差。了解了這一點(diǎn),我就可以在汽車噪音的背景下收集更多的數(shù)據(jù)。而不是所有的工作都要收集更多的數(shù)據(jù),那樣處理起來(lái)會(huì)非常昂貴且費(fèi)時(shí)。

          IEEE:那使用合成數(shù)據(jù)會(huì)是一個(gè)好的解決方案嗎?

          吳恩達(dá):我認(rèn)為合成數(shù)據(jù)是“以數(shù)據(jù)為中心的AI”工具箱中的一個(gè)重要工具。在NeurIPS研討會(huì)上,Anima Anandkumar做了一個(gè)關(guān)于合成數(shù)據(jù)的精彩演講。我認(rèn)為合成數(shù)據(jù)的重要用途,不僅僅表現(xiàn)在預(yù)處理中增加學(xué)習(xí)算法數(shù)據(jù)集。我希望看到更多的工具,讓開發(fā)者使用合成數(shù)據(jù)生成成為機(jī)器學(xué)習(xí)迭代開發(fā)閉環(huán)中的一部分。

          IEEE:您的意思是合成數(shù)據(jù)可以讓你在更多的數(shù)據(jù)集上嘗試模型嗎?

          吳恩達(dá):并非如此。比方說(shuō),智能手機(jī)上有許多不同類型的缺陷,如果要檢測(cè)智能手機(jī)外殼的缺陷,那可能會(huì)是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。若你訓(xùn)練了模型,然后通過(guò)誤差分析發(fā)現(xiàn)總體上它的表現(xiàn)很好,但在坑痕上表現(xiàn)得很差,那么合成數(shù)據(jù)的生成就可以讓你以更有針對(duì)性地解決這個(gè)問(wèn)題。你可以只為坑痕類別生成更多的數(shù)據(jù)。

          IEEE:您可以舉例具體說(shuō)明嗎?若一家公司找到Landing AI,并說(shuō)他們?cè)谝曈X檢查方面有問(wèn)題時(shí),您將如何說(shuō)服他們?您又將給出怎樣的解決方案呢?

          吳恩達(dá):合成數(shù)據(jù)生成是一個(gè)非常強(qiáng)大的工具,但我通常會(huì)先嘗試許多更簡(jiǎn)單的工具。比如說(shuō)用數(shù)據(jù)增強(qiáng)來(lái)改善標(biāo)簽的一致性,或者只是要求廠家收集更多的數(shù)據(jù)。

          當(dāng)客戶找到我們時(shí),我們通常會(huì)先就他們的檢測(cè)問(wèn)題進(jìn)行交談,并查看一些圖像,以驗(yàn)證該問(wèn)題在計(jì)算機(jī)視覺方面是否可行。假若可行,我們會(huì)要求他們將數(shù)據(jù)上傳到LandingLens平臺(tái)。我們通常根據(jù)“以數(shù)據(jù)為中心的AI”方法向他們提供建議,并幫助他們對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。

          Landing AI關(guān)注的重點(diǎn)之一是讓制造企業(yè)自己做機(jī)器學(xué)習(xí)的工作。我們的很多工作都是為了軟件的便捷使用。通過(guò)對(duì)機(jī)器學(xué)習(xí)的開發(fā)迭代,我們?yōu)榭蛻籼峁┝巳绾卧谄脚_(tái)上訓(xùn)練模型,以及如何改進(jìn)數(shù)據(jù)標(biāo)記問(wèn)題來(lái)提高模型的性能等很多建議。我們的訓(xùn)練和軟件在此過(guò)程中會(huì)一直發(fā)揮作用,直到將訓(xùn)練好的模型部署到工廠的邊緣設(shè)備上。

          IEEE:那您如何應(yīng)對(duì)不斷變化的需求?如果產(chǎn)品發(fā)生變化或是工廠的照明條件發(fā)生變化,在這樣的情況下,模型能適應(yīng)嗎?

          吳恩達(dá):這要因制造商而異。在很多情況下都有數(shù)據(jù)偏移,但也有一些制造商已經(jīng)在同一生產(chǎn)線上運(yùn)行了20年,幾乎沒有什么變化,所以在未來(lái)5年內(nèi)他們也不期望發(fā)生變化,環(huán)境穩(wěn)定事情就變得更容易了。對(duì)于其他制造商,在出現(xiàn)很大的數(shù)據(jù)偏移問(wèn)題時(shí)我們也會(huì)提供工具進(jìn)行標(biāo)記。我發(fā)現(xiàn)使制造業(yè)的客戶能夠自主糾正數(shù)據(jù)、重新訓(xùn)練和更新模型真的很重要。比如現(xiàn)在是美國(guó)的凌晨3點(diǎn),一旦出現(xiàn)變化,我希望他們能夠自行立即調(diào)整學(xué)習(xí)算法,以維持運(yùn)營(yíng)。

          在消費(fèi)類軟件互聯(lián)網(wǎng)中,我們可以訓(xùn)練少數(shù)機(jī)器學(xué)習(xí)模型來(lái)為10億用戶服務(wù)。而在制造業(yè),你可能有10,000 制造商定制10,000 個(gè)人工智能模型。所面臨的挑戰(zhàn)是,Landing AI 在不雇用10,000名機(jī)器學(xué)習(xí)專家的情況下,如何做到這一點(diǎn)?

          IEEE:所以為了提高質(zhì)量,必須授權(quán)用戶自己進(jìn)行模型訓(xùn)練?

          吳恩達(dá):是的,完全正確!這是一個(gè)全行業(yè)的AI問(wèn)題,不僅僅是在制造業(yè)。例如在醫(yī)療領(lǐng)域,每家醫(yī)院電子病歷的格式略有不同,如何訓(xùn)練定制自己的AI模型?期望每家醫(yī)院的IT人員重新發(fā)明神經(jīng)網(wǎng)絡(luò)架構(gòu)是不現(xiàn)實(shí)的。因此,必須構(gòu)建工具,通過(guò)為用戶提供工具來(lái)設(shè)計(jì)數(shù)據(jù)和表達(dá)他們的領(lǐng)域知識(shí),從而使他們能夠構(gòu)建自己的模型。

          IEEE:您還有什么需要讀者了解的么?

          吳恩達(dá):過(guò)去十年,人工智能最大的轉(zhuǎn)變是深度學(xué)習(xí),而接下來(lái)的十年,我認(rèn)為會(huì)轉(zhuǎn)向以數(shù)據(jù)為中心。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟,對(duì)于許多實(shí)際應(yīng)用來(lái)說(shuō),瓶頸將會(huì)存在于“如何獲取、開發(fā)所需要的數(shù)據(jù)”。以數(shù)據(jù)為中心的AI在社區(qū)擁有巨大的能量和潛力,我希望能有更多的研究人員加入!

          1. 準(zhǔn)備寫本書
          2. 【虎年大吉】技術(shù)年貨大禮包
          3. Pytorch 常用損失函數(shù)拆解
          4. 人人都能看懂的EM算法推導(dǎo)
          5. 人工智能基礎(chǔ)設(shè)施發(fā)展態(tài)勢(shì)報(bào)告2021
          6. 騰訊發(fā)布國(guó)內(nèi)首份可解釋 AI 報(bào)告!

          三連在看,月入百萬(wàn)??

          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91麻豆精品国产91久久久久久久久 | 操逼一级好看毛片 | 亚洲天堂中文字幕 | av天堂中文在线 AV无码免费观看 www.手机av | 成人777|