<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          鄧力:轉動語音深度學習飛輪的人 | 深度學習崛起十年

          共 11747字,需瀏覽 24分鐘

           ·

          2022-05-29 20:05


          鄧力、俞棟、何曉冬......2012年,深度學習在計算機視覺領域爆發(fā)之前,他們已經(jīng)推動了深度學習在語音領域的落地突破。

          作者?|?陳鷺伊

          編輯 | 岑峰

          編者按:2012年,在這一年的 ImageNet 挑戰(zhàn)賽上,深度神經(jīng)網(wǎng)絡 AlexNet 一騎絕塵,以錯誤率降低40%、遠超第二名的成績拿到了比賽的冠軍。以此為標志,深度學習開始逐漸成為人工智能研究的主流技術,基于Hinton及眾多先驅提出的深度學習理念框架推動了語音識別、圖像識別、機器翻譯、自然語言處理和機器人技術從“孤軍奮戰(zhàn)”走向協(xié)作,引發(fā)了人工智能大規(guī)模落地的浪潮。
          一項突破性技術發(fā)展的背后,不僅需要長時間的積累和醞釀,更離不開少數(shù)遠見者堅持不懈的持續(xù)推動。而在這一波深度學習崛起的浪潮中,有一批華人學者深度參與其中,成為推動深度學習與人工智能進步的重要力量。值此深度學習崛起十周年之際,雷峰網(wǎng)設立“深度學習崛起十年”系列,通過回顧深度學習的發(fā)展歷程, 以“十年十個故事”的方式,展現(xiàn)華人研究者們對深度學習的推動,致敬這一波深度學習浪潮中的中國元素。
          本文是“深度學習崛起十年”系列的第一篇。

          1


          序幕:一條期盼已久的消息

          2012年10月的一天,微軟研究院(MSR)語音研究首席研究員鄧力受邀,從美國西海岸的西雅圖,橫跨美國大陸,前往位于美國東海岸的巴爾的摩、語音和語言處理研究的殿堂CLSP做演講。

          鄧力在雷峰網(wǎng)GAIR 2019大會現(xiàn)場
          CLSP的全稱是約翰霍普金斯大學的語言和語音處理中心(The Johns Hopkins University Center for Language and Speech Processing),由提出了統(tǒng)計語音識別框架的著名學者賈里尼克(Frederick Jelinek)于1992年創(chuàng)立。每年夏天,中心都會邀請世全球20-30名頂級的科學家和學術新星、學生到CLSP一起工作,并舉辦側重于語音和語言工程的研討會(Johns Hopkins Summer Workshop),多年來每屆研討會的研究成果對于大詞匯量連續(xù)語音識別(LVCSR),自然語言處理(NLP)及對話等領域產(chǎn)生了廣泛的影響,這也使得CLSP成為世界上語音和語言處理的中心之一。
          鄧力演講的題目是New Waves of Innovation in Large-Scale Speech Technology Ignited by Deep Learning。就在等待登臺演講的時候,正在瀏覽郵件的鄧力看到了一條由多倫多大學的Geoffrey Hinton親自發(fā)給他的郵件:Hinton的團隊在該周ImageNet 的ILSVRC挑戰(zhàn)賽中以壓倒性的優(yōu)勢獲得第一,將圖像識別錯誤率從26%降低到了16%,錯誤率降低了將近40%。Hinton 在郵件中特別提醒鄧力“ … look at this huge margin!!!”
          這也是鄧力期盼已久的一條消息。
          盡管當時不少人對深度學習持懷疑態(tài)度,但鄧力對此深信不疑。在他看來,Hinton在ILSVRC挑戰(zhàn)賽取得成功是一件自然而然的事:作為與Hinton在深度學習領域最早的合作者,鄧力及其同事俞棟、Frank Seide等將深度學習成功應用于語音識別,并將錯誤率降低了30%以上。
          這是你的勝利,也是我的勝利。
          這是深度學習的勝利,也是神經(jīng)網(wǎng)絡的勝利!

          2


          深度學習的第一次成功,從語音開始

          鄧力對神經(jīng)網(wǎng)絡的“誤會”消除于2008年。
          鄧力對神經(jīng)網(wǎng)絡并不陌生。他1977年考入中國科學技術大學生物系(778班),本科的專業(yè)是神經(jīng)科學和生物物理學,真正接觸人工神經(jīng)網(wǎng)絡是在威斯康星大學麥迪遜分校攻讀電氣工程方向的博士期間,鄧力在語音方面的研究也是始于彼時。
          在博士期間,鄧力嘗試創(chuàng)建人類聽覺模擬和語音識別神經(jīng)模型,然而進展并不順利。不僅神經(jīng)網(wǎng)絡的理論還有待進一步完善,當時的計算機也無法提供足夠的計算能力,這也使得鄧力在神經(jīng)網(wǎng)絡方向上的研究舉步維艱。
          博士畢業(yè)后,鄧力加入加拿大滑鐵盧大學任教,期間仍在從事神經(jīng)網(wǎng)絡方面的研究。其中他與他的一名學生Khaled Hassanein (現(xiàn)任教于加拿大的McMaster大學)在1993年提出了一種增強神經(jīng)網(wǎng)絡記憶的新模型。這也是Khaled Hassanein 的博士論文題目,這一研究實現(xiàn)了一個可用于語音識別的完整系統(tǒng),但性能仍無法超越隱馬爾科夫模型。
          鄧力邀請了 Geoffrey Hinton作為這篇博士論文的外審審稿人。在讀過論文后,Hinton告訴鄧力,受各種條件限制,現(xiàn)階段神經(jīng)網(wǎng)絡恐怕難以取得進一步的突破。這也使得鄧力將精力從神經(jīng)網(wǎng)絡的研究轉向貝葉斯統(tǒng)計方法和生成模型研究上。
          但鄧力仍然是神經(jīng)網(wǎng)絡圈子的一員。他是神經(jīng)信息處理領域的頂級學術會議NIPS的???,2008年12月的NIPS上,鄧力與Hinton再度見面。
          2008年NIPS的主會場設在溫哥華,但大會的專項研討會(Workshop)安排在了距溫哥華一小時半車程的滑雪度假村Hilton Whistler Resort and Spa——這也是NIPS的慣例,該會議在2010年以前一直在滑雪勝地的Whistler舉行。
          鄧力和他的同事何曉冬在這一年的NIPS上舉辦了一場語音語言研討會(NIPS Workshop on Speech and Language: Learning-based Methods and Systems),并請來Hinton做報告。Hinton告訴鄧力,自己開始用一種新的方法深度學習處理語音問題,而且取得了不錯的結果。
          這讓鄧力大為感到意外。在他的印象中,Hinton從未涉足語音方面的研究,而且過去神經(jīng)網(wǎng)絡少有明顯高出其他方法的成功案例。兩人約定事后再詳細進行討論。
          在后續(xù)的郵件討論中,Hinton又給鄧力發(fā)來了一篇新論文的草稿,論文表明,在用三個小時的語音數(shù)據(jù)進行訓練的神經(jīng)網(wǎng)絡達到了和鄧力所采用的基于生成式五層動態(tài)貝葉斯網(wǎng)絡的方法相媲美的水準。由于雙方使用的語音數(shù)據(jù)的測試集不同,鄧力對此仍持保留態(tài)度,他決定邀請Hinton到微軟總部進行訪問,以便可以在同樣的數(shù)據(jù)集下比較哪一種方法更優(yōu)。

          鄧力(左)與Geoffrey Hinton
          2009年十一月,Hinton如約到來,他和鄧力一起克服了種種困難,用MATLAB搭建了一個語音識別神經(jīng)網(wǎng)絡的原型。Hinton負責了大部分關于深度波爾茲曼預訓練模型代碼的編寫,代碼的簡潔流暢讓鄧力嘆為觀止。當模型開始使用微軟的語音數(shù)據(jù)進行訓練時,鄧力馬上感到了不同:雖然比起SOTA還略有差距,但這足以讓鄧力意識到,深度學習的方法是有用的。經(jīng)過詳細的誤差分析和基于以往研究經(jīng)驗的推理,他意識到即便只用簡單的算法,只要用大量數(shù)據(jù)進行訓練,即便不用波爾茲曼預訓練模型也可能得到出色的結果。
          圍繞這一研究的相關成果,2009年鄧力和Hinton以及微軟的同事俞棟三人又在NIPS 上共同組織舉辦了一個深度學習在語音研究的應用的研討會(2009 Workshop on Deep Learning for Speech Recognition and Related Applications)。
          處理更多的數(shù)據(jù)需要搭建新的系統(tǒng)。Hinton告訴鄧力,他需要花費至少一萬美元去購買Nvidia的GPU來完善這一項目。鄧力的老板Alex Acero聽聞后勸說鄧力不必花大價錢買GPU,去Fry's electronics store買通用顯卡搭建系統(tǒng)會便宜一些, 然后在滿足了對神經(jīng)網(wǎng)絡的好奇心之后回收這些便宜的顯卡。但Hinton認為便宜的硬件不僅發(fā)熱量更大,而且以模型所需要的計算能力,購買通用顯卡搭建系統(tǒng)可能會花費更多。最終,鄧力用自己掌控的研究經(jīng)費買了三塊Hinton推薦的GPU著手大數(shù)據(jù)的語音識別實驗,并在2010年再度邀請Hinton前來訪問。
          經(jīng)過過去一年的宣傳,“深度學習”的概念開始為更多人所知。而Hinton這第二次訪問的顧問費也比去年翻了一番,漲到了2000美元/天。此前,Hinton的兩位研究生Abdelrahman Mohamed 和 George Dahl也來到微軟,推進這一研究。
          George Dahl正是推進鄧力小組深度學習項目的關鍵人物——盡管在后來的采訪中,George Dahl笑稱他不了解語音,他開始做語音相關研究的唯一原因是因為Hinton的其他學生“都在做視覺方面的研究”,但他在GPU方面的的豐富經(jīng)驗對于這個研究項目起到了巨大的推動作用。
          這也是深度神經(jīng)網(wǎng)絡在工業(yè)界的大型語音識別上的革命性突破:在學習了大量數(shù)據(jù)后,盡管暫時拋棄了相對復雜的深度波爾茲曼預訓練模型,Hinton的多層建模和鄧力、俞棟提出的用senone建模結合、共同設計的語音原型性能依然超越了其他方法,包括鄧力之前發(fā)明的基于五層動態(tài)貝葉斯網(wǎng)絡的方法,在人工智能的歷史上,這是過去其他方法都不曾達到的一個里程碑。

          3


          猶豫中的前行

          盡管微軟很早就開始斥巨資投入人工智能研究,并雇傭了一批當時頂尖的人工智能學家,但在神經(jīng)網(wǎng)絡和深度學習崛起并在其他領域開始取得成效的時候,這種歷史積累反而成了讓微軟更進一步的阻礙,在微軟高層、尤其是技術高層仍對神經(jīng)網(wǎng)絡與深度學習持懷疑態(tài)度。
          2010年,鄧力迎來了一位大老板:曾任卡內(nèi)基梅隆大學計算機系系主任的Peter Lee來到微軟,擔任微軟雷德蒙研究院(MSR Redmond)院長。隨后,他全面負責微軟美國境內(nèi)研究項目的運營,直到2013年7月全面接手微軟研究院。Peter Lee上任的第一件事就是對研究院的項目及開支進行審核,當他看到鄧力項目組的開支時,他大吃一驚。
          Peter Lee從80年代在卡內(nèi)基梅隆大學任教時就認識Hinton。后來在紐約時報記者凱德·梅斯的一次采訪中,Peter自己提到,和當時的主流學者一樣,他認為Hinton的神經(jīng)網(wǎng)絡“非?;闹嚒保圚inton和他的學生、購買GPU的經(jīng)費、NIPS研討會的費用在他看來純屬浪費。但在他來到微軟之前,這筆費用早已進入了執(zhí)行階段了。
          Peter Lee的態(tài)度也影響到了Hinton與微軟的合作。此前Hinton曾口頭答應鄧力,后面還會將他的另一名博士生Alex Krizhevsky(后來成為AlexNet論文第一作者。Alex Krizhevsky 和鄧力至今保持良好關系,不僅Krizhevsky十年前險些到微軟當他語音組的實習生,近年鄧力在離開微軟后還險些為 Citadel雇來了Krizhevsky)送來微軟讓鄧力帶領他實習,但后來Hinton改變了主意。Abdelrahman Mohamed在結束微軟的實習后去往IBM,另一名從事深度學習在語音領域應用研究的學生Navdeep Jaitly則去往Google,微軟和Hinton漸行漸遠。
          后來Hinton在2012年NIPS大會上舉行競拍選擇他的新東家時,他事后告訴鄧力,他在潛意識里已經(jīng)將微軟排除在外,這不是錢的問題(否則他也不會在4400萬美元的出價上叫停),而是審核制度的問題。微軟的審核制度和風格或許適合銷售人員,但“絕不適合研究者?!?/span>
          Hinton 讓鄧力將這個看法轉送給當時任微軟CEO的Steve Balmer。數(shù)月后,微軟對員工的審核制度果然取消了 “stack ranking”。而鄧力和Hinton合作的那篇近代語音識別歷史上被引用最多、2012年12月發(fā)表的文章《Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups》,在2011年就已寫好初稿。但Hinton建議鄧力將其學生在Google和 IBM的相關研究也包含在這篇文章中,這樣可以讓兩家公司的研究員們在之后寫論文時主動引用這篇文章,增加文章的影響力。
          事實證明了Hinton是對的。該論文不僅總結了深度神經(jīng)網(wǎng)絡對語音識別的影響,還闡述了如何將包括深度神經(jīng)網(wǎng)絡的方法在內(nèi)的不同的機器學習方法整合起來為大規(guī)模的語音識別帶來重大的進展。目前該文章的引用量已超過11000次。
          另一方面,按凱德·梅斯的書中提到,盡管后來Peter Lee看到了鄧力在使用深度學習在語音識別上取得的突破,但他仍認為這是“瞎貓碰到了死耗子”,猜測這一成功無法被復制到其他領域的研究中。后來在2012年7月,Peter Lee飛往猶他州Snowbird參加兩年一度的CRA會議(該會議的特色是在會議期間舉辦的美國計算機系主任論壇,屬于計算機系主任們的小圈子),會上Google的Jeff Dean受邀發(fā)表了關于深度學習的演講。Peter從Snowbird返回后專程找了一趟鄧力,希望鄧力能為他解答為什么Jeff Dean會對深度學習如此“上頭”。
          鄧力試圖向Peter Lee解釋Jeff Dean的DistBelief 論文及其內(nèi)容,以及Google這個微軟的主要競爭對手正在修建面向未來的基礎設施。但Peter Lee打斷了鄧力,告知鄧力根據(jù)NIPS的規(guī)定,在論文發(fā)表前不得對其進行談論。
          雖然鄧力接下來繼續(xù)和Peter Lee討論深度學習技術的演變趨勢,但Peter Lee仍然堅信語音識別是一回事,但圖像識別又是另一回事,而Google就是一個大把撒幣的敗家子。但Peter Lee最后還是為鄧力安排了一個專門會議,希望他能夠向研究院資深研究者及公司高管講述深度學習的進展。
          會議安排在園區(qū)的另一棟大樓的大會議室,共有20余名資深研究者和高管參加了會議。鄧力的演示并不順利,當他開始講解的時候,計算機視覺領域的資深研究者Paul Viola打斷了他。“神經(jīng)網(wǎng)絡從未取得成功?!?/span>
          Viola甚至走到了臺前,把鄧力筆記本電腦的投影連接線拔掉接到了自己的電腦上。屏幕上出現(xiàn)的是明斯基和佩珀編寫、1969年的出版的《感知機》一書的封面,正是這本書對神經(jīng)網(wǎng)絡的批判導致了神經(jīng)網(wǎng)絡“失落的二十年”,這是任何一位神經(jīng)網(wǎng)絡研究者都不愿觸及的“傷疤”。
          鄧力試圖繼續(xù)他的演講,但仍被Paul Viola多次打斷。直到參加了這個會議的另一位高管陸奇仗義直言,這是鄧力的演講,才讓鄧力得以完成自己的演講。
          陸奇是鄧力在微軟的少數(shù)支持者之一。他當時的職位是微軟執(zhí)行副總裁和Bing項目的負責人,也是在全球科技公司總部所任職位最高級別的大陸華人。與其他微軟高管不同的是,在參加這個會議前,陸奇參加了在硅谷舉辦的年度黑客活動Foo Camp 2012,在活動中陸奇注意到了AI領域的華人新星吳恩達和他介紹的深度學習成為了活動的焦點,而吳恩達正是與Jeff Dean一同創(chuàng)建了Google Brain項目。
          在Foo Camp后的幾周時間里,陸奇專門抽出時間閱讀了一系列關于深度學習的論文,當鄧力向技術專家和高管介紹深度學習的時候,陸奇所詢問的問題也頗為到位。就在會議之后數(shù)周,鄧力收到了Hinton的電話,Hinton告知鄧力百度愿意給他開出1200萬美元的Offer,所以他不愿意再次到微軟的鄧力語音組繼續(xù)做顧問。鄧力將這一信息轉發(fā)給陸奇,陸奇轉而建議微軟研究院加入Hinton的爭奪,但微軟對此仍在猶豫。

          4


          全面開花

          相比起微軟總部的謹慎,當深度學習浪潮來臨之時,微軟的中國同行們要積極得多。
          從某種意義上來說,幾乎每年都會返回中國參加學術交流的鄧力算得上是中國深度學習應用于語音研究的布道者。2010年9月21日,鄧力和俞棟受中科大信息科學技術學院李衛(wèi)平院長邀請到中科大交流,科大訊飛也有不少人參加了這次交流會。俞棟分享了將神經(jīng)網(wǎng)絡應用于語音識別的最新成果,這也使得科大訊飛成為了除微軟總部之外,首先詳細了解這一研究并著手跟進研究的團隊之一。
          在結束中科大的交流后,鄧力和俞棟才繼續(xù)前往微軟亞洲研究院進行交流。在中科大交流之后的幾天后,俞棟首次在微軟亞洲研究院聲學組的一次內(nèi)部討論中提及使用深度神經(jīng)網(wǎng)絡和senones建模的相關研究,正是在這次內(nèi)部討論中,微軟亞洲研究院聲學組的高級研究員Frank Seide意識到了這一研究的價值,他隨即加入該項目,與俞棟一起,兩支團隊精誠合作,推進該項目的研究。
          2012年10月25日,微軟大老板之一、負責全球技術的副總裁Richard Rashid在天津舉行的“二十一世紀的計算”學術研討會上當場演示用深度學習做語音識別,將英文識別后,用機器翻譯成中文,再用語音合成的方法產(chǎn)生中文語音——也就是說,他在上面講英文,觀眾可以直接聽到和他音色很像的中文——整場演示非常成功,幾乎沒有錯誤。
          這也引起了產(chǎn)業(yè)界的轟動,揭開了語音識別產(chǎn)業(yè)應用的新一頁。紐約時報2012年11月份頭版頭條專門發(fā)布了一篇文章報道深度學習的進展,這篇文章的作者John Markoff親自飛到西雅圖的微軟采訪鄧力,之前也采訪了Hinton。

          Richard Rashid在2012年“二十一世紀的計算”學術研討會上的演講
          Richard Rashid向紐約時報表示,相比起之前的語音識別系統(tǒng),新的深度學習技術使得錯誤率降低了30%以上。經(jīng)歷此事的微軟也一改過去對深度學習的偏見,以更積極地態(tài)度參與到Hinton爭奪戰(zhàn)當中。
          但此時微軟和競爭者們注定要付出更高的成本。深度學習已全面開花,勢不可擋。
          2012年10月,在佛羅倫薩舉辦的ECCV上,Hinton和他的學生Alex Krizhevsky和Ilya Sutskever將ILSVRC的圖像識別錯誤率從26%降低到了16%,錯誤率降低近40%。得知深度學習在計算機視覺領域的突破,NIPS大會組委會緊急為Hinton安排了一個Keynote演講,AlexNet的論文也被NIPS 2012接收和發(fā)表。今年正是這篇論文發(fā)表的第10年,不出意外的話,這篇被引用超過10萬次的論文將會在今年12月的NeurIPS上被授予大會的“時間檢驗獎”。
          毫無疑問,這篇文章的分量已經(jīng)遠遠超過了一個“時間檢驗獎”。甚至可以說,這篇文章加速了NIPS從神經(jīng)科學向神經(jīng)網(wǎng)絡與機器學習過渡的學術氛圍,使得更多機器學習的研究者關注并參與到NIPS中來。到2018年改名NeurIPS時,NIPS已被人工智能圈子公認為最具影響力的機器學習學術會議。
          但相比起偏學術性的ILSVRC,進一步引爆產(chǎn)業(yè)界熱情的是同月結束的另一場競賽Merck Molecular Activity Challenge。該競賽由醫(yī)藥巨頭默克集團贊助,旨在設計軟件以幫助尋找可能產(chǎn)生新藥的分子。Hinton團隊最后一刻決定參加比賽,不僅在設計軟件時沒有具體了解分子如何與其目標結合,更是在較小的數(shù)據(jù)集下超越了其他方法,獲得了比賽的冠軍。
          競賽的主辦方Kaggle 的首席執(zhí)行官兼創(chuàng)始人 Anthony Goldbloom 的評價是:“這是一個非常驚人的結果,因為這是深度學習第一次獲勝,而且更重要的是,它在一個預期不會獲勝的數(shù)據(jù)集上獲勝(因為神經(jīng)網(wǎng)絡通常只在非常大的網(wǎng)絡上表現(xiàn)良好)?!?/span>
          也正是在這個時候,百度為Hinton開出了1200萬美元的Offer,希望Hinton為百度效力。
          Hinton意識到百度及其競爭對手更有可能斥巨資收購一家公司,于是在征詢了百度和律師的意見后,他創(chuàng)建了一家名為 DNNresearch的公司,并在NIPS 2012期間安排了一個競拍會,價高者得。
          參加競拍會的有四家公司:Google、百度、微軟和Deepmind,鄧力間接代表微軟參與了對DNNresearch的競標。多輪出價后,Hinton最終在4400萬美元的價格叫停了競拍,Google成為了贏家。
          競標結束后,鄧力登上了飛往北京的航班。鄧力的鄰座是百度的余凱,余凱于2012年4月加入百度,領導新成立的百度多媒體部。余凱也是NIPS華人圈子中的活躍者,早在2008年就在NIPS上發(fā)表過深度學習的論文(Deep Learning with Kernel Regularization for Visual Recognition)。2009年鄧力與Hinton在NIPS舉辦研討會研討會時,當時就是鄧力親自駕車,帶著余凱和其他兩位研究者從溫哥華前往Whistler的分會場。
          和鄧力一樣,余凱也代表百度參與了對Hinton的競標。在飛機上,兩人花了幾個小時來討論深度學習的話題。由于Hinton的競拍是保密的,雙方都不約而同避開了與競拍相關的話題;但或許也正因為這種刻意的回避,兩人都隱約猜到了對方的隱藏身份,他們意識到,新的競爭即將到來。

          5


          走出語音識別的圍墻

          余凱后來在接受外媒采訪時承認,在競拍結束后,他猜到Hinton可能會加入Google或者某一家美國公司,因為Hinton背部受傷無法搭乘飛機,他不大可能到中國旅行。雖然沒有獲得競拍的成功,但他的目的已達到:通過這場競拍,百度的智囊團已經(jīng)意識到深度學習在未來幾年的重要性,也將會在深度學習上投入更多資源。
          對于鄧力來說也是同樣的道理。盡管對深度學習充滿信心,在之前的項目中,他不得不做好兩手準備,避免投入過多的資源,以免萬一無法取得預想的成果壓力太大。在微軟參加競拍后,他總算可以放開手腳做研究了。
          鄧力此前和Hinton的合作項目中公司內(nèi)部的主要合作者是俞棟。俞棟在國內(nèi)讀完碩士后留學美國,分別在印第安納大學及美國愛達荷大學獲得計算機碩士和博士學位。他在2002年進入微軟研究院語音和對話組,提出了以senones為最小建模單元直接建模的方法,和鄧力一起為語音識別做出了開創(chuàng)性的研究。2009年NIPS上鄧力和Hinton合辦的那場Workshop,俞棟也是組織者之一。
          就在參加與Hinton競拍之前,鄧力和俞棟開始著手做了一項NIPS的相關工作:當時雖然NIPS上發(fā)表的神經(jīng)網(wǎng)絡的內(nèi)容不多,但已經(jīng)呈現(xiàn)出明顯的增長趨勢。鄧力和俞棟便一起把從2008年-2011年NIPS上關于神經(jīng)網(wǎng)絡與深度學習相關的論文以及在語音、計算機視覺、機器翻譯等方向的應用匯總起來并進行分析寫了一本書,書名就叫做《Deep Learning — Methods and Applications》(中譯名《深度學習:方法及應用》,2016年3月機械工業(yè)出版社出版)
          關于這本書的編寫還有一個小插曲。當時這本書交到出版社,出版社找的編審是深度學習三巨頭之一的Yoshua Bengio,Bengio看到這本書后不僅“搭便車”把這本書的時間跨度拉長,還加上了20頁左右的評語(大約占到這本書的1/10), 暢談自己對深度學習研究的理解及成果。
          他還建議鄧力,與其面面俱到,不如攻其一點,將深度學習在語音識別的方法和成果進行更深入的描寫。鄧力和俞棟商量后回復出版社:這個提議很有道理,我們會另外再出一本這樣的書。后來基于深度學習的語音識別技術發(fā)展起來,兩人又另外編寫了一本《Automatic Speech Recognition: A Deep Learning Approach》(中譯名《解析深度學習:語音識別實踐》,2016年電子工業(yè)出版社出版),此時鄧力正在籌建和管理微軟深度學習技術中心(DLTC),俞棟完成了這本書的大部分編寫。
          而鄧力的另一位重要合作者何曉冬也在這個時候加入到對深度學習的研究,在自然語言理解方面開啟了跟鄧力的合作。何曉東本科畢業(yè)于清華大學,后來留學美國,于密蘇里大學哥倫比亞分校獲得博士學位,讀博期間,2001-2003年還在從貝爾實驗室分離出來的Avaya實驗室連續(xù)做了3年暑期實習生。何曉冬的實習導師有一次去雷德蒙的微軟做講座,微軟向他要人,他便向微軟推薦了何曉冬。鄧力參與了何曉冬的面試,感受到微軟濃厚的技術氛圍和西雅圖舒適可人的夏季,何曉冬接受了微軟的橄欖枝。

          鄧力與何曉冬
          2012年暑期Yoshua Bengio推薦其博士生Gregoire Mesnil來微軟實習,何曉冬和鄧力是Gregoire的實習導師,研究的課題就是基于深度學習的口語理解。2013年春季,何曉冬及其 合作者進一步提出并實現(xiàn)了深度結構化語義模型DSSM(Deep Structured Semantic Models),將多樣化的自然語言所表達的含義表示成為一個多維度連續(xù)語義空間中的向量。時至今日,幾乎所有做搜索推薦場景的大廠仍在使用DSSM及其衍生模型。
          2014年,微軟迎來重大人事調(diào)整,Satya Nadella接替Steve Ballmer擔任微軟CEO,另一位華人高管沈向洋也從副總裁升職為全球執(zhí)行副總裁,負責研究院的管理。對研究院充滿期望的沈向洋成立了一個新的部門MSR-T(MSR Technology),專注于對產(chǎn)業(yè)有直接影響的技術的研究。MSR-T成立之后,由鄧力牽頭,何曉冬、高劍峰等一批對深度學習充滿熱情的研究者從各個研究組出來,在MSR-T下成立了深度學習技術中心(DLTC)。
          DLTC 成立后,鄧力也將深度學習從語音研究拓展到其他領域,帶領日益擴展的團隊在深度學習的應用拓展方面做出了不少成果。代表性的成果包括包括互聯(lián)網(wǎng)搜索問答、電子郵件及企業(yè)文檔搜索、市場銷售數(shù)據(jù)的深度學習解析與商業(yè)應用等。
          除了公司給的一些項目,DLTC還做了很多自行探索的新研究,如多模態(tài)深度學習。當時微軟的視覺組在2014年做了一個數(shù)據(jù)庫叫MSCOCO,圍繞MSCOCO數(shù)據(jù)集,一些大學和研究所開展了“看圖說話”的研究,即用一句話來描述一張圖片。這也是多模態(tài)研究的起點。
          圍繞“看圖說話”,何曉冬和他的同事們組織了一個虛擬研究小組,當時橫跨了微軟MSR Redmond 四個部門,一同來參與到了這個問題的研究中。到了2015年,Yann Lecun在CVPR上舉辦了一場深度視覺研討會(DeepVision Workshop),何曉冬受邀請在討論會上作報告,介紹了他們提出的語言-視覺深度多模態(tài)語義模型(DMSM),DMSM是DSSM的升級版本,可以將圖像和文字都表示成為同一個跨模態(tài)語義空間內(nèi)的向量,并通過匹配計算生成最符合圖像內(nèi)容的文字描述。此后,何曉冬及同事又將知識融入了多模態(tài)模型中,加速了多模態(tài)技術的實用化。
          由于對自然語言理解和語言與視覺多模態(tài)信息處理的貢獻,2018年,何曉冬當選為IEEE Fellow。
          這一時期,鄧力的研究方向也轉向解決實際問題的解析性和不確定性問題,通過將深度學習與不同的機器學習方法進行整合,從而讓人工智能做出可解釋的最優(yōu)決策。
          2017年5月,鄧力離開微軟,出任對沖基金公司Citadel 首席人工智能官,將深度學習的應用場景擴展到金融領域。而就在本月初,鄧力再度擔任量化投資管理公司Vatic Investments(梵蒂岡投資)的首席人工智能官兼機器學習全球負責人,鄧力將深度學習應用于其他領域的探索仍在繼續(xù)。
          不知這一次的旅程,能否會帶給我們新的故事?

          6


          后記:另一個時間檢驗獎

          2021年6月,ICASSP大會上頒發(fā)了 2020 年度IEEE信號處理協(xié)會(IEEE SPS) 最佳論文獎(該獎從過去6年巴黎發(fā)表的論文選出,相當于時間檢驗獎),鄧力、何曉冬、俞棟以及Yoshua Bengio等人獲獎。這一工作最早發(fā)端于2012年夏季的那個關于深度口語理解的實習項目,之后又有新的合作者加以充實。當時何曉冬曾感慨于深度學習的日新月異,這個工作開始之時,這些合作者中只有一位IEEE Fellow,而去年獲獎的時候已經(jīng)有了7位Fellow加一個圖靈獎了。

          2020年度IEEE SPS最佳論文獎的11位作者
          而當時全世界會訓練RNN模型的專家“可以一雙手就可以數(shù)出來”的深度學習社區(qū),如今已成為人工智能領域最茁壯的一個分支。
          十年如一夢,光陰似箭。
          正如茨威格在《人類群星閃耀時》所言,某些具有世界歷史意義的時刻一旦發(fā)生,就會決定幾十年甚至幾百年的歷史進程?!熬拖癖芾揍樀募舛思辛苏麄€大氣層的電流一樣,那些數(shù)不勝數(shù)的事件也都往往擠在這最短的時間內(nèi)發(fā)生?!?/span>
          正如我們熟悉的,讓一個靜止的飛輪轉動起來必須先施加很大的力量,但一旦飛輪轉動起來,便難以讓它停下來。深度學習的歷史也是如此,當?shù)谝粋€人去轉動飛輪,需要耗費比后來者更多的力氣,但只要你堅持不懈去推動飛輪,當飛輪開始轉動,后面所有人都會從中獲益。
          做時間的朋友,時間終將說明一切。
          如果你有學術專家的故事愿意分享,歡迎聯(lián)系:Fiona190913。
          注:本文部分內(nèi)容素材來自于紐約時報記者凱德·梅斯(Cade Metz)的《天才制造者》(“Genius Makers”)一書,凱德·梅斯長期關注人工智能、無人駕駛汽車、機器人、虛擬現(xiàn)實等新興領域,他也是《連線》雜志的資深撰稿人。在《天才制造者》一書中,凱德·梅斯用8年時間里采訪了包括本文提及的多位當事人在內(nèi)的400人,并和我們分享了深度學習崛起以及科技巨頭圍繞這一新興技術“擴軍備戰(zhàn)”的精彩故事。

          END


          推薦閱讀







          瀏覽 35
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  爱干av麻豆 | 免费国产黄片在线看 | A成V人| 日韩中文字幕免费在线观看 | 人人超碰在线 |