深度學(xué)習(xí)最近發(fā)現(xiàn)詳細(xì)分析報(bào)告
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
去年《二十不惑》和《三十而已》兩部劇比較火熱,但是作為AI領(lǐng)域的IT同胞們,大家應(yīng)該都知曉深度學(xué)習(xí)的“二十不惑”和“三十而已”的故事嗎?今天小編帶大家回顧下深度學(xué)習(xí)的暗黑史和輝煌史,已經(jīng)迎來(lái)了深度學(xué)習(xí)的“四十可期”,乘風(fēng)破浪成為重要領(lǐng)域之一的關(guān)注!

深度學(xué)習(xí)通過(guò)建立類似人腦的分層模型結(jié)構(gòu), 對(duì)輸入數(shù)據(jù)逐級(jí)提取從底層到高層的特征,?從而能很好地建立從底層信號(hào)到高層語(yǔ)義的映射關(guān)系。?近年來(lái),谷歌、微軟、IBM、百度等擁有大數(shù)據(jù)的高科技公司相繼投入大量資源進(jìn)行深度學(xué)習(xí)技術(shù)研發(fā),?在語(yǔ)音、圖像、自然語(yǔ)言、在線廣告等領(lǐng)域取得顯著進(jìn)展。已經(jīng)三十多的深度學(xué)習(xí),一點(diǎn)也不怠慢,在很多努力奮斗研究院的幫助下,繼續(xù)發(fā)展為人來(lái)造福。從對(duì)實(shí)際應(yīng)用的貢獻(xiàn)來(lái)說(shuō),?深度學(xué)習(xí)可能是機(jī)器學(xué)習(xí)領(lǐng)域最近這十年來(lái)最成功的研究方向。
接下來(lái)小編將對(duì)深度學(xué)習(xí)發(fā)展的過(guò)去和現(xiàn)在做一個(gè)全景式的介紹,?并討論深度學(xué)習(xí)所面臨的挑戰(zhàn), 怎么乘風(fēng)破浪成為現(xiàn)在的科技領(lǐng)頭技術(shù)領(lǐng)域,以及將來(lái)的可能方向。
2012年6月,《紐約時(shí)報(bào)》披露了谷歌的GoogleBrain項(xiàng)目,吸引了公眾的廣泛關(guān)注。這個(gè)項(xiàng)目是由著名的斯坦福大學(xué)的機(jī)器學(xué)習(xí)教授NG和在大規(guī)模計(jì)算機(jī)系統(tǒng)方面的世界頂尖專家Dean共同主導(dǎo),用16000個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱為“深度神經(jīng)網(wǎng)絡(luò)”(DNN)的機(jī)器學(xué)習(xí)模型,在語(yǔ)音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功。2012年11月,微軟在中國(guó)天津的一次活動(dòng)上公開(kāi)演示了一個(gè)全自動(dòng)的同聲傳譯系統(tǒng),講演者用英文演講,后臺(tái)的計(jì)算機(jī)一氣呵成自動(dòng)完成語(yǔ)音識(shí)別、英中機(jī)器翻譯和中文語(yǔ)音合成,效果非常流暢.據(jù)報(bào)道,后面支撐的關(guān)鍵技術(shù)也是DNN,或者深度學(xué)習(xí)(deep learning,DL)。2013年的1月,在中國(guó)最大的互聯(lián)網(wǎng)搜索引擎公司百度的年會(huì)上,創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院,其中第一個(gè)重點(diǎn)方向的就是深度學(xué)習(xí),并為此而成立Institute of Deep Learning(IDL)。這是百度成立10多年以來(lái)第一次成立研究院。2013年4月,《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。
為什么深度學(xué)習(xí)受到學(xué)術(shù)屆和工業(yè)界如此廣泛的重視?深度學(xué)習(xí)技術(shù)研發(fā)面臨什么樣的科學(xué)和工程問(wèn)題?深度學(xué)習(xí)帶來(lái)的科技進(jìn)步將怎樣改變?nèi)藗兊纳???lái)回顧機(jī)器學(xué)習(xí)在過(guò)去20多年的發(fā)展。
在解釋深度學(xué)習(xí)之前,我們需要了解什么是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,而在很多時(shí)候,幾乎成為人工智能的代名詞。簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)就是通過(guò)算法,使得機(jī)器能從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對(duì)新的樣本做智能識(shí)別或?qū)ξ磥?lái)做預(yù)測(cè)。從20世紀(jì)80年代末期以來(lái),機(jī)器學(xué)習(xí)的發(fā)展大致經(jīng)歷了兩次浪潮:淺層學(xué)習(xí)和深度學(xué)習(xí)。需要指出是,機(jī)器學(xué)習(xí)歷史階段的劃分是一個(gè)仁者見(jiàn)仁,智者見(jiàn)智的事情,從不同的維度來(lái)看會(huì)得到不同的結(jié)論。這里我們是從機(jī)器學(xué)習(xí)模型的層次結(jié)構(gòu)來(lái)看的。
第一次浪潮(二十不惑):淺層學(xué)習(xí)

20世紀(jì)80年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(BP算法)的發(fā)明,給機(jī)器學(xué)習(xí)帶來(lái)了希望,掀起了基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)熱潮。這個(gè)熱潮一直持續(xù)到今天。人們發(fā)現(xiàn),利用BP算法可以讓一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型從大量訓(xùn)練樣本中學(xué)習(xí)出統(tǒng)計(jì)規(guī)律,從而對(duì)未知事件做預(yù)測(cè)。這種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法比起過(guò)去基于人工規(guī)則的系統(tǒng),在很多方面顯示出優(yōu)越性。這個(gè)時(shí)候的人工神經(jīng)網(wǎng)絡(luò),雖然也被稱作多層感知機(jī),由于多層網(wǎng)絡(luò)訓(xùn)練的困難,實(shí)際使用的多數(shù)是只含有一層隱層節(jié)點(diǎn)的淺層模型。

20世紀(jì)90年代,各種各樣的淺層機(jī)器學(xué)習(xí)模型相繼被提出,比如支撐向量機(jī)(SVM),Boosting,最大熵方法(比如Logistic回歸,LR)等。這些模型的結(jié)構(gòu)基本上可以看成帶有一層隱層節(jié)點(diǎn)(如SVM,Boosting),或沒(méi)有隱層節(jié)點(diǎn)(如LR)。這些模型在無(wú)論是理論分析還是應(yīng)用都獲得了巨大的成功。相比較之下,由于理論分析的難度,而且訓(xùn)練方法需要很多經(jīng)驗(yàn)和技巧,這個(gè)時(shí)期多層人工神經(jīng)網(wǎng)絡(luò)反而相對(duì)較為沉寂。2000年以來(lái)互聯(lián)網(wǎng)的高速發(fā)展,對(duì)大數(shù)據(jù)的智能化分析和預(yù)測(cè)提出了巨大需求,淺層學(xué)習(xí)模型在互聯(lián)網(wǎng)應(yīng)用上獲得了巨大的成功。最成功的應(yīng)用包括搜索廣告系統(tǒng)(比如谷歌的Adwords、百度的鳳巢系統(tǒng))的廣告點(diǎn)擊率CTR預(yù)估、網(wǎng)頁(yè)搜索排序(比如雅虎和微軟的搜索引擎)、垃圾郵件過(guò)濾系統(tǒng)、基于內(nèi)容的推薦系統(tǒng),等等。
第二次浪潮(三十而已):深度學(xué)習(xí)

2006年,加拿大多倫多大學(xué)教授,機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Hinton和他的學(xué)生Salakhutdinov在頂尖學(xué)術(shù)刊物《科學(xué)》上發(fā)表了一篇文章,開(kāi)啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。這篇文章有兩個(gè)主要的訊息:
很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻劃,從而有利于可視化或分類;
深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過(guò)"逐層初始化”來(lái)有效克服,在這篇文章中,逐層初始化是通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。

自2006年以來(lái),深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。斯坦福大學(xué)、紐約大學(xué)、加拿大蒙特利爾大學(xué)等成為研究深度學(xué)習(xí)的重鎮(zhèn)。2010年,美國(guó)國(guó)防部DARPA計(jì)劃首次資助深度學(xué)習(xí)項(xiàng)目,參與方有斯坦福大學(xué)、紐約大學(xué)和NEC美國(guó)研究院。支持深度學(xué)習(xí)的一個(gè)重要依據(jù),就是腦神經(jīng)系統(tǒng)的確具有豐富的層次結(jié)構(gòu)。一個(gè)最著名的例子就是Hubel-Wiesel模型,由于揭示了視覺(jué)神經(jīng)的機(jī)理而曾獲得諾貝爾醫(yī)學(xué)與生理學(xué)獎(jiǎng)。除了仿生學(xué)的角度,目前深度學(xué)習(xí)的理論研究還基本處于起步階段,但在應(yīng)用領(lǐng)域已經(jīng)顯現(xiàn)巨大能量。2011年以來(lái),微軟研究院和谷歌的語(yǔ)音識(shí)別研究人員先后采用DNN技術(shù)降低語(yǔ)音識(shí)別錯(cuò)誤率20%~30%,是語(yǔ)音識(shí)別領(lǐng)域10多年來(lái)最大的突破性進(jìn)展。2012年DNN技術(shù)在圖像識(shí)別領(lǐng)域取得驚人的效果,在ImageNet評(píng)測(cè)上將錯(cuò)誤率從26%降低到15%。在這一年,DNN還被應(yīng)用于制藥公司的Druge Activity預(yù)測(cè)問(wèn)題,并獲得世界最好成績(jī),這一重要成果被《紐約時(shí)報(bào)》報(bào)道。正如文章開(kāi)頭所描述的,今天谷歌、微軟、百度等知名的擁有大數(shù)據(jù)的高科技公司爭(zhēng)相投入資源,占領(lǐng)深度學(xué)習(xí)的技術(shù)制高點(diǎn),正是因?yàn)樗麄兌伎吹搅舜髷?shù)據(jù)時(shí)代,更加復(fù)雜且更加強(qiáng)大的深度模型的能深刻揭示海量數(shù)據(jù)里所承載的負(fù)責(zé)而豐富的信息,并對(duì)未來(lái)或未知事件做更精準(zhǔn)的預(yù)測(cè)。

為了理解為什么大數(shù)據(jù)需要深度模型,先舉一個(gè)例子。語(yǔ)音識(shí)別已經(jīng)是一個(gè)大數(shù)據(jù)的機(jī)器學(xué)習(xí)問(wèn)題,在其聲學(xué)建模部分,通常面臨的是十億到千億級(jí)別的訓(xùn)練樣本。在谷歌的一個(gè)語(yǔ)音識(shí)別實(shí)驗(yàn)中,發(fā)現(xiàn)訓(xùn)練后的DNN對(duì)訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)誤差基本相當(dāng)。這是非常違反常識(shí)的,因?yàn)橥ǔDP驮谟?xùn)練樣本上的預(yù)測(cè)誤差會(huì)顯著小于測(cè)試樣本。只有一個(gè)解釋,就是由于大數(shù)據(jù)里含有豐富的信息維度,即便是DNN這樣的高容量復(fù)雜模型也是處于欠擬合的狀態(tài),更不必說(shuō)傳統(tǒng)的GMM聲學(xué)模型了。所以在這個(gè)例子里我們看出,大數(shù)據(jù)需要深度學(xué)習(xí)。
淺層模型有一個(gè)重要特點(diǎn),就是假設(shè)靠人工經(jīng)驗(yàn)來(lái)抽取樣本的特征,而強(qiáng)調(diào)模型主要是負(fù)責(zé)分類或預(yù)測(cè)。在模型的運(yùn)用不出差錯(cuò)的前提下(比如,假設(shè)互聯(lián)網(wǎng)公司聘請(qǐng)的是機(jī)器學(xué)習(xí)的專家),特征的好壞就成為整個(gè)系統(tǒng)性能的瓶頸。因此,通常一個(gè)開(kāi)發(fā)團(tuán)隊(duì)中更多的人力是投入到發(fā)掘更好的特征上去的。發(fā)現(xiàn)一個(gè)好的特征,要求開(kāi)發(fā)人員對(duì)待解決的問(wèn)題要有很深入的理解。而達(dá)到這個(gè)程度,往往需要反復(fù)的摸索,甚至是數(shù)年磨一劍。因此,人工設(shè)計(jì)樣本特征,不是一個(gè)可擴(kuò)展的途徑。
深度學(xué)習(xí)的實(shí)質(zhì),是通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。所以,“深度模型”是手段,“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于:1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層、甚至10多層的隱層節(jié)點(diǎn);2)明確突出了特征學(xué)習(xí)的重要性,也就是說(shuō),通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而分類或預(yù)測(cè)更加容易。

與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,更能夠刻劃數(shù)據(jù)的豐富內(nèi)在信息。所以,在未來(lái)的幾年里,我們將看到越來(lái)越多的例子,深度模型應(yīng)用于大數(shù)據(jù),而不是淺層的線性模型。
語(yǔ)音識(shí)別語(yǔ)音識(shí)別系統(tǒng)長(zhǎng)期以來(lái),描述每個(gè)建模單元的統(tǒng)計(jì)概率模型時(shí)候,大都是采用的混合高斯模型(GMM)。這種模型由于估計(jì)簡(jiǎn)單,適合海量數(shù)據(jù)訓(xùn)練,同時(shí)有成熟的區(qū)分度訓(xùn)練技術(shù)支持,長(zhǎng)期以來(lái),一直在語(yǔ)音識(shí)別應(yīng)用中占有壟斷性地位。但是這種混合高斯模型本質(zhì)上是一種淺層網(wǎng)絡(luò)建模,不能夠充分描述特征的狀態(tài)空間分布。另外,GMM建模的特征維數(shù)一般是幾十維,不能充分描述特征之間的相關(guān)性。最后GMM建模本質(zhì)上是一種似然概率建模,雖然區(qū)分度訓(xùn)練能夠模擬一些模式類之間的區(qū)分性,但是能力有限。

微軟研究院的語(yǔ)音識(shí)別專家Li和Dong從2009年開(kāi)始和深度學(xué)習(xí)專家Hinton合作。2011年微軟基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究取得成果,徹底底改變了語(yǔ)音識(shí)別原有的技術(shù)框架。采用深度神經(jīng)網(wǎng)絡(luò)后,可以充分描述特征之間的相關(guān)性,可以把連續(xù)多幀的語(yǔ)音特征并在一起,構(gòu)成一個(gè)高維特征。最終的深度神經(jīng)網(wǎng)絡(luò)可以采用高維特征訓(xùn)練來(lái)模擬的。由于深度神經(jīng)網(wǎng)絡(luò)采用模擬人腦的多層結(jié)果,可以逐級(jí)地進(jìn)行信息特征抽取,最終形成適合模式分類的較理想特征。這種多層結(jié)構(gòu)和人腦處理語(yǔ)音圖像信息的時(shí)候,是有很大的相似性的。深度神經(jīng)網(wǎng)絡(luò)的建模技術(shù),在實(shí)際線上服務(wù)時(shí),能夠無(wú)縫地和傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)相結(jié)合,在不引起任何系統(tǒng)額外耗費(fèi)情況下大幅度地提升了語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率。其在線的使用方法具體如下:在實(shí)際解碼過(guò)程中,聲學(xué)模型仍然是采用傳統(tǒng)的HMM模型,語(yǔ)音模型仍然是采用傳統(tǒng)的統(tǒng)計(jì)語(yǔ)言模型,解碼器仍然是采用傳統(tǒng)的動(dòng)態(tài)WFST解碼器。但是在聲學(xué)模型的輸出分布計(jì)算時(shí),完全用神經(jīng)網(wǎng)絡(luò)的輸出后驗(yàn)概率除以一個(gè)先驗(yàn)概率來(lái)代替?zhèn)鹘y(tǒng)HMM模型中的GMM的輸出似然概率。百度實(shí)踐中發(fā)現(xiàn),采用DNN進(jìn)行聲音建模的語(yǔ)音識(shí)別系統(tǒng)的相比于傳統(tǒng)的GMM語(yǔ)音識(shí)別系統(tǒng)而言,相對(duì)誤識(shí)別率能降低25%。最終在2012年11月的時(shí)候,上線了第一款基于DNN的語(yǔ)音搜索系統(tǒng),成為最早采用DNN技術(shù)進(jìn)行商業(yè)語(yǔ)音服務(wù)的公司之一。
國(guó)際上谷歌也采用了深度神經(jīng)網(wǎng)絡(luò)進(jìn)行聲音建模,和百度一起是最早的突破深度神經(jīng)網(wǎng)絡(luò)工業(yè)化應(yīng)用的企業(yè)之一。但是谷歌產(chǎn)品中采用的深度神經(jīng)網(wǎng)絡(luò)有4~5層,而百度采用的深度神經(jīng)網(wǎng)絡(luò)多達(dá)9層。這種結(jié)構(gòu)差異的核心其實(shí)是百度更好的解決了深度神經(jīng)網(wǎng)絡(luò)在線計(jì)算的技術(shù)難題,從而百度線上產(chǎn)品可以采用更復(fù)雜的網(wǎng)絡(luò)模型。這將對(duì)于未來(lái)拓展海量語(yǔ)料的DNN模型訓(xùn)練有更大的優(yōu)勢(shì)。??

圖像是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域。早在1989年,LeCun(現(xiàn)紐約大學(xué)教授)和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的工作。CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),通常至少有2個(gè)非線性可訓(xùn)練的卷積層、2個(gè)非線性的固定卷積層(又叫pooling layer)和1個(gè)全連接層,一共至少5個(gè)隱含層。CNN的結(jié)構(gòu)受到著名的Hubel-Wiesel生物視覺(jué)模型的啟發(fā),尤其是模擬視覺(jué)皮層V1和V2層中simple cell和complex cell的行為。在很長(zhǎng)時(shí)間里,CNN雖然在小規(guī)模的問(wèn)題上,比如說(shuō)手寫數(shù)字,取得當(dāng)時(shí)世界最好結(jié)果,但一直沒(méi)有取得巨大成功。這主要原因是CNN在大規(guī)模圖像上效果不好,比如像素很多的自然圖片內(nèi)容理解,所以沒(méi)有得到計(jì)算機(jī)視覺(jué)領(lǐng)域的足夠重視。這個(gè)情況一直持續(xù)到2012年10月,Hinton和他的兩個(gè)學(xué)生在著名的ImageNet問(wèn)題上用更深的CNN取得世界最好結(jié)果,使得圖像識(shí)別大踏步前進(jìn)。在Hinton的模型里,輸入就是圖像的像素,沒(méi)有用到任何的人工特征。

這個(gè)驚人的結(jié)果為什么在之前沒(méi)有發(fā)生?原因當(dāng)然包括算法的提升,比如dropout等防止過(guò)擬合技術(shù),但最重要的是GPU帶來(lái)的計(jì)算能力提升和更多的訓(xùn)練數(shù)據(jù)。百度在2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識(shí)別和人臉識(shí)別等問(wèn)題,并推出相應(yīng)的桌面和移動(dòng)搜索產(chǎn)品,在2013年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識(shí)別和理解。從百度的經(jīng)驗(yàn)來(lái)看,深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗,從而大大提高了在線計(jì)算效率。可以很有把握地說(shuō),從現(xiàn)在開(kāi)始,深度學(xué)習(xí)將取代人工特征+機(jī)器學(xué)習(xí)的方法而逐漸成為主流圖像識(shí)別方法。??

除了語(yǔ)音和圖像,深度學(xué)習(xí)的另一個(gè)應(yīng)用領(lǐng)域問(wèn)題自然語(yǔ)言處理(NLP)。經(jīng)過(guò)幾十年的發(fā)展,基于統(tǒng)計(jì)的模型已經(jīng)成為NLP的主流,但是作為統(tǒng)計(jì)方法之一的人工神經(jīng)網(wǎng)絡(luò)在NLP領(lǐng)域幾乎沒(méi)有受到重視。本文作者之一徐偉曾最早應(yīng)用神經(jīng)網(wǎng)絡(luò)于語(yǔ)言模型。加拿大蒙特利爾大學(xué)教授Bengio等于2003年提出用embedding的方法將詞映射到一個(gè)矢量表示空間,然后用非線性神經(jīng)網(wǎng)絡(luò)來(lái)表示N-Gram模型。世界上最早的深度學(xué)習(xí)用于NLP的研究工作誕生于NEC Labs America,其研究員Collobert和Weston從2008年開(kāi)始采用embedding和多層一維卷積的結(jié)構(gòu),用于POS tagging,Chunking,Named Entity Recognition,Semantic Role Labeling等4個(gè)典型NLP問(wèn)題。值得注意的是,他們將同一個(gè)模型用于不同任務(wù),都能取得與state-of-the-art相當(dāng)?shù)臏?zhǔn)確率。最近以來(lái),斯坦福大學(xué)教授Manning等人在深度學(xué)習(xí)用于NLP的工作也值得關(guān)注。?


搜索廣告是搜索引擎的主要變現(xiàn)方式,而按點(diǎn)擊付費(fèi)(cost per click,CPC)又是其中被最廣泛應(yīng)用的計(jì)費(fèi)模式。在CPC模式下,預(yù)估的CTR(pCTR)越準(zhǔn)確,點(diǎn)擊率就會(huì)越高,收益就越大。通常,搜索廣告的pCTR是通過(guò)機(jī)器學(xué)習(xí)模型預(yù)估得到。提高pCTR的準(zhǔn)確性,是提升搜索公司、廣告主、搜索用戶三方利益的最佳途徑。

傳統(tǒng)上,谷歌、百度等搜索引擎公司以LR作為預(yù)估模型。而從2012年開(kāi)始,百度開(kāi)始意識(shí)到模型的結(jié)構(gòu)對(duì)廣告CTR預(yù)估的重要性:使用扁平結(jié)構(gòu)的LR嚴(yán)重限制了模型學(xué)習(xí)與抽象特征的能力。為了突破這樣的限制,百度嘗試將DNN作用于搜索廣告,而這其中最大的挑戰(zhàn)在于當(dāng)前的計(jì)算能力還無(wú)法接受1011級(jí)別的原始廣告特征作為輸入。作為解決,在百度的DNN系統(tǒng)里,特征數(shù)從1011數(shù)量級(jí)被降到了103,從而能被DNN正常的學(xué)習(xí)。這套深度學(xué)習(xí)系統(tǒng)已于2013年5月開(kāi)始服務(wù)于百度搜索廣告系統(tǒng),每天為數(shù)億網(wǎng)民使用。?
DNN在搜索廣告系統(tǒng)中的應(yīng)用還遠(yuǎn)遠(yuǎn)沒(méi)到成熟,其中DNN與遷移學(xué)習(xí)的結(jié)合將可能是一個(gè)令人振奮的方向。使用DNN,未來(lái)的搜索廣告將可能借助網(wǎng)頁(yè)搜索的結(jié)果優(yōu)化特征的學(xué)習(xí)與提?。灰嗫赡芡ㄟ^(guò)DNN將不同的產(chǎn)品線聯(lián)系起來(lái),使得不同的變現(xiàn)產(chǎn)品不管數(shù)據(jù)多少,都能互相優(yōu)化。我們認(rèn)為未來(lái)的DNN一定會(huì)在搜索廣告中起到更重要的作用。
理論問(wèn)題
建模問(wèn)題
在推進(jìn)深度學(xué)習(xí)的學(xué)習(xí)理論和計(jì)算理論的同時(shí),我們是否可以提出新的分層模型,使其不但具有傳統(tǒng)深度模型所具有的強(qiáng)大表示能力,而且具有其他的好處,比如更容易做理論分析。
另外,針對(duì)具體應(yīng)用問(wèn)題,我們?nèi)绾卧O(shè)計(jì)一個(gè)最適合的深度模型來(lái)解決問(wèn)題?我們已經(jīng)看到,無(wú)論在圖像深度模型,還是語(yǔ)言深度模型,似乎都存在深度和卷積等共同的信息處理結(jié)構(gòu)。甚至對(duì)于語(yǔ)音聲學(xué)模型,研究人員也在探索卷積深度網(wǎng)絡(luò)。那么一個(gè)更有意思的問(wèn)題是,是否存在可能建立一個(gè)通用的深度模型或深度模型的建模語(yǔ)言,作為統(tǒng)一的框架來(lái)處理語(yǔ)音、圖像和語(yǔ)言?另外,對(duì)于怎么用深度模型來(lái)表示象語(yǔ)義這樣的結(jié)構(gòu)化的信息還需要更多的研究。從人類進(jìn)化的角度來(lái)看,語(yǔ)言的能力是遠(yuǎn)遠(yuǎn)滯后于視覺(jué)和聽(tīng)覺(jué)的能力而發(fā)展的。而除了人類以外,還有很多動(dòng)物具有很好的識(shí)別物體和聲音的能力。因此從這個(gè)角度來(lái)說(shuō),對(duì)于神經(jīng)網(wǎng)絡(luò)這樣的結(jié)構(gòu)而言,語(yǔ)言相較于視覺(jué)和聽(tīng)覺(jué)是更為困難的一個(gè)任務(wù)。而成功的解決這個(gè)難題對(duì)于實(shí)現(xiàn)人工智能是不可缺少的一步。
工程問(wèn)題
需要指出的是,對(duì)于互聯(lián)網(wǎng)公司而言,如何在工程上利用大規(guī)模的并行計(jì)算平臺(tái)來(lái)實(shí)現(xiàn)海量數(shù)據(jù)訓(xùn)練,是各個(gè)公司從事深度學(xué)習(xí)技術(shù)研發(fā)首先要解決的問(wèn)題。傳統(tǒng)的大數(shù)據(jù)平臺(tái)如Hadoop,由于數(shù)據(jù)處理的latency太高,顯然不適合需要頻繁迭代的深度學(xué)習(xí)?,F(xiàn)有成熟的DNN訓(xùn)練技術(shù)大都是采用隨機(jī)梯度法(SGD)方法訓(xùn)練的。這種方法本身不可能在多個(gè)計(jì)算機(jī)之間并行。即使是采用GPU進(jìn)行傳統(tǒng)的DNN模型進(jìn)行訓(xùn)練,其訓(xùn)練時(shí)間也是非常漫長(zhǎng)的。一般訓(xùn)練幾千小時(shí)的聲學(xué)模型所需要幾個(gè)月的時(shí)間。而隨著互聯(lián)網(wǎng)服務(wù)的深入,海量數(shù)據(jù)訓(xùn)練越來(lái)越重要,DNN這種緩慢的訓(xùn)練速度必然不能滿足互聯(lián)網(wǎng)服務(wù)應(yīng)用的需要。谷歌搭建的DistBelief,是一個(gè)采用普通服務(wù)器的深度學(xué)習(xí)并行計(jì)算平臺(tái),采用異步算法,由很多的計(jì)算單元獨(dú)立的更新同一個(gè)參數(shù)服務(wù)器的模型參數(shù),實(shí)現(xiàn)了隨機(jī)梯度下降算法的并行化,加快了模型訓(xùn)練速度。與谷歌采用普通服務(wù)器不同,百度的多GPU并行計(jì)算的計(jì)算平臺(tái),克服了傳統(tǒng)SGD訓(xùn)練的不能并行的技術(shù)難題,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)可以在海量語(yǔ)料上并行展開(kāi)。可以預(yù)期未來(lái)隨著海量數(shù)據(jù)訓(xùn)練的DNN技術(shù)的發(fā)展,語(yǔ)音圖像系統(tǒng)的識(shí)別率還會(huì)持續(xù)提升。?
目前最大的深度模型所包含的參數(shù)大約在100億的數(shù)量級(jí),還不及人腦的萬(wàn)分之一。而由于計(jì)算成本的限制,實(shí)際運(yùn)用于產(chǎn)品中的深度模型更是遠(yuǎn)遠(yuǎn)低于這個(gè)水平。而深度模型的一個(gè)巨大優(yōu)勢(shì)在于,在有海量數(shù)據(jù)的情況下,很容易通過(guò)增大模型來(lái)達(dá)到更高的準(zhǔn)確率。因此,發(fā)展適合深度模型的更高速的硬件也將是提高深度模型的識(shí)別率的重要方向。
/End.
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

