Transformer竟在圖神經(jīng)網(wǎng)絡(luò)的ImageNet大賽中屠榜?
點藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”
設(shè)為星標(biāo),干貨直達(dá)!

AI圈可太 TM 魔幻了!
就在昨天剛結(jié)束的KDD Cup 2021 和OGB 官方聯(lián)合舉辦的第一屆圖神經(jīng)網(wǎng)絡(luò)競賽OGB Large-Scale Challenge中,來自微軟亞洲研究院(MSRA)和大連理工的團(tuán)隊力壓DeepMind、百度等隊伍,奪得圖預(yù)測任務(wù)賽道第一名。

各位看官,您猜怎么著?
AI 科技評論發(fā)現(xiàn)在這場號稱“地表最強(qiáng)圖神經(jīng)網(wǎng)絡(luò)”之爭的國際權(quán)威競賽中,獲得第一名的模型不是圖神經(jīng)網(wǎng)絡(luò)模型,反而是 Transformer 模型?

兜兜轉(zhuǎn)轉(zhuǎn)又是你,Transformer 你是要上天嗎?之前你從NLP強(qiáng)勢跨界到CV,這次又是在圖神經(jīng)網(wǎng)絡(luò)拿了個冠軍,你是什么都能參與一腳嗎?國足要是有你這精神該多好??!
這究竟是腫么一回事呢?
我們先從這次KDD Cup 2021 和OGB 官方聯(lián)合舉辦的大賽說起。
其中KDD Cup大賽大家都很熟悉了,它是由SIGKDD主辦的數(shù)據(jù)挖掘研究領(lǐng)域的國際頂級賽事,從1997年開始,每年舉辦一次,是目前數(shù)據(jù)挖掘領(lǐng)域最具影響力的賽事。該比賽同時面向企業(yè)界和學(xué)術(shù)界,云集了世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者。
而今年,KDD Cup與OGB (Open Graph Benchmark)團(tuán)隊聯(lián)合舉辦了第一屆OGB-LSC比賽,提供來自真實世界的超大規(guī)模圖數(shù)據(jù)。
在比賽的三個賽道中,圖預(yù)測任務(wù)最受人矚目(另外兩個賽道為節(jié)點預(yù)測和關(guān)系預(yù)測):本次圖預(yù)測任務(wù)發(fā)布了有史以來最大的有標(biāo)注圖數(shù)據(jù)集PCQM4M-LSC, 其中包含超過3,800,000個有標(biāo)注分子圖 (作為對比,ImageNet挑戰(zhàn)賽包含1,000,000張標(biāo)注圖片,而在此之前最大的有標(biāo)注圖數(shù)據(jù)集大小不過約450,000個有標(biāo)注分子圖)。
另外根據(jù)本次大賽承辦方,斯坦福大學(xué)Jure Leskovec教授回應(yīng),本次大賽總共有全球 500 多個頂尖高校和實驗室隊伍參賽,因此,無論是從參賽規(guī)模還是賽題難度上來講,本屆OGB-LSC競賽都堪稱為圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的第一屆「ImageNet」挑戰(zhàn)賽。

賽題介紹
本次圖預(yù)測競賽的任務(wù)是對給定的2D結(jié)構(gòu)分子圖,預(yù)測由 DFT 計算的分子性質(zhì),如 HOMO-LUMO 能帶隙。DFT (density functional theory, 密度泛函理論)基于量子物理力場,可以精確地預(yù)測多種分子性質(zhì)。

然而,DFT的計算開銷過于巨大,往往一個小分子的計算便需要耗費幾個小時。因此,使用快速而準(zhǔn)確的機(jī)器學(xué)習(xí)模型來近似DFT是非常熱門的研究方向,并且有廣泛的應(yīng)用,如藥物發(fā)現(xiàn)、材料發(fā)現(xiàn)等。

在此次比賽中,與其他隊伍基于圖神經(jīng)網(wǎng)絡(luò)的解決方案不同,來自MSRA機(jī)器學(xué)習(xí)組的研究員和實習(xí)生們直接使用 Transformer 模型對分子圖數(shù)據(jù)進(jìn)行處理,并力壓DeepMind、百度、阿里巴巴螞蟻金服等強(qiáng)勁對手,取得第一名的佳績。
以下是該賽道榜單排名:

Transformer模型最早在NLP任務(wù)中被使用,并且逐漸在Speech、CV等任務(wù)中成為主流。然而,在圖學(xué)習(xí)的領(lǐng)域各項任務(wù)的排行榜上,依然是傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)占據(jù)著主流。
但是誰又規(guī)定一定得是圖神經(jīng)網(wǎng)絡(luò)才能做圖學(xué)習(xí)呢?

所以說有意思的來了,在大連理工大學(xué),普林斯頓大學(xué),北京大學(xué)及微軟亞洲研究院最新的論文《Do Transformers Really Perform Bad for Graph Representation?》中,研究人員們證明了Transformer實際上是表達(dá)能力更強(qiáng)的圖神經(jīng)網(wǎng)絡(luò),并且主流的圖神經(jīng)網(wǎng)絡(luò)模型(GCN, GIN, GraphSage)可以看作是Transformer的特例!

論文地址:https://arxiv.org/abs/2106.05234
然而,過往將Transformer模型用到圖結(jié)構(gòu)數(shù)據(jù)的工作,表現(xiàn)并不盡人意,公認(rèn)的圖預(yù)測任務(wù)排行榜上依舊被傳統(tǒng)GNN的變種們霸占著。
例如,此前最大的有標(biāo)注圖預(yù)測數(shù)據(jù)集OGBG-MolPCBA任務(wù)要求給定化學(xué)分子結(jié)構(gòu)預(yù)測其60余種性質(zhì)。在OGBG-MolPCBA的排行榜上并沒有Transformer的身影。

此前最好的結(jié)果來自于GINE,在測試集上的AP指標(biāo)為29.79%,而MSRA的研究人員和實習(xí)生們將Transformer模型應(yīng)用到此數(shù)據(jù)集后,得到了31.39%的AP準(zhǔn)確率。同時本次工作的研究人員們也在其他多個圖預(yù)測排行榜中(OGB-LSC, OGB, Benchmarking-GNN)取得了最優(yōu)成績。

那么將Transfomer成功應(yīng)用于圖數(shù)據(jù)的關(guān)鍵難點在哪里呢?
作者們發(fā)現(xiàn)關(guān)鍵問題在于如何補(bǔ)回Transformer模型的自注意力層丟失掉的圖結(jié)構(gòu)信息!不同于序列數(shù)據(jù)(NLP, Speech)或網(wǎng)格數(shù)據(jù)(CV),圖的結(jié)構(gòu)信息是圖數(shù)據(jù)特有的屬性,且對圖的性質(zhì)預(yù)測起著重要的作用。
基于此,研究人員們在圖預(yù)測任務(wù)上提出了Graphormer模型 —— 一個標(biāo)準(zhǔn)的Transformer模型,并且?guī)в腥N結(jié)構(gòu)信息編碼(中心性編碼Centrality Encoding、空間編碼Spatial Encoding以及邊編碼Edge Encoding),幫助Graphormer模型編碼圖數(shù)據(jù)的結(jié)構(gòu)信息。

具體來講,將Transformer模型應(yīng)用到圖數(shù)據(jù)時,其最主要的運算集中在自注意力層計算節(jié)點特征之間的相關(guān)性作為注意力機(jī)制的權(quán)重。然而對于圖數(shù)據(jù)來說,衡量節(jié)點之間相關(guān)性的因素并不僅僅取決于節(jié)點特征,還包括了節(jié)點自身在圖結(jié)構(gòu)中的重要性(如社交網(wǎng)絡(luò)中的名人節(jié)點),節(jié)點之間的空間關(guān)系(如六度空間理論)以及節(jié)點之間連邊的特征(如邊的距離、邊的流量等)。
因此,MSRA的研究人員們在Graphormer模型中為以上幾種信息設(shè)計了簡潔而高效的編碼來表示圖數(shù)據(jù)的結(jié)構(gòu)信息,并在自注意力層計算相關(guān)權(quán)重時引入三種結(jié)構(gòu)編碼,由此成功的將Transformer結(jié)構(gòu)應(yīng)用到了圖數(shù)據(jù)上。
更多內(nèi)容細(xì)節(jié)可以參看原論文。
AI科技評論一向是國內(nèi)報道 AI 學(xué)術(shù)科技前沿最早的媒體,這次也不會落后,為了弄清楚這個Graphormer模型背后都有哪些故事,我們編輯部特地聯(lián)系并專訪到了此次比賽MSRA團(tuán)隊的負(fù)責(zé)人——主管研究員鄭書新博士。
AI科技評論:首先恭喜你們奪冠,能簡單介紹一下Graphormer模型誕生的始末嗎?你們從什么時候開始研究圖神經(jīng)網(wǎng)絡(luò)的?
鄭書新:非常感謝,取得最終的成績離不開每一位隊員的努力,以及很多朋友們的幫助。其實以前我們并不做GNN,相反Transformer和預(yù)訓(xùn)練做的多一些,但其實把Transformer應(yīng)用到圖數(shù)據(jù)的想法很早就有了。
在我們最新一篇PLP(Programming Language Processing)方向的ICML2021論文《How could Neural Networks understand Programs?》中,我們觀察到一個很有意思的現(xiàn)象:
因為程序語言是天然具有兩種結(jié)構(gòu)的數(shù)據(jù),即序列數(shù)據(jù)(程序文本)及圖數(shù)據(jù)(控制流圖等),因此在嘗試?yán)斫獬绦蛘Z義時,研究人員們很明顯地分為了兩派:Transformer流派和GNN流派。Transformer流派的好處在于模型強(qiáng)大的表達(dá)能力,而GNN流派的優(yōu)勢在于可以捕捉圖上的結(jié)構(gòu)信息。
所以為了博采眾長,我們當(dāng)時采用的做法是使用Transformer模型,并設(shè)計了控制流編碼來引入程序的圖結(jié)構(gòu)信息。
AI科技評論:你們是如何參與到這場比賽中的呢?
鄭書新:參加KDD Cup也非常偶然。我記得在比賽注冊截止日前幾天,我們的一位實習(xí)生同學(xué)應(yīng)承軒跑來跟我講想?yún)⒓舆@次的比賽,并用Transformer模型來做分子性質(zhì)預(yù)測。
當(dāng)時覺得雖然這次的比賽賽題很難,并且我們在圖數(shù)據(jù)上的經(jīng)驗著實不算多,但考慮到此次比賽的題目很有實際的應(yīng)用價值,我們一拍即合,當(dāng)即開始組隊報名參加比賽 (此處給承軒同學(xué)打個廣告
,他希望今年能申請到機(jī)器學(xué)習(xí)方向尤其是圖數(shù)據(jù)方向的博士學(xué)位攻讀)。
AI科技評論:祝承軒同學(xué)申請到心儀的實驗室。請問如何理解 Transformer實際上是表達(dá)能力更強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)?以及主流的圖神經(jīng)網(wǎng)絡(luò)模型(GCN, GIN, GraphSage)可以看作是Transformer的特例?
鄭書新:上文已經(jīng)對graphormer做了一定介紹,此外,我們還發(fā)現(xiàn),在使用了結(jié)構(gòu)編碼后,當(dāng)為模型選擇適當(dāng)?shù)膮?shù)時,Transformer就可以表示主流的圖神經(jīng)網(wǎng)絡(luò),既GCN, GIN, GraphSage等可以看作Transformer的特例。
例如,令鄰居節(jié)點的空間編碼為0,其余節(jié)點的空間編碼為負(fù)無窮,并讓W(xué)_Q=W_K=0,W_K為單位矩陣,那么自注意力層的Softmax操作就可以恢復(fù)GNN中的MEAN aggregation操作。
AI科技評論:Graphormer是為了分子性質(zhì)預(yù)測任務(wù)專門設(shè)計的嗎?在其他領(lǐng)域有哪些應(yīng)用?
鄭書新:并不是。Graphormer中應(yīng)用到的structural encodings都具有一般性,可以在任何一種圖數(shù)據(jù)中應(yīng)用。分子性質(zhì)預(yù)測本身是非常有應(yīng)用價值的問題,是很多前沿、熱門領(lǐng)域的基礎(chǔ)問題,例如藥物分子發(fā)現(xiàn)、新型材料等等、蛋白質(zhì)分子建模等等。此外,圖數(shù)據(jù)的應(yīng)用也廣泛存在在我們的生活中,例如社交網(wǎng)絡(luò)、知識圖譜、時空預(yù)測、程序理解、自動駕駛點云等等,我們也期待Graphormer能在這些領(lǐng)域有所建樹,大放異彩。
AI科技評論:此次你們在分子性質(zhì)預(yù)測使用的數(shù)據(jù)集PCQM4M-LSC上奪冠的分?jǐn)?shù)為0.1200 MAE,這是一個很好的分?jǐn)?shù)嗎?可以說GNN已經(jīng)取代量子化學(xué)的方法了嗎?
鄭書新:還遠(yuǎn)遠(yuǎn)遠(yuǎn)遠(yuǎn)沒有到取代的地步,還有很長的路要走。
這次比賽的單位是eV (電子伏),目前對于給定分子2D結(jié)構(gòu)預(yù)測HOMO-LUMO energy gap 的誤差最低能達(dá)到0.12eV左右,而給定DFT計算的3D結(jié)構(gòu)能達(dá)到0.01eV左右。
雖然基于人工智能的方法可以讓很多應(yīng)用例如藥物發(fā)現(xiàn)、材料發(fā)現(xiàn)等的過程大幅加速,但更多的還處在粗篩、輔助層面。而真正要取代傳統(tǒng)的計算化學(xué)方法如DFT等,則至少要達(dá)到化學(xué)精度1kcal/mol = 0.043eV 左右(即通過化學(xué)實驗計算方法也會存在的誤差)。因此,從0.12eV到0.043eV還有很長的路要走。
不過就像CNN在ImageNet比賽中第一次嶄露頭角(2012年)一樣,經(jīng)過了學(xué)術(shù)界近十年的努力,ImageNet的Top 1 準(zhǔn)確率已經(jīng)從60%提升到了今天的90%。我相信,在學(xué)術(shù)圈的共同努力推動下,人工智能算法在計算化學(xué)、計算物理、可持續(xù)發(fā)展等眾多交叉學(xué)科領(lǐng)域中將會扮演越來越重要的角色!
至此,Transformer自統(tǒng)治了NLP、Speech 與CV后,又在Graph數(shù)據(jù)上取得了驚人的效果。所以,Transformer在Graph上的應(yīng)用前景有可能取代GNN嗎?
作者也在文章最后指出了未來Transformer在圖數(shù)據(jù)上應(yīng)用需解決的一些問題,包括如何降低Graphormer的時間復(fù)雜度等。
這一點至于未來究竟如何,讓我們拭目以待~
但是,文章之外,筆者真的想吐槽一句:Transformer ,求求你做個人吧!

看到Transformer這次在圖領(lǐng)域取得了巨大成功,卷積&MLP模型又會在之后來湊一波熱鬧嗎?
卷積&MLP模型內(nèi)心會不會想對Transformer說一句:殺掉你, 我上我也行 

從局外人的角度說一句,兄弟模型們,格局要大啊,AI早晚會大一統(tǒng)的。

最后說一下本論文已開源且有視頻講解,如下:
代碼地址:https://github.com/microsoft/Graphormer
視頻講解:https://www.youtube.com/watch?v=xQ5ltOOxoFg
推薦閱讀
谷歌AI用30億數(shù)據(jù)訓(xùn)練了一個20億參數(shù)Vision Transformer模型,在ImageNet上達(dá)到新的SOTA!
"未來"的經(jīng)典之作ViT:transformer is all you need!
PVT:可用于密集任務(wù)backbone的金字塔視覺transformer!
漲點神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA
不妨試試MoCo,來替換ImageNet上pretrain模型!
機(jī)器學(xué)習(xí)算法工程師
一個用心的公眾號

