NeruIPS 2022 | 騰訊AI Lab入選論文解讀
騰訊 AI Lab 共有 13 篇論文被本屆會議接收,其中 1 篇被選為口頭報告,以及 2 篇 Spotlight。本文為部分論文解讀,主要聚焦機(jī)器學(xué)習(xí)及計算機(jī)視覺領(lǐng)域,并關(guān)注 AI 與生命科學(xué)領(lǐng)域的結(jié)合應(yīng)用。

機(jī)器學(xué)習(xí)
Learning Neural Set Functions Under the Optimal Subset Oracle
基于最優(yōu)子集的神經(jīng)集合函數(shù)學(xué)習(xí)方法EquiVSet
本文由騰訊 AI Lab 主導(dǎo),與帝國理工大學(xué),中山大學(xué)合作完成,已被會議選為口頭報告(Oral Presentation)。
集合函數(shù)被廣泛應(yīng)用于各種場景之中,例如商品推薦、異常檢測和分子篩選等。在這些場景中,集合函數(shù)可以被視為一個評分函數(shù):其將一個集合作為輸入并輸出該集合的分?jǐn)?shù)。我們希望從給定的集合中選取出得分最高的子集。鑒于集合函數(shù)的廣泛應(yīng)用,如何學(xué)習(xí)一個適用的集合函數(shù)是解決許多問題的關(guān)鍵。
本工作提出了一個基于最大似然的集合函數(shù)學(xué)習(xí)方法EquiVSet。該方法滿足以下四個集合函數(shù)學(xué)習(xí)的準(zhǔn)則:1)置換不變性;2)支持不同的集合大小;3)最小先驗;4)可擴(kuò)展性。該方法由以下部件組成:基于能量模型的集合概率質(zhì)量函數(shù);滿足置換不變性的DeepSet類型架構(gòu);平均場變分推斷和它的均攤版本。由于這些結(jié)構(gòu)的巧妙組合,本文提出的方法在三個實際應(yīng)用場景中(商品推薦,異常檢測和分子篩選)的性能遠(yuǎn)遠(yuǎn)超過基線方法。

Stability Analysis and Generalization Bounds of Adversarial Training
對抗訓(xùn)練的穩(wěn)定性分析和泛化邊界
本文由騰訊 AI Lab 主導(dǎo),與香港中文大學(xué)(深圳),深圳市大數(shù)據(jù)研究院合作完成,已被會議評為 Spotlight 論文。
在對抗訓(xùn)練中,深度神經(jīng)網(wǎng)絡(luò)可以非常好的擬合訓(xùn)練數(shù)據(jù)集上的對抗樣本,但針對測試集上的對抗樣本泛化能力較差,這種現(xiàn)象稱為魯棒性過擬合,并且在常見數(shù)據(jù)集(包括 SVHN、CIFAR-10、CIFAR-100 和 ImageNet)上對神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗訓(xùn)練時均可以觀察到這種現(xiàn)象。
本文采用一致穩(wěn)定性的工具來研究對抗性訓(xùn)練的魯棒性過擬合問題。一個主要挑戰(zhàn)是對抗訓(xùn)練的外層函數(shù)是不光滑的,使得現(xiàn)有的分析技術(shù)無法直接應(yīng)用過來。為了解決這個問題,本文提出了 η 近似平滑度假設(shè)。我們表明對抗訓(xùn)練的外層函數(shù)滿足η 平滑度假設(shè),其中 η 是與對抗擾動量相關(guān)的一個常數(shù)。針對滿足 η 近似平滑度的損失函數(shù)(包括對抗訓(xùn)練損失),本文給出了隨機(jī)梯度下降 (SGD)算法的基于穩(wěn)定性的泛化邊界。
該項工作的結(jié)果從一致穩(wěn)定性的角度提供了對魯棒性過擬合的不同理解。此外,文章展示了一些流行的對抗性訓(xùn)練技術(shù)(包括早期停止、循環(huán)學(xué)習(xí)率和隨機(jī)權(quán)重平均等)在理論上可以促進(jìn)穩(wěn)定性。

Adversarial Task Up-sampling for Meta-learning
基于對抗任務(wù)上采樣的元學(xué)習(xí)任務(wù)增廣
本文由騰訊 AI Lab 主導(dǎo),與香港城市大學(xué)合作完成。
元學(xué)習(xí)的成功是基于訓(xùn)練任務(wù)的分布涵蓋測試任務(wù)的假設(shè)。如果訓(xùn)練任務(wù)不足或訓(xùn)練任務(wù)分布非常集中,這個假設(shè)不再成立,從而導(dǎo)致元學(xué)習(xí)模型出現(xiàn)數(shù)據(jù)記憶或者過度擬合,損害元學(xué)習(xí)模型在新任務(wù)的泛化性。這個問題的解決方案是對訓(xùn)練任務(wù)進(jìn)行任務(wù)增廣,但如何產(chǎn)生大量的有效增廣任務(wù)仍然是一個待解決的問題。
本文提出通過任務(wù)上采樣網(wǎng)絡(luò),學(xué)習(xí)任務(wù)的表示和基于對抗的上采樣算法(Adversarial Task Up-sampling, ATU),并從任務(wù)表示中應(yīng)用上采樣算法采樣增廣任務(wù)。通過最大化對抗性損失,增廣任務(wù)可以最大程度地提高元學(xué)習(xí)模型的泛化能力。在小樣本正弦回歸和圖像分類數(shù)據(jù)集上,我們實驗驗證了ATU的增廣任務(wù)生成質(zhì)量和對元學(xué)習(xí)算法泛化性的提高明顯超越已有的元學(xué)習(xí)任務(wù)增廣算法。

Improve Task-Specific Generalization in Few-Shot Learning via Adaptive Vicinal Risk Minimization
提高小樣本學(xué)習(xí)的任務(wù)泛化性——基于任務(wù)自適應(yīng)VRM的單任務(wù)優(yōu)化算法
本文由騰訊 AI Lab 主導(dǎo),與香港城市大學(xué)合作完成。
元學(xué)習(xí)算法提高了小樣本學(xué)習(xí)中總體任務(wù)的泛化能力,但是忽略了單任務(wù)的泛化能力。由于小樣本學(xué)習(xí)任務(wù)中,訓(xùn)練數(shù)據(jù)的分布可能偏離真實分布,通過ERM優(yōu)化的模型難以泛化到未見過的數(shù)據(jù)。
為了解決該問題,本文提出基于任務(wù)自適應(yīng)的臨近分布損失最小化算法(Adaptive Vicinal Risk Minimization)。 該項工作使用隨機(jī)游走算法,計算訓(xùn)練數(shù)據(jù)訪問無標(biāo)簽數(shù)據(jù)的概率,并根據(jù)這個概率分布為每個訓(xùn)練數(shù)據(jù)構(gòu)建臨近分布。訓(xùn)練數(shù)據(jù)的臨近分布可以更好地擬合數(shù)據(jù)的真實分布,從而降低過擬合,提高優(yōu)化算法對單個任務(wù)的泛化性。在三個標(biāo)準(zhǔn)的小樣本學(xué)習(xí)的數(shù)據(jù)集上,本文提出的算法明顯超越了基線算法。

計算機(jī)視覺
OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training
OST:一種提高假臉檢測泛化性的方法
本文由騰訊 AI Lab 主導(dǎo),與阿德萊德大學(xué)合作完成。
現(xiàn)有的假臉檢測方法普遍存在泛化性不足的問題:當(dāng)造假方法未出現(xiàn)在訓(xùn)練階段時,現(xiàn)有的方法通常不能有效的判斷給定人臉圖片的真假。
本文為提高假臉檢測的泛化性提供了一個新的測試時訓(xùn)練思路。具體來說,當(dāng)給定一個已完成訓(xùn)練的檢測器和任意一張測試圖片,首先基于這張圖片生成一張假圖,由于這張假圖標(biāo)簽已知,可以用它在測試階段繼續(xù)更新檢測模型。為了更好的利用預(yù)訓(xùn)練模型與更快的更新速度,本工作用元學(xué)習(xí)概念來作為基本框架。
通過在多個標(biāo)桿數(shù)據(jù)集上的實驗,該方法不僅能提高檢測器在各種未知造假方法上的準(zhǔn)確率,也能有效提高檢測器在遇到不同后處理方法時的泛化性。

Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation
通過反向梯度擾動提升對抗樣本的遷移性
本文由騰訊 AI Lab 主導(dǎo),與香港中文大學(xué)(深圳),深圳市大數(shù)據(jù)研究院,京東探索研究院合作完成。
對抗樣本通過注入難以察覺的擾動來使得模型產(chǎn)生錯誤的預(yù)測,目前深度神經(jīng)網(wǎng)絡(luò)已被證明容易受到對抗樣本的攻擊。由于真實場景下,深度模型結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)對攻擊者而言是不可知的,研究對抗樣本的可遷移性對深度系統(tǒng)的安全性而言非常重要。許多現(xiàn)有的工作表明,對抗樣本可能會過度擬合生成它們的代理模型,從而限制了其遷移到不同目標(biāo)模型時的攻擊性能。
為了減輕對抗樣本對代理模型的過度擬合,本文提出了一種新的攻擊方法,稱為反向?qū)箶_動攻擊(RAP)。具體來說,不同于現(xiàn)有的最小化單個對抗樣本的損失,RAP目標(biāo)于尋找具有一致性低對抗攻擊損失的區(qū)域。RAP 的對抗攻擊過程可以表述為一個min-max雙層優(yōu)化問題。在每一步的迭代中,RAP首先計算基于當(dāng)前對抗樣本點的一個最弱的攻擊方向,并疊加到對抗樣本上。通過將 RAP 集成到攻擊的迭代過程中,我們的方法可以找到具有一致性低對抗攻擊損失的區(qū)域,降低對抗樣本對模型對決策邊界的變化的敏感性,進(jìn)而減輕其對代理模型的過擬合。
綜合實驗比較表明,RAP 可以顯著提高對抗遷移性。此外,RAP 可以自然地與許多現(xiàn)有的黑盒攻擊技術(shù)相結(jié)合,以進(jìn)一步提高遷移攻擊性能。最后,針對 Google Cloud Vision API的目標(biāo)攻擊實現(xiàn)顯示我們的方法獲得了 22% 的性能提升。

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
AdaptFormer:一種可適配多種視覺識別任務(wù)的的適應(yīng)性 ViT
本文由騰訊AI Lab主導(dǎo),與香港大學(xué),香港中文大學(xué)合作完成。
在計算機(jī)視覺中,預(yù)訓(xùn)練的ViT(Vision Transformers)獲得了很好的效果。然而,將一個ViT適配于不同的圖像和視頻數(shù)據(jù)是非常有挑戰(zhàn)性的,因為計算開銷和存儲負(fù)擔(dān)都很重,每一個模型都需要獨立并且完全的訓(xùn)練從而適配于不同的任務(wù)。這樣一個完全訓(xùn)練的適配限制了其往不同數(shù)據(jù)域的遷移性。
為了解決這個問題,本文提出了一個有效的針對 ViT 的遷移方式,稱為 Adaptformer。其可以將一個ViT適配到不同的圖像和視頻任務(wù)中。這樣一個適配比先前的機(jī)制有很多優(yōu)勢。第一, Adaptformer 僅僅引入輕量級的模型。在額外增加2%的參數(shù)量的情況下,其在不更新原有模型參數(shù)的情況下,提升了原有ViT模型的遷移性,在視頻分類任務(wù)中超越了完全訓(xùn)練模型的效果。第二,其可以方便的植入現(xiàn)有模型中并跟隨不同視覺任務(wù)變化而相應(yīng)調(diào)整。第三,大量的圖像和視頻實驗表明 Adaptformer 可以很好的提升 ViT 在目標(biāo)數(shù)據(jù)源的效果。舉例來說,在更新 1.5% 的額外參數(shù)量時,其可以比完全訓(xùn)練模型,在 SSV2 獲得 10% 和在 HMDB51 獲得 19% 的額外提升。

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
一個模型搞定圖像編輯:利用語義調(diào)制實現(xiàn)基于自由文本的圖像編輯
本文由騰訊 AI Lab 主導(dǎo),與清華大學(xué)、香港科技大學(xué)合作完成。
利用文本個性化輸入的方式,可以使得用戶在圖像編輯中方便地描述其意圖。基于 stylegan 的視覺隱空間和 CLIP 的文本空間,研究關(guān)注于如何將這兩個空間進(jìn)行匹配,從而實現(xiàn)基于文本的屬性編輯。目前來看,隱空間的匹配都是經(jīng)驗性設(shè)計的。從而導(dǎo)致每一個圖像編輯模型,只能處理一種固定的文本輸入。
本文提出了一種叫自由形式 CLIP 的方法,期望能夠構(gòu)建一個自動的隱空間對齊的方式,從而一個圖像編輯模型可以處理多種多樣的文本輸入。該方法有一個跨模態(tài)語義調(diào)制模塊,其包含了語義對齊和注入。語義對齊通過線性映射的方式自動實現(xiàn)了隱空間匹配,該映射是靠交叉注意力實現(xiàn)的。在對齊之后,我們將文本的語義信息注入視覺隱空間中。對于一類圖像,我們可以用多種文本信息進(jìn)行編輯。與此同時,我們觀察到盡管訓(xùn)練時候我們用單一的文本語義。在測試中可以用多種文本語義同時進(jìn)行圖像編輯。
在實驗中,我們在三類圖像上對我們的算法進(jìn)行了評估。實驗結(jié)果表明我們算法有效的進(jìn)行了語義準(zhǔn)確和視覺真實的圖像編輯。

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
視頻 MAE:遮蓋的自動編碼器在自監(jiān)督視頻預(yù)訓(xùn)練中是有效利用數(shù)據(jù)的學(xué)習(xí)器
本文由騰訊 AI Lab 主導(dǎo),與南京大學(xué)合作完成。
在大數(shù)據(jù)進(jìn)行視頻 Transformer 預(yù)訓(xùn)練往往能夠比在小數(shù)據(jù)集上取得更優(yōu)的性能。本文指出,視頻的遮蓋式自動編碼器在自監(jiān)督視頻預(yù)訓(xùn)練中是一個有效利用數(shù)據(jù)的學(xué)習(xí)器。作者受最近圖像的遮蓋式編碼器啟發(fā),提出了視頻管道式遮蓋的的方式,該遮蓋需要用一個非常大的比例。而這樣一個簡單的設(shè)計會使得視頻恢復(fù)更具有挑戰(zhàn)性,同時對自監(jiān)督學(xué)習(xí)更具有意義,因為可以在預(yù)訓(xùn)練中有效提取更多的視頻表征。
該項工作有三個重要的發(fā)現(xiàn)。第一,用一個極端比例的掩膜依然能夠獲得很好的效果。在時間維度冗余的視頻內(nèi)容支持我們這樣一個極端比例的掩膜設(shè)計。第二,視頻MAE在小數(shù)據(jù)集上也能夠取得很好的性能。這可能是因為任務(wù)本身對數(shù)據(jù)的充分利用。第三,我們展示了數(shù)據(jù)質(zhì)量比數(shù)量更重要??缬騿栴}在預(yù)訓(xùn)練和實際后續(xù)訓(xùn)練中比較重要。
實驗證明,該算法在不利用外部額外數(shù)據(jù)前提下,利用原始的 ViT 結(jié)構(gòu)可以在 K400 上取得 84.7% 的準(zhǔn)確率,在 SSV2 上取得 75.3% 的準(zhǔn)確率,在 HMDB51 上取得 61.1% 的準(zhǔn)確率。

AI+生命科學(xué)
TreeMoco: Contrastive Neuron Morphology Representation Learning
TreeMoco:神經(jīng)元形態(tài)表征對比學(xué)習(xí)
本文由騰訊 AI Lab 主導(dǎo), 與賓夕法尼亞大學(xué)、東南大學(xué)合作完成。
神經(jīng)元形態(tài)學(xué)是描繪神經(jīng)元細(xì)胞類型、分析大腦發(fā)育過程和評估神經(jīng)系統(tǒng)疾病病理變化的關(guān)鍵指標(biāo)。傳統(tǒng)分析主要依賴于啟發(fā)式特征和人眼觀察。用于定量并全面描述神經(jīng)元形態(tài)的特征在很大程度上依然缺失。
為了填補(bǔ)這一空白,該項工作采用 Tree-LSTM 網(wǎng)絡(luò)對神經(jīng)元形態(tài)進(jìn)行編碼,并引入了名為 TreeMoco 的自監(jiān)督學(xué)習(xí)框架在無標(biāo)簽信息的前提下學(xué)習(xí)特征。
作者來自三種不同公共資源的 2403 個小鼠大腦的高質(zhì)量 3D 神經(jīng)元重建上測試了 TreeMoco。結(jié)果表明,TreeMoco 在分類主要腦細(xì)胞類型和識別亞型方面均有效。據(jù)目前所知,TreeMoco 是第一個探索通過對比學(xué)習(xí)來學(xué)習(xí)神經(jīng)元樹形態(tài)表示的嘗試,它具有為定量神經(jīng)元形態(tài)分析提供新思路的巨大潛力。


Equivariant Graph Hierarchy-based Neural Networks
等變圖層次網(wǎng)絡(luò)
本文由騰訊 AI Lab 主導(dǎo),與清華大學(xué),中國人民大學(xué)高瓴人工智能學(xué)院合作完成。
等變圖神經(jīng)網(wǎng)絡(luò)(EGNs)在描述多體物理系統(tǒng)的動態(tài)方面具有強(qiáng)大的功能。現(xiàn)有的等變圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制捕捉復(fù)雜系統(tǒng)的空間/動力學(xué)層次,特別是限制了子結(jié)構(gòu)的發(fā)現(xiàn)和系統(tǒng)全局信息的融合。
本文提出的等變圖層次網(wǎng)絡(luò)(EGHN),由三個關(guān)鍵部分組成:廣義等值矩陣消息傳遞(EMMP)、E-Pool 和 E-UnPool。特別是,EMMP 能夠提高傳統(tǒng)等變量消息傳遞的表達(dá)能力,E-Pool 將得到節(jié)點的更抽象的層次結(jié)構(gòu)。而 E-UnPool 則利用高層信息來更新低層節(jié)點的動態(tài)。
本文證明了 E-Pool 和 E-UnPool 是等變的,以滿足物理對稱性。大量的實驗評估驗證了我們的EGHN在多個應(yīng)用中的有效性,包括多物體動力學(xué)模擬、運動捕捉和蛋白質(zhì)動力學(xué)建模。正如它們的名字所暗示的,E-Pool 和 E-UnPool 都被保證是等價的,以滿足物理對稱性。大量的實驗評估驗證了我們的 EGHN 在多個應(yīng)用中的有效性,包括多物體動力學(xué)模擬、運動捕捉和蛋白質(zhì)動力學(xué)建模。

Learning Causally Invariant Representations for Out-of-Distribution Generalization on Graphs
面向圖數(shù)據(jù)分布外泛化的因果表示學(xué)習(xí)
本文由騰訊 AI Lab 與香港中文大學(xué),香港浸會大學(xué)和悉尼大學(xué)合作完成,已被會議評為 Spotlight 論文。
近年來,盡管在圖像等歐式數(shù)據(jù)上使用因果不變性原理進(jìn)行分布外泛化(Out-of-Distribution generalization)取得了一定的成功,但對圖數(shù)據(jù)的研究仍然有限。與歐式數(shù)據(jù)不同,圖的復(fù)雜性對采用因果不變性原理的使用提出了獨特的挑戰(zhàn)。首先,圖上的分布偏移(Distribution shifts)既可以在節(jié)點屬性上出現(xiàn),也可以在圖結(jié)構(gòu)上出現(xiàn),給圖上不變性的識別帶來了很大的困難。此外,先前大部分歐式數(shù)據(jù)上的分布外泛化算法所需要的域(Domain)或環(huán)境劃分信息,在圖數(shù)據(jù)上也很難獲得,給面向圖數(shù)據(jù)的分布外泛化算法開發(fā)帶來了更大的挑戰(zhàn)。
為了在圖數(shù)據(jù)上也能做到分布外泛化,本文提出了一個新的框架,稱為因果關(guān)系啟發(fā)不變圖學(xué)習(xí) (CIGA),以識別和利用圖數(shù)據(jù)上的因果不變性,使得模型能夠在圖上的各種分布變化下實現(xiàn)良好的泛化性能。具體來說,我們首先用因果圖建模了圖上可能的分布變化,并推導(dǎo)出,當(dāng)模型只關(guān)注包含有關(guān)標(biāo)簽成因的最多信息的子圖時,可以實現(xiàn)圖上的分布外泛化。為此,我們提出了一個信息論目標(biāo),以提取最大程度地保留不變的同類信息的所需子圖,使用這類子圖進(jìn)行學(xué)習(xí)和預(yù)測則可不受分布變化的影響。
本文對 16 個合成數(shù)據(jù)集和真實世界數(shù)據(jù)集的廣泛實驗,包括在 AI 制藥相關(guān)的分子屬性預(yù)測數(shù)據(jù)集 DrugOOD 上,驗證了 CIGA 在圖上(節(jié)點屬性、圖結(jié)構(gòu)、圖大小等)各種分布偏移下良好的分布外泛化能力。

文章轉(zhuǎn)自騰訊AI Lab微信(tencent_ailab)

分享
收藏
點贊
在看

