當(dāng)支持向量機遇上神經(jīng)網(wǎng)絡(luò):這項研究揭示了SVM、GAN、Wasserstein距離之間的關(guān)系
SVM 是機器學(xué)習(xí)領(lǐng)域的經(jīng)典算法之一。如果將 SVM 推廣到神經(jīng)網(wǎng)絡(luò),會發(fā)生什么呢?
支持向量機(Support Vector Machine,SVM)是大多數(shù) AI 從業(yè)者比較熟悉的概念,它是一種在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。
給定一組訓(xùn)練實例,每個訓(xùn)練實例被標(biāo)記為屬于兩個類別中的一個或另一個,SVM 訓(xùn)練算法創(chuàng)建一個將新的實例分配給兩個類別之一的模型,使其成為非概率二元線性分類器。
SVM 模型將實例表示為空間中的點,這樣映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開。
然后,將新的實例映射到同一空間,并基于它們落在間隔的哪一側(cè)來預(yù)測所屬類別。

論文地址:
https://arxiv.org/abs/1910.06922
代碼地址:
https://github.com/AlexiaJM/MaximumMarginGANs
該研究將最大間隔分類器(MMC)的概念擴展到任意范數(shù)和非線性函數(shù)。支持向量機是 MMC 的一個特例。
研究者發(fā)現(xiàn),MMC 可以形式化為積分概率度量(Integral Probability Metrics,IPM)或具備某種形式梯度范數(shù)懲罰的分類器。這表明它與梯度懲罰 GAN 有直接關(guān)聯(lián)。
該研究表明,Wasserstein GAN、標(biāo)準 GAN、最小二乘 GAN 和具備梯度懲罰的 Hinge GAN 中的判別器都是 MMC,并解釋了 GAN 中最大化間隔的作用。
研究者假設(shè) L^∞ 范數(shù)懲罰和 Hinge 損失生成的 GAN 優(yōu)于 L^2 范數(shù)懲罰生成的 GAN,并通過實驗進行了驗證。
此外,該研究還導(dǎo)出了 Relativistic paired (Rp) 和 average (Ra) GAN 的間隔。
這篇論文共包含幾部分:在第二章中,研究者回顧了 SVM 和 GAN;第三章,研究者概述了最大間隔分類器(MMC)的概念;第四章,研究者用梯度懲罰解釋了 MMC 和 GAN 之間的聯(lián)系。
其中 4.1 提到了強制 1-Lipschitz 等價于假設(shè)一個有界梯度,這意味著 Wasserstein 距離可以用 MMC 公式來近似估算;
4.2 描述了在 GAN 中使用 MMC 的好處;
4.3 假定 L1 范數(shù)間隔能夠?qū)е赂唪敯粜缘姆诸惼鳎?/span>
4.4 推導(dǎo)了 Relativistic paired GAN 和 Relativistic average GAN 的間隔。
最后,第五章提供了實驗結(jié)果以支持文章假設(shè)。
SVM 是 MMC 的一個特例。MMC 是使間隔最大化的分類器 f(間隔指的是決策邊界與數(shù)據(jù)點之間的距離)。
決策邊界是指我們無法分辨出樣本類別的區(qū)域(所有 x 使得 f(x)=0)。
Soft-SVM 是一種特殊情況,它可以使最小 L2 范數(shù)間隔最大化。
下圖展示了實際使用中的 Soft-SVM:

將(1)視為「樣本的間隔」;
將(2)視為「數(shù)據(jù)集的間隔」。
Hard-SVM(原始形式)解決了最大化最小間隔的問題。Soft-SVM 解決了另一個更簡單的問題——最大化期望 soft-margin(最小化期望 Hinge 損失)。
這個問題很容易解決,hinge 損失確保遠離邊界的樣本不會對假重復(fù) Hard-SVM 效果的嘗試產(chǎn)生任何影響。
從這個角度看,最大化期望間隔(而不是最大化最小間隔)仍會導(dǎo)致最大間隔分類器,但是分類器可能會受到遠離邊界的點的影響(如果不使用 Hinge 損失的話)。
因此,最大化期望間隔意味著最大化任何樣本(即數(shù)據(jù)點)與決策邊界之間的平均距離。這些方法就是最大間隔分類器(MMC)的示例。
為了盡可能地通用化,該研究設(shè)計了一個框架來導(dǎo)出 MMC 的損失函數(shù)。研究者觀察到,該框架可以導(dǎo)出帶有梯度懲罰的基于間隔的目標(biāo)函數(shù)(目標(biāo)函數(shù) F 的形式為 F(yf(x)))。
這就意味著標(biāo)準 GAN、最小二乘 GAN、WGAN 或 HingeGAN-GP 都是 MMC。所有這些方法(和 WGAN-GP 一樣使用 L2 梯度規(guī)范懲罰時)都能最大化期望 L2 范數(shù)間隔。
重要的是,這意味著我們可以將最成功的 GAN(BigGAN、StyleGAN)看作 MMC。
假定 Lipschitz-1 判別器一直被看作實現(xiàn)優(yōu)秀 GAN 的關(guān)鍵因素,但它可能需要一個能夠最大化間隔的判別器和相對判別器(Relativistic Discriminator)。
該研究基于 MMC 判別器給偽生成樣本帶來更多梯度信號的事實,闡述了其優(yōu)點。
這兩個問題的答案都是肯定的。最小化 L1 范數(shù)的損失函數(shù)比最小化 L2 范數(shù)的損失函數(shù)對異常值更具魯棒性。
基于這一事實,研究者提出質(zhì)疑:L1 范數(shù)間隔會帶來魯棒性更強的分類器,生成的 GAN 也可能比 L2 范數(shù)間隔更佳。
重要的是,L1 范數(shù)間隔會造成 L∞ 梯度范數(shù)懲罰,L2 范數(shù)間隔會造成 L2 梯度范數(shù)懲罰。
該研究進行了一些實驗,表明 L∞ 梯度范數(shù)懲罰(因使用 L1 間隔產(chǎn)生)得到的 GAN 性能更優(yōu)。
此外,實驗表明, HingeGAN-GP 通常優(yōu)于 WGAN-GP(這是說得通的,因為 hinge 損失對遠離邊界的異常值具有魯棒性),并且僅懲罰大于 1 的梯度范數(shù)效果更好(而不是像 WGAN-GP 一樣,使所有的梯度范數(shù)逼近 1)。
因此,盡管這是一項理論研究,但研究者發(fā)現(xiàn)了一些對改進 GAN 非常有用的想法。
使用該框架,研究者能夠為 Relativistic paired (Rp) GAN 和 Relativistic average (Ra) GAN 定義決策邊界和間隔。
人們常常想知道為什么 RpGAN 的性能不如 RaGAN,在這篇文章中,研究者對此進行了闡述。
使用 L1 范數(shù)間隔的想法只是冰山一角,該框架還能通過更具魯棒性的間隔,設(shè)計出更優(yōu)秀的 GAN(從而提供更好的梯度懲罰或「光譜」歸一化技術(shù))。
最后,對于為什么梯度懲罰或 1-Lipschitz 對不估計 Wasserstein 距離的 GAN 有效,該研究也提供了明確的理論依據(jù),更多細節(jié)可參考原論文。
論文地址:
https://arxiv.org/abs/1910.06922
代碼地址:
https://github.com/AlexiaJM/MaximumMarginGANs
今天給大家推薦下,七月在線【機器學(xué)習(xí)集訓(xùn)營 第十二期】課程。
1
專業(yè)的教學(xué)模式
【機器學(xué)習(xí)集訓(xùn)營?第十二期】,采取十二位一體的教學(xué)模式,包括12個環(huán)節(jié):“入學(xué)測評、直播答疑、布置作業(yè)、階段考試、畢業(yè)考核、一對一批改、線上線下結(jié)合、CPU&GPU雙云平臺、組織比賽、聯(lián)合認證、面試輔導(dǎo)、就業(yè)推薦”。
2
完善的實戰(zhàn)項目
只學(xué)理論肯定是不行的,學(xué)機器學(xué)習(xí)的核心是要做項目,本期集訓(xùn)營共13大實戰(zhàn)項目.




3
專家級講師團隊
本期集訓(xùn)營擁有超豪華講師團隊,學(xué)員將在這些頂級講師的手把手指導(dǎo)下完成本期課程的學(xué)習(xí),挑戰(zhàn)40萬年薪。


授課老師、助教老師,多對一服務(wù)。從課上到課下,從專業(yè)輔導(dǎo)到日常督學(xué)、360度無死角為學(xué)員安心學(xué)習(xí)鋪平道路。陪伴式解答學(xué)員疑惑,為學(xué)員保駕護航。
4
六大課程特色


5
完善的就業(yè)服務(wù)
學(xué)員在完成所有的階段學(xué)習(xí)后,將會有一對一的就業(yè)服務(wù),包括簡歷優(yōu)化、面試求職輔導(dǎo)及企業(yè)內(nèi)推三大部分。
為了確保學(xué)員能拿到滿意的offer,七月在線還專門成立就業(yè)部,會專門為集訓(xùn)營學(xué)員提供就業(yè)服務(wù),保證每一位學(xué)員都能拿到滿意的offer。
掃碼查看課程詳情,同時大家也可以去看看之前學(xué)員的面試經(jīng)驗分享。
戳↓↓“閱讀原文”查看課程詳情!
