<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一行代碼發(fā)一篇ICML?

          共 2118字,需瀏覽 5分鐘

           ·

          2020-07-30 19:15

          加入極市專業(yè)CV交流群,與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度?等名校名企視覺開發(fā)者互動(dòng)交流!

          同時(shí)提供每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、干貨資訊匯總,行業(yè)技術(shù)交流。關(guān)注?極市平臺(tái)?公眾號(hào)?,回復(fù)?加群,立刻申請(qǐng)入群~

          就在明天,極市直播第64期:非受控環(huán)境下的表情識(shí)別。來自中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院的彭小江副研究員和王鍇將為我們介紹分享自注意力策略在這些問題上的兩個(gè)探索工作,詳情點(diǎn)這里。在極市平臺(tái)后臺(tái)回復(fù)“64”,即可獲取直播鏈接。

          來源|kid丶@知乎,https://zhuanlan.zhihu.com/p/163676138
          這篇文章發(fā)自2020年的ICML,腦洞很大,居然只有一行代碼?
          論文鏈接https://arxiv.org/pdf/2002.08709.pdf
          上圖可以大致描述整篇文章干了一件啥事。先看左邊一列,是一個(gè)正常的訓(xùn)練過程,對(duì)于階段A,隨著training loss的降低,test loss也會(huì)跟著降低;但是到階段B后,我們繼續(xù)在訓(xùn)練集上訓(xùn)練,會(huì)讓test loss上升。右邊一列是本文提出的 flooding方法,當(dāng)training loss大于一個(gè)閾值(flood level)時(shí),進(jìn)行正常的梯度下降;當(dāng)training loss低于閾值時(shí),會(huì)反過來進(jìn)行梯度上升,讓training loss保持在一個(gè)閾值附近,讓模型持續(xù)進(jìn)行“random walk”,并期望模型能被優(yōu)化到一個(gè)平坦的損失區(qū)域,這樣發(fā)現(xiàn)test loss進(jìn)行了double decent!一個(gè)簡(jiǎn)單的理解是,這和early stop類的方法類似,防止參數(shù)被優(yōu)化到一個(gè)不好的極小值出不來。
          本文也是十分的“囂張”,直接在文章introduction部分貼出了pytorch代碼,僅僅增加了一行代碼,真是好氣!整個(gè)的損失從 被改成了 。
          接下來是自己的一些思考,假設(shè)我們的損失一開始如由左圖所示,橫坐標(biāo)是參數(shù) ,縱坐標(biāo)是損失 ,此時(shí)有兩個(gè)極小值點(diǎn)(灰色三角形和紅色三角形),首先試問哪一個(gè)極小值要好一些(這個(gè)后面再做分析)。另外,假設(shè)虛線代表 ,那么使用 flooding 方法相當(dāng)于把低于閾值部分翻上來,二維的情況也類似??梢园l(fā)現(xiàn),整個(gè)目標(biāo)多了很多極小值,二維平面的情況則是多了一圈極小值,是否可以說右邊的損失要比左邊的損失更加“平坦”,然后泛化能力會(huì)越好。
          接下來是我的一些分析,首先是前面提到的灰色三角形和紅色三角形兩個(gè)極小值點(diǎn),分別由上述兩個(gè)損失代替,右邊的損失比左邊的損失看起來更“平坦”。我們從對(duì)抗樣本的角度來理解,藍(lán)色的笑臉代表正常被分對(duì)的樣本,對(duì)抗樣本是通過優(yōu)化樣本使得損失變大,從而讓模型對(duì)該樣本分錯(cuò)(黃色的難過臉)。直觀來看,越平坦的損失會(huì)讓對(duì)抗樣本的生成越困難( 越大),因此越平坦的損失會(huì)讓模型對(duì)對(duì)抗擾動(dòng)越魯棒。
          其實(shí),一般的魯棒性和泛化性也如此,一般的魯棒性是指模型對(duì)樣本進(jìn)行一些諸如高斯模糊、椒鹽噪聲等等魯棒。換句話說,對(duì)樣本進(jìn)行一定的擾動(dòng)( ),模型對(duì)擾動(dòng)后樣本的損失不要太大才行,越平坦的損失,一般魯棒性也會(huì)越好。另一方面,泛化性也是一樣,模型的預(yù)測(cè)一般滿足相似的輸入有相似的輸出(假設(shè)損失對(duì) 光滑),也就是說,模型對(duì)樣本學(xué)到的模式是某種特征左右的樣本應(yīng)該屬于為某一類。換句話說,對(duì)于一個(gè)未見過的樣本 (黃色難過臉)和樣本 (藍(lán)色笑臉)屬于相同類,模型能將其分對(duì)的必要條件是損失不要過大,則此時(shí)“平坦”的損失能夠滿足這一條件,且泛化性會(huì)越好。
          最后我們?cè)賮韽膕vm的角度來思考這個(gè)問題。對(duì)于一個(gè)線性可分的二分類問題,有無數(shù)條分類面能將其分開,而svm是去挑選能滿足“最大間隔”的分類器。從另一個(gè)角度來理解是,越平坦的損失,是不是能越盡可能地將不同類給分開,因?yàn)闃颖具M(jìn)行些許擾動(dòng),損失的變化不會(huì)太大,相當(dāng)于進(jìn)行細(xì)微擾動(dòng)后的樣本不會(huì)跑到分類面的另一邊去!
          上述的分析存在著一個(gè)問題是,橫坐標(biāo)應(yīng)該是參數(shù) ,而我卻一直把橫坐標(biāo)當(dāng)作 ,但其實(shí)認(rèn)真想想,換成 也好像成立。因?yàn)樯窠?jīng)網(wǎng)絡(luò)參數(shù) 是乘積的形式,對(duì)參數(shù) 的細(xì)微變化能否等價(jià)于對(duì)樣本 的細(xì)微變化!


          推薦閱讀


          添加極市小助手微信(ID : cv-mart),備注:研究方向-姓名-學(xué)校/公司-城市(如:目標(biāo)檢測(cè)-小極-北大-深圳),即可申請(qǐng)加入極市技術(shù)交流群,更有每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、行業(yè)技術(shù)交流,一起來讓思想之光照的更遠(yuǎn)吧~

          △長(zhǎng)按添加極市小助手

          △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

          覺得有用麻煩給個(gè)在看啦~??
          瀏覽 37
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  韩国黄色毛片 | 免费无码又爽又刺激A片视频男男 | 久久久国产91桃色一区二区三区 | 东京热一区二区三区 | 中文无码短视频 |