<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          21歲華人本科生,憑什么拿下CVPR 2020最佳論文提名?

          共 3177字,需瀏覽 7分鐘

           ·

          2020-07-28 17:07

          點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂”

          重磅干貨,第一時間送達

          在訓練神經(jīng)網(wǎng)絡的時候,經(jīng)常會出現(xiàn)「缺數(shù)據(jù)」的情況。

          這時候,就需要「數(shù)據(jù)增強」來獲取更多數(shù)據(jù)。而近幾年,鏡像反轉(zhuǎn)成了最為常用的方法之一。

          轉(zhuǎn)一次,獲得2倍數(shù)據(jù),真香!

          然而,事情卻沒有想像中的那么簡單——當翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時,神經(jīng)網(wǎng)絡所擬合的函數(shù),還能代表原先的圖像分布么?

          針對這一問題,來自康奈爾大學的研究員,首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡訓練中,圖片「翻轉(zhuǎn)不變性」(flip-invariant) 的這一假設。

          研究的題目叫做視覺手性 (Visual Chirality),并在CVPR 2020中獲得了最佳論文提名

          注:手性的定義為「一個物體無法與其鏡像相重合」。「視覺手性」一詞啟發(fā)自手性,意指「計算機視覺領(lǐng)域中圖像分布與其鏡像分布的區(qū)別」。

          而該研究的一作,是此屆CVPR大會上年紀最小的獲獎者,年僅21歲的華人科研新秀——林之秋。

          這項研究在多種領(lǐng)域(人臉,互聯(lián)網(wǎng)圖片,數(shù)字處理圖像)上利用卷積神經(jīng)網(wǎng)絡,發(fā)現(xiàn)了許多常人難以捕捉的「視覺手性」線索。

          通過自監(jiān)督訓練,在多項數(shù)據(jù)集上達到了60%,甚至到90%的精度。

          鏡像翻轉(zhuǎn)的圖像,能不變?

          為了理解這一鏡像翻轉(zhuǎn)話題,我們先來看下這樣的一個例子:

          在上面這張圖中,你能判斷出哪些圖像被翻轉(zhuǎn)了嗎?答案如下:

          • 圖一:鏡像翻轉(zhuǎn)(線索:文字)。我們可以很容易看出來文字被翻轉(zhuǎn)過了。

          • 圖二:沒有翻轉(zhuǎn)(線索:紐扣)。男士襯衫的紐扣一般位于身體右側(cè)。

          • 圖三:鏡像翻轉(zhuǎn)(線索:吉他)。吉他手的主手應當在吉他右側(cè)。

          鏡像翻轉(zhuǎn)對于人類而言并沒有多少區(qū)別(如圖二和圖三),因而難以判斷。

          然而,神經(jīng)網(wǎng)絡卻可以通過自監(jiān)督訓練的方法在這個任務上達到非常高的精度,并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)。

          手性代表著單個圖片的翻轉(zhuǎn)不對稱性,而視覺手性 (Visual Chirality)則是針對圖像分布所定義的翻轉(zhuǎn)不對稱性。

          當一個圖像分布具備視覺手性時,使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強方法,將不可避免的改變一個數(shù)據(jù)集所代表的分布。

          換句話說,只有當一個圖像分布不具備視覺手性的時候,才能在不改變原先圖像分布的前提下,使用鏡像翻轉(zhuǎn)來增強數(shù)據(jù)集。

          然而,視覺手性是大部分視覺領(lǐng)域都擁有的屬性。正如此篇文章作者,谷歌AI科學家Noah Snavely教授所說:

          在計算機視覺的研究中,我們常把這個世界視為”翻轉(zhuǎn)不變“的,鏡像翻轉(zhuǎn)因而是一個常規(guī)的數(shù)據(jù)增強方法。

          然而,當你翻轉(zhuǎn)圖片后,文字將被顛倒,左手變?yōu)橛沂郑菪獯罄嬉矊⒊喾捶较蛐D(zhuǎn)。

          那么,這項研究又是如何挑戰(zhàn)了,人們先前在計算機視覺中,對于「翻轉(zhuǎn)不變性」假設的呢?

          實驗過程

          這項研究利用了自監(jiān)督學習方法來訓練卷積神經(jīng)網(wǎng)絡。

          對于任何一個數(shù)據(jù)集,只需要將其原有的圖片標記為「無翻轉(zhuǎn)」,并將鏡像翻轉(zhuǎn)過的圖片標記為「有翻轉(zhuǎn)」,即可訓練神經(jīng)網(wǎng)絡識別鏡像翻轉(zhuǎn)這個二分類任務(binary classification)

          同時,可以根據(jù)神經(jīng)網(wǎng)絡在驗證集的表現(xiàn),來評估這一圖像分布是否具備視覺手性:

          如果驗證集上的精度要顯著大于50%,便有充足的證據(jù)來證明視覺手性的存在。

          這項研究利用了ResNet-50作為基本的網(wǎng)絡結(jié)構(gòu),并使用SGD方法來訓練網(wǎng)絡。

          為了了解神經(jīng)網(wǎng)絡學到了哪些視覺手性線索,研究人員利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對于視覺手性敏感的區(qū)域進行了高亮。

          同時因為能造成視覺手性的現(xiàn)象有很多,研究人員還推出了一個簡單的基于類激活映射的聚類方法——手性特征聚類 (Chiral Feature Clustering)

          互聯(lián)網(wǎng)圖片集上,神經(jīng)網(wǎng)絡在鏡像翻轉(zhuǎn)識別上取得了高達60%-80%的精度。

          研究人員在Instagram圖片集上進行了手性特征聚類,并挑選了一系列與人們生活相關(guān)的典型視覺手性現(xiàn)象進行討論。

          • 手機:對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因為手機的攝像頭一般固定在手機背面的一側(cè)(因品牌而異),同時由于多數(shù)人是右撇子,一般都以右手持手機進行自拍。

          • 吉他:幾乎大多數(shù)的吉他手都以右手撥弦,左手持把。

          • 手表:手表一般都被帶在人們的右手側(cè)。

          為了深入了解人臉的視覺手性現(xiàn)象,研究人員在人臉數(shù)據(jù)集上進行了孤立訓練。

          在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進行了訓練,并在測試集上取得了高達81%的精度,還利用手性特征聚類對人臉中的視覺手性現(xiàn)象進行了初步的探討:

          • 劉海分界處:人們一般用右手來分理劉海,這會導致劉海的朝向向一側(cè)偏移,并出現(xiàn)視覺手性現(xiàn)象。

          • 眼睛:人們在看向物體時傾向于用一只主視眼進行瞄準,這樣會導致人們的目光在進行拍攝時出現(xiàn)偏移。多數(shù)人的主視眼為右眼,而這一現(xiàn)象可能是導致視覺手性現(xiàn)象的成因。

          • 胡子:與頭發(fā)一樣,可能與人們習慣于用右手理胡子有關(guān)。

          文中對以上的視覺手性現(xiàn)象的討論均為初步的分析,而人臉中任有大量的視覺手性線索值得被發(fā)掘。

          除此之外,研究人員還對數(shù)字圖像處理過程 (例如去馬賽克和圖片壓縮)中產(chǎn)生的視覺手性現(xiàn)象進行了分析。

          舉個例子,當研究人員首次利用神經(jīng)網(wǎng)絡,在Instagram數(shù)據(jù)集上進行自監(jiān)督訓練時,發(fā)現(xiàn)沒有使用隨機剪裁(random cropping)的神經(jīng)網(wǎng)絡。

          但在部分圖片上,類激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分,如下圖所示:

          而在使用隨機剪裁之后,研究人員得到的新的熱圖,則更關(guān)注來自于圖片中物體本身的線索。

          研究人員提出:當數(shù)字圖像處理過程和鏡像翻轉(zhuǎn)不具備「交換律」時,視覺手性將會憑空產(chǎn)生在一個圖像分布上。

          作者通過概率論與群論(group theory),對此假設進行了嚴謹?shù)臄?shù)學論證,并通過神經(jīng)網(wǎng)絡實驗驗證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。

          而此類的線索往往不能被肉眼可見,卻在圖片中存在固定的模式,因而為圖像識偽的應用創(chuàng)造了可能性。

          98年華人科學新秀

          這項研究的第一作者,是98年生的華人科學新秀——林之秋。

          林之秋17歲便考入美國“常春藤”盟校——康奈爾大學,而這也是他「開掛人生」的開始。

          林之秋僅用兩年時間就全部修完計算機和數(shù)學兩個專業(yè)的本科課程,并從大二開始選修博士課程,同時跟隨計算機系的教授從事科研工作。

          他在多項專業(yè)課上,例如多元微積分、線性代數(shù)、高等抽象代數(shù)、人工智能、計算機操作系統(tǒng)等都取得過第一名。

          由于成績極為優(yōu)異,自大二起林之秋就接受計算機系里邀請,以助教身份給高年級同學講課,為康奈爾科技學院編寫碩士生的預修課程,甚至在高階機器學習課上給博士生的試卷打分。

          而這篇「CVPR 2020最佳論文提名」的研究,是林之秋從大二就開始著手準備的項目,這也顯示了他「超級大學霸」的真實實力。

          如今,本科畢業(yè)的林之秋,總成績在學院數(shù)千名學生中名列前三,并受院長邀請在畢業(yè)典禮上代表學院舉旗。之后,他即將前往卡內(nèi)基梅隆機器人學院,攻讀計算機視覺博士學位。

          在此,也預祝林之秋同學,能夠在科研的道路上,繼續(xù)乘風破浪!

          傳送門

          文章鏈接:
          https://arxiv.org/abs/2006.09512

          文章網(wǎng)站:
          http://visual-chirality.io

          代碼鏈接:
          https://github.com/linzhiqiu/digital_chirality


          最后的最后求一波分享!

          YOLOv4 trick相關(guān)論文已經(jīng)下載并放在公眾號后臺

          關(guān)注“AI算法與圖像處理”,回復 “200714”獲取


          個人微信
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
          如果沒有備注不拉群!

          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月天黄色电影 | 日韩一级品电影 | 欧美日韩高清性爱在线观看 | 久久久久久久久久久久久久精 | 日韩AVAV |