<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          太牛了!98 年后浪科學(xué)家,首次挑戰(zhàn)圖片翻轉(zhuǎn)不變性假設(shè),一作拿下 CVPR 最佳論文提名?

          共 9125字,需瀏覽 19分鐘

           ·

          2020-08-18 01:19

          點(diǎn)擊上方“碼農(nóng)突圍”,馬上關(guān)注
          這里是碼農(nóng)充電第一站,回復(fù)“666”,獲取一份專(zhuān)屬大禮包
          真愛(ài),請(qǐng)?jiān)O(shè)置“星標(biāo)”或點(diǎn)個(gè)“在看”
          出品 | AI科技大本營(yíng)
          ?
          剛剛結(jié)束的CVPR大會(huì),總共收到6424篇論文中,僅有26篇獲得最佳論文提名,占0.4%的比例。
          ?
          其中,康奈爾大學(xué)大四學(xué)生林之秋,以第一作者身份提交的“Visual Chirality”(視覺(jué)手性)一文獲得最佳論文提名,成為唯一一個(gè)還在本科階段,年齡最小的第一作者獲獎(jiǎng)?wù)摺?/span>

          論文中,林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中圖片”翻轉(zhuǎn)不變性“(flip-invariant) 的這一假設(shè)。這篇文章在多種領(lǐng)域(人臉,互聯(lián)網(wǎng)圖片,數(shù)字處理圖像)上利用卷積神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了許多常人難以捕捉的”視覺(jué)手性“線索,并通過(guò)自監(jiān)督訓(xùn)練在多項(xiàng)數(shù)據(jù)集上達(dá)到了60%甚至到90%的精度。
          ?
          這次取得最佳論文提名并非偶然,實(shí)際上,林之秋的學(xué)霸光環(huán)從進(jìn)入大學(xué)后一直很耀眼。

          大一,他同時(shí)選修了計(jì)算機(jī)和數(shù)學(xué)兩個(gè)專(zhuān)業(yè),因?yàn)槌煽?jī)極為優(yōu)異,他受計(jì)算機(jī)系的邀請(qǐng)以助教身份給高年級(jí)同學(xué)講課,還為康奈爾科技學(xué)院(Cornell Tech)的碩士生編寫(xiě)預(yù)修課程。
          ?
          大二開(kāi)始,他選修了博士課程,開(kāi)始從事科研工作。到了大三,林之秋當(dāng)上了機(jī)器學(xué)習(xí)高階課程的助教,給博士生的期末試卷打分。
          ?
          大學(xué)畢業(yè),他的成績(jī)?cè)趯W(xué)院上千名學(xué)生中名列前三,被授予學(xué)院最高榮譽(yù),并受院長(zhǎng)邀請(qǐng),代表學(xué)院在畢業(yè)典禮上舉旗。
          ?
          不過(guò),學(xué)霸此次獲得最佳論文提名并不像大學(xué)期末考試那樣相對(duì)容易。林之秋提到,這個(gè)新課題光是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和探索可解釋性,就花了一年時(shí)間。而且,由于新課題往往充滿了爭(zhēng)議性,新課題也曾在另一個(gè)會(huì)議上被一個(gè)審稿人以“不夠有新意”為理由拒稿。
          ?
          當(dāng)然,拒稿也給了他們更多時(shí)間把論文做得更完美。

          文章鏈接:https://arxiv.org/abs/2006.09512
          文章網(wǎng)站:visual-chirality.io
          代碼鏈接:https://github.com/linzhiqiu/digital_chirality

          以下為“更完美的”論文內(nèi)容詳解:
          神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量標(biāo)注數(shù)據(jù),但數(shù)據(jù)又永遠(yuǎn)是有限的。為了用有限的標(biāo)注數(shù)據(jù)來(lái)擬合函數(shù),人們使用數(shù)據(jù)增強(qiáng)(data augmentation)的方法來(lái)低成本地獲得更多的標(biāo)記數(shù)據(jù)。
          而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強(qiáng)方法之一。只需要將所有圖片都進(jìn)行一次鏡像翻轉(zhuǎn),我們就相當(dāng)于免費(fèi)得到了雙倍的數(shù)據(jù)。
          但事情真的這么簡(jiǎn)單么?當(dāng)我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時(shí),神經(jīng)網(wǎng)絡(luò)所擬合的函數(shù)還能代表原先的圖像分布么?來(lái)自康奈爾大學(xué)研究員的「視覺(jué)手性(Visual Chirality)」這篇論文首次討論了這一話題。
          為了理解這一鏡像翻轉(zhuǎn)話題,我們先從一個(gè)小測(cè)試開(kāi)始:
          你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)(水平翻轉(zhuǎn))了嗎?
          以下為答案:
          圖一:鏡像翻轉(zhuǎn)(線索:文字)。我們可以很容易看出來(lái)文字被翻轉(zhuǎn)過(guò)了。
          圖二:沒(méi)有翻轉(zhuǎn)(線索:紐扣)。男士襯衫的紐扣一般位于身體右側(cè)。
          圖三:鏡像翻轉(zhuǎn)(線索:吉他)。吉他手的主手應(yīng)當(dāng)在吉他右側(cè)。
          對(duì)于大部分的互聯(lián)網(wǎng)圖片來(lái)說(shuō)(例如圖二圖三),鏡像翻轉(zhuǎn)對(duì)于人類(lèi)而言并沒(méi)有多少區(qū)別,因而難以判斷。然而,神經(jīng)網(wǎng)絡(luò)卻可以通過(guò)自監(jiān)督訓(xùn)練的方法在這個(gè)任務(wù)上達(dá)到非常高的精度,并能指出圖片中哪些區(qū)域可以被用于識(shí)別鏡像翻轉(zhuǎn)(以上三張圖片利用了類(lèi)激活映射(CAM)方法進(jìn)行了高亮)。
          康奈爾的研究人員將這一視覺(jué)現(xiàn)象定義為“視覺(jué)手性”(Visual Chirality)。
          在化學(xué)等學(xué)科上,手性(Chirality)的定義為“一個(gè)物體無(wú)法與其鏡像相重合”。這種不對(duì)稱(chēng)性在自然界大量存在,并在不同領(lǐng)域有著廣泛的應(yīng)用。
          圖注:手具有手性(Chiral),因?yàn)殓R像翻轉(zhuǎn)后無(wú)法與原圖重合。而杯子是軸心對(duì)稱(chēng),所以不具備手性。
          手性(Chirality)代表著單個(gè)圖片的翻轉(zhuǎn)不對(duì)稱(chēng)性,而視覺(jué)手性(Visual Chirality)則是針對(duì)圖像分布(Image Distribution)所定義的翻轉(zhuǎn)不對(duì)稱(chēng)性。
          假設(shè)一個(gè)圖像分布中包含了右手和左手的照片(左右手的圖片出現(xiàn)概率一致),那么此時(shí),盡管每張圖片都具有手性,這個(gè)圖像分布卻不具備視覺(jué)手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長(zhǎng)的一樣了。反之,假設(shè)一個(gè)圖像分布中只存在右手不存在左手,那么這個(gè)分布就具備視覺(jué)手性(或稱(chēng)翻轉(zhuǎn)不對(duì)稱(chēng)性),因?yàn)槲覀冎酪粡堊笫值恼掌厝粸殓R像翻轉(zhuǎn)。
          用統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)來(lái)定義的話,假設(shè)有圖像分布D,而其中一個(gè)圖像是x,那么其在分布中出現(xiàn)概率是D(x)。我們將鏡像翻轉(zhuǎn)的操作稱(chēng)為T(mén),而翻轉(zhuǎn)圖片x我們可以得到T(x)。
          那么圖像分布D具備視覺(jué)手性意味著:D中存在圖片x,滿足D(x)≠D(T(x))的條件。
          如下圖所示,假設(shè)我們有一個(gè)一維的分布(橫軸上每個(gè)點(diǎn)都為一個(gè)元素),那么藍(lán)色實(shí)線所代表的分布則具備視覺(jué)手性,因?yàn)?/span>分別與的出現(xiàn)概率不一致:

          當(dāng)一個(gè)圖像分布具備視覺(jué)手性時(shí),使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)方法將不可避免的改變一個(gè)數(shù)據(jù)集所代表的分布。換句話說(shuō),只有當(dāng)一個(gè)圖像分布不具備視覺(jué)手性的時(shí)候,我們才能在不改變?cè)葓D像分布的前提下,使用鏡像翻轉(zhuǎn)來(lái)增強(qiáng)數(shù)據(jù)集。
          然而,視覺(jué)手性是大部分視覺(jué)領(lǐng)域都擁有的屬性。正如此篇文章作者,谷歌AI科學(xué)家Noah Snavely教授所說(shuō):
          “在計(jì)算機(jī)視覺(jué)的研究中,我們常把這個(gè)世界視為”翻轉(zhuǎn)不變“的,鏡像翻轉(zhuǎn)因而是一個(gè)常規(guī)的數(shù)據(jù)增強(qiáng)方法。然而,當(dāng)你翻轉(zhuǎn)圖片后,文字將被顛倒,左手變?yōu)橛沂?,而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?!?/span>
          為了挑戰(zhàn)人們先前在計(jì)算機(jī)視覺(jué)中對(duì)于“翻轉(zhuǎn)不變性”的假設(shè),「視覺(jué)手性」這篇文章通過(guò)自監(jiān)督訓(xùn)練在幾個(gè)不同視覺(jué)領(lǐng)域驗(yàn)證了“視覺(jué)手性”的存在。

          01

          訓(xùn)練方法


          「視覺(jué)手性」這篇文章利用了自監(jiān)督學(xué)習(xí)(self-supervised learning)方法來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于任何一個(gè)數(shù)據(jù)集,只需要將其原有的圖片標(biāo)記為“無(wú)翻轉(zhuǎn)”,并將鏡像翻轉(zhuǎn)過(guò)的圖片標(biāo)記為“有翻轉(zhuǎn)”,即可訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別鏡像翻轉(zhuǎn)這一二分類(lèi)任務(wù)(binary classification)。同時(shí)我們可以根據(jù)神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集(validation set)的表現(xiàn)上來(lái)評(píng)估這一圖像分布是否具備視覺(jué)手性:如果驗(yàn)證集上的精度要顯著大于50%,我們便有充足的證據(jù)來(lái)證明視覺(jué)手性的存在。
          作者在這篇文章中利用了ResNet-50作為基本的網(wǎng)絡(luò)結(jié)構(gòu),并使用SGD方法來(lái)訓(xùn)練網(wǎng)絡(luò)。基于先前自監(jiān)督學(xué)習(xí)方法的啟發(fā),作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里(shared-batch training),加速了網(wǎng)絡(luò)的訓(xùn)練。
          為了了解神經(jīng)網(wǎng)絡(luò)學(xué)到了哪些視覺(jué)手性線索,作者利用了類(lèi)激活映射(CAM:Class Activation Map)方法,在原有圖片上對(duì)于視覺(jué)手性敏感的區(qū)域進(jìn)行了高亮。同時(shí)因?yàn)槟茉斐梢曈X(jué)手性的現(xiàn)象有很多,作者推出了一個(gè)簡(jiǎn)單的基于類(lèi)激活映射的聚類(lèi)方法:手性特征聚類(lèi)(Chiral Feature Clustering)。


          02

          手性特征聚類(lèi)方法

          類(lèi)激活映射方法本質(zhì)上是對(duì)于神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出的特征圖(feature map)的加權(quán)線性和(linear weighted sum)。當(dāng)我們假設(shè)神經(jīng)網(wǎng)絡(luò)是利用區(qū)域特征(local feature)來(lái)判斷圖像是否為鏡像翻轉(zhuǎn)時(shí),我們可以將類(lèi)激活映射(CAM)最強(qiáng)的區(qū)域視為神經(jīng)網(wǎng)絡(luò)最為關(guān)注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征,便可以利用傳統(tǒng)的聚類(lèi)方法例如K-means clustering進(jìn)行自動(dòng)分類(lèi)。
          ResNet-50最后一層卷積輸出的特征圖為一個(gè)(16x16x2048)的三維矢量f,而類(lèi)激活映射所得到的熱圖(heatmap)為(16x16)的二維矢量A。假設(shè)熱圖上數(shù)值最大的點(diǎn)為(x*,y*),那么我們用來(lái)聚類(lèi)的區(qū)域特征即為f(x*,y*)。
          作者在多個(gè)不同圖像分布上利用手性特征聚類(lèi)方法對(duì)視覺(jué)手性現(xiàn)象進(jìn)行了歸因和討論。


          03

          互聯(lián)網(wǎng)圖片集

          在互聯(lián)網(wǎng)圖片集上,神經(jīng)網(wǎng)絡(luò)在鏡像翻轉(zhuǎn)識(shí)別上取得了高達(dá)60%-80%的精度。
          作者著重分析了Instagram圖片上的視覺(jué)手性現(xiàn)象。在不用隨機(jī)剪裁(random cropping)時(shí),神經(jīng)網(wǎng)絡(luò)在測(cè)試集上取得了高達(dá)92%的精度。然而因?yàn)橛蠮PEG壓縮失真的可能性存在(JPEG edge artifact一般出現(xiàn)于圖片的邊緣),作者同樣使用隨機(jī)剪裁進(jìn)行了訓(xùn)練,并仍舊取得了高達(dá)80%的精度??紤]到大量Instagram圖片有配文字,而文字是最明顯的視覺(jué)手性現(xiàn)象,作者用文字識(shí)別器濾除了Instagram中含有文字的圖片重新進(jìn)行了訓(xùn)練,但仍舊在測(cè)試集上取得了74%的高精度。值得一提的是這些訓(xùn)練出來(lái)的模型具有一定程度的泛化能力,可以不經(jīng)訓(xùn)練,在其他的互聯(lián)網(wǎng)圖片集(Flickr F100M)上取得高于50%的精度。
          作者在Instagram圖片集上進(jìn)行了手性特征聚類(lèi),并挑選了一系列與我們生活相關(guān)的典型視覺(jué)手性現(xiàn)象進(jìn)行討論。
          1、手機(jī)
          對(duì)著鏡子自拍是人們最?lèi)?ài)做的事。此類(lèi)照片具有視覺(jué)手性,因?yàn)槭謾C(jī)的攝像頭一般固定在手機(jī)背面的一側(cè)(因品牌而異),同時(shí)由于多數(shù)人是右撇子,一般都以右手持手機(jī)進(jìn)行自拍。
          2、吉他
          幾乎大多數(shù)的吉他手都以右手撥弦,左手持把。
          3、手表
          手表一般都被帶在人們的左手側(cè)。
          4、男士襯衫領(lǐng)子
          男士襯衫的扣子一般處于右側(cè)。
          5、上衣口袋
          正裝上衣的口袋幾乎無(wú)一例外處于身體左側(cè),為了更好地服務(wù)于占大多數(shù)的右撇子。
          6、人臉
          更令人吃驚的是,類(lèi)激活映射方法在大量的人臉上出現(xiàn)了較強(qiáng)的反應(yīng),說(shuō)明人臉中視覺(jué)手性的存在。多數(shù)情況下人臉通常被認(rèn)為是對(duì)稱(chēng)的:此屆CVPR 2020另一篇best student paper(Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild)更是將人臉視為了軸心對(duì)稱(chēng)的物體,并以此為線索來(lái)進(jìn)行3D重建。
          需要強(qiáng)調(diào)的一點(diǎn)是,這些視覺(jué)手性現(xiàn)象在每張圖片中看似孤立,但神經(jīng)網(wǎng)絡(luò)仍有可能會(huì)利用多種不同的線索來(lái)對(duì)圖片是否翻轉(zhuǎn)進(jìn)行判斷。
          為了深入了解人臉的視覺(jué)手性現(xiàn)象,作者在人臉數(shù)據(jù)集上進(jìn)行了孤立訓(xùn)練。
          作者在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在測(cè)試集上取得了高達(dá)81%的精度,并利用手性特征聚類(lèi)對(duì)人臉中的視覺(jué)手性現(xiàn)象進(jìn)行了初步的探討:
          1)劉海分界處
          人們一般用右手來(lái)分理劉海,這會(huì)導(dǎo)致劉海的朝向向一側(cè)偏移,并出現(xiàn)視覺(jué)手性現(xiàn)象。
          2)眼睛
          人們?cè)诳聪蛭矬w時(shí)傾向于用一只主視眼進(jìn)行瞄準(zhǔn),這樣會(huì)導(dǎo)致人們的目光在進(jìn)行拍攝時(shí)出現(xiàn)偏移。多數(shù)人的主視眼為右眼,而這一現(xiàn)象可能是導(dǎo)致視覺(jué)手性現(xiàn)象的成因。
          3)胡子
          與頭發(fā)一樣,可能與人們習(xí)慣于用右手理胡子有關(guān)。
          作者提到,文中對(duì)以上的視覺(jué)手性現(xiàn)象的討論均為初步的分析,而人臉中仍有大量的視覺(jué)手性線索值得被發(fā)掘。


          04

          數(shù)字圖像處理

          作者對(duì)數(shù)字圖像處理過(guò)程,例如去馬賽克(最常見(jiàn)為Bayer Demosaicing)和圖片壓縮(最常見(jiàn)為JPEG Compression)過(guò)程中產(chǎn)生的視覺(jué)手性現(xiàn)象進(jìn)行了分析。舉個(gè)例子,當(dāng)作者首次利用神經(jīng)網(wǎng)絡(luò)在Instagram數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練時(shí),發(fā)現(xiàn)沒(méi)有使用隨機(jī)剪裁(random cropping)的神經(jīng)網(wǎng)絡(luò)盡管精度更高(在測(cè)試集上高達(dá)92%),但在部分圖片上,類(lèi)激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分,如左下圖所示:
          而在使用隨機(jī)剪裁之后,我們得到的新的熱圖則更關(guān)注來(lái)自于圖片中物體本身的線索(例如右圖的襯衫領(lǐng)子)。作者推斷這是由于Instagram的圖片均為JPEG格式,經(jīng)過(guò)了JPEG圖像壓縮這一數(shù)字圖像處理方式。JPEG壓縮的算法是在圖片上對(duì)于每16乘16的像素格進(jìn)行分別處理的,而對(duì)于不能被16整除的圖片,其邊緣會(huì)用統(tǒng)一方式進(jìn)行處理(例如重復(fù)邊緣像素)。這會(huì)導(dǎo)致JPEG壓縮的圖片的邊緣失真(edge artifact),從而導(dǎo)致了視覺(jué)手性現(xiàn)象。
          作者通過(guò)概率論與群論(group theory)對(duì)數(shù)字圖像處理過(guò)程產(chǎn)生的視覺(jué)手性現(xiàn)象進(jìn)行了數(shù)學(xué)論證,并通過(guò)神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。而此類(lèi)的線索往往不能被肉眼可見(jiàn),卻在圖片中存在固定的模式,因而為圖像識(shí)偽的應(yīng)用創(chuàng)造了可能性。
          由于文中的證明和實(shí)驗(yàn)過(guò)程較為復(fù)雜,此處我們先給出數(shù)學(xué)定義和最重要的幾點(diǎn)結(jié)論。
          定義
          • D為數(shù)據(jù)集所來(lái)源于的圖像分布。
          • T為一個(gè)圖像變換函數(shù),例如鏡像翻轉(zhuǎn)。需要注意的是論文中的證明不僅限于鏡像翻轉(zhuǎn),也可以被用于任何具備結(jié)合律(associativitive)和可逆性(invertible)的變換。
          • J為一個(gè)圖像處理函數(shù)。例如去馬賽克以及JPEG圖片壓縮。
          • 為經(jīng)過(guò)J處理后所得到的的新圖像分布。

          我們沿用之前對(duì)視覺(jué)手性的定義。
          對(duì)于任意圖片x,如果D(x)= D(T(x)),那么D不具備視覺(jué)手性。
          對(duì)于任何經(jīng)過(guò)數(shù)字圖像處理的圖片y,如果,那么同樣不具備視覺(jué)手性。
          文中最重要的結(jié)論是:當(dāng)圖像變換函數(shù)T和圖像處理函數(shù)J具備交換律(commutative property)時(shí),如果原先的圖像分布D沒(méi)有視覺(jué)手性,經(jīng)過(guò)數(shù)字圖像處理后的分布也不具備視覺(jué)手性。換句話說(shuō),我們可以通過(guò)檢查T(mén)和J的交換律,來(lái)判斷數(shù)字圖像處理能否造成視覺(jué)手性現(xiàn)象。
          作者在論文中主要涉及了兩種最常見(jiàn)的圖像處理方式:
          • 去馬賽克(Demosaicing):數(shù)字相機(jī)的感光元件一般只能在每個(gè)像素格上捕捉RGB中的其中一種顏色,而其中最常用的為貝爾濾色鏡(Bayer Color Filter Array),如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過(guò)程。
          • JPEG壓縮算法(JPEG Compression):JPEG是一種有損的圖像壓縮方式,被廣泛應(yīng)用在如今大量的互聯(lián)網(wǎng)圖片上。一般以每16乘16的像素格為單位通過(guò)色彩空間變換,縮減像素采樣,離散余弦變換等步驟來(lái)進(jìn)行圖片編碼壓縮。
          結(jié)論
          • 去馬賽克或JPEG壓縮算法單獨(dú)使用時(shí),會(huì)在特定的圖片大小產(chǎn)生視覺(jué)手性現(xiàn)象。對(duì)于去馬賽克,由于貝爾濾色鏡為2乘2的像素格,且濾色鏡本身不對(duì)稱(chēng)(參考上圖綠紅藍(lán)綠的排序),任何能被2整除的圖片寬度均會(huì)導(dǎo)致視覺(jué)手性。對(duì)于JPEG壓縮,任何不被16整除的圖片寬度均會(huì)導(dǎo)致視覺(jué)手性。這意味著,當(dāng)去馬賽克和JPEG壓縮被共同使用時(shí),任意寬度的圖片都將產(chǎn)生視覺(jué)手性,因?yàn)橥瑫r(shí)滿足不被2整除和能被16整除的數(shù)字不存在。
          • 當(dāng)使用隨機(jī)剪裁(random cropping)時(shí),去馬賽克或JPEG壓縮單獨(dú)使用并不產(chǎn)生視覺(jué)手性現(xiàn)象。
          • 當(dāng)使用隨機(jī)剪裁(random cropping)時(shí),去馬賽克和JPEG壓縮同時(shí)使用將會(huì)產(chǎn)生視覺(jué)手性現(xiàn)象。這意味著互聯(lián)網(wǎng)圖片中可能存在大量有規(guī)律的,肉眼不可見(jiàn)的視覺(jué)手性線索,而人們將能夠利用這類(lèi)線索來(lái)進(jìn)行圖片識(shí)偽。
          證明
          那下面我們進(jìn)入證明部分(讀者需要對(duì)群論(Group Theory)有一定基礎(chǔ)):
          文中最重要的證明為附加材料中的命題3:
          命題3:當(dāng)原圖像分布D不具備視覺(jué)手性時(shí),如果圖像處理函數(shù)J與圖像變換函數(shù)T具備交換律,則經(jīng)J處理后的圖像分布也不具備視覺(jué)手性。
          證明:
          由于T具備可逆性和分配律,T可以將原分布中的圖片分為一個(gè)個(gè)不相交的循環(huán)群(disjoint cyclic groups)。
          即為一個(gè)循環(huán)群,而這個(gè)循環(huán)群的單位元(identity element)可以選這個(gè)集合里面任意一個(gè)元素。這些循環(huán)群的群運(yùn)算(group operation)可以被定義如下:
          每個(gè)循環(huán)群的階(order of group)由T以及其中的元素決定。舉個(gè)例子,如果T為鏡像翻轉(zhuǎn),那么對(duì)于一張對(duì)稱(chēng)的照片,其所在群的階為1。對(duì)于不對(duì)稱(chēng)的一張照片,其所在群的階為2
          經(jīng)過(guò)圖像處理后,每個(gè)循環(huán)群將變化為
          命題3里,我們假設(shè)T和J具備交換律,那么我們可以將上面的公式改寫(xiě),并得到
          原分布D不具備視覺(jué)手性意味著:每個(gè)循環(huán)群中的元素都有相同的概率出現(xiàn)。因此,由于經(jīng)過(guò)J圖像處理后循環(huán)群變?yōu)榱?/span>,我們只需要證明以下運(yùn)算為同態(tài)(homomorphism):
          因?yàn)閷?duì)于同態(tài)來(lái)說(shuō),根據(jù)第一同構(gòu)基本定理(First Isomorphism Theorm)可以推理出每個(gè)輸出對(duì)應(yīng)著相同數(shù)量的輸入。而因?yàn)槊總€(gè)循環(huán)群中單個(gè)輸入在原分布D上有著相同的概率,意味著每個(gè)輸出也具備相同的概率,也意味著不具備視覺(jué)手性。
          證明同態(tài)的步驟如下:

          以上為命題3的證明。
          通過(guò)命題3,我們知道了J和T的交換律與處理后圖像分布的視覺(jué)手性的關(guān)系。那么,只需要通過(guò)檢查交換律,我們便可以判斷圖像處理是否可能產(chǎn)生新的視覺(jué)手性。檢查的方式也很簡(jiǎn)單,對(duì)于任意圖片x,我們只需要計(jì)算其交換殘差(commutative residual)是否為0:
          下圖形象的解釋了交換殘差的計(jì)算過(guò)程:

          文中使用去馬賽克、JPEG壓縮、以及兩者結(jié)合這三種圖像處理方法,對(duì)于鏡像翻轉(zhuǎn)這一圖片變換方式分別計(jì)算了交換殘差。
          當(dāng)去馬賽克處理的圖像寬度為奇數(shù)時(shí),處理后的圖像分布可能具備視覺(jué)手性;反之如果為偶數(shù),則不具備視覺(jué)手性。當(dāng)JPEG壓縮的圖片不為16整除時(shí),處理后的圖像分布可能具備視覺(jué)手性,反之則不具備。當(dāng)兩者結(jié)合后,處理后的圖片一定具備視覺(jué)手性:
          作者為了驗(yàn)證這些結(jié)論,在原本不具備視覺(jué)手性的人工數(shù)據(jù)集(高斯分布生成的隨機(jī)圖片)上,對(duì)不同寬度的圖片分別進(jìn)行了這三種處理,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行了自監(jiān)督學(xué)習(xí)。實(shí)驗(yàn)結(jié)果符合這一測(cè)試的預(yù)期。因?yàn)榇罅炕ヂ?lián)網(wǎng)圖片都經(jīng)過(guò)了去馬賽克和JPEG壓縮,這一結(jié)論意味著數(shù)字圖像處理所帶來(lái)的視覺(jué)手性現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。
          當(dāng)加入隨機(jī)剪裁(random cropping)后,我們還能得到這一結(jié)論么?作者的答復(fù)是肯定的。
          為了理解隨機(jī)剪裁對(duì)于視覺(jué)手性的影響,作者提到了兩個(gè)關(guān)鍵點(diǎn)。
          第一點(diǎn):命題三中只討論了單種J的情況。而隨機(jī)剪裁可以被視為許多種J(例如是向右平移一格并剪裁,是向右平移兩個(gè)并剪裁)的結(jié)合,每一種有相同概率出現(xiàn)。
          第二點(diǎn):命題三中并沒(méi)有討論T和J不具備交換律的情況。例如當(dāng)J是向?qū)D片右平移十個(gè)像素并進(jìn)行一次中心剪裁時(shí),T和J無(wú)法具備交換律。在這種情況下,新的圖像分布并不一定具備視覺(jué)手性。
          對(duì)于第一點(diǎn)來(lái)說(shuō),假設(shè)我們有多種不同的J(例如,),而他們分別與T具備交換律時(shí),我們可以用以下公式表達(dá)新的圖像分布:
          我們可以很容易看出,當(dāng)每一個(gè)單獨(dú)的J都和T具備交換律時(shí),我們可以分別應(yīng)用命題三,來(lái)證明每一個(gè)J產(chǎn)生的新圖像分布不具備視覺(jué)手性。而當(dāng)我們將這些不具備視覺(jué)手性的新圖像分布加權(quán)求和的時(shí)候(公式20),我們得到的新圖像分布仍舊不具備視覺(jué)手性。
          對(duì)于第二點(diǎn)來(lái)說(shuō),即便每個(gè)單獨(dú)的J都不和T具備交換律時(shí),我們?nèi)钥梢哉业叫碌膱D像分布不具備視覺(jué)手性的情況。為了理解這一點(diǎn),作者引入了一個(gè)新的概念”排列交換律”(Permuted Commutativity),如下圖所示:
          在這個(gè)例子中,作者假設(shè),)單獨(dú)并不和T具備交換律,但在一種打亂的排列下具備交換性,如圖中不同顏色的箭頭所示。這種排列帶來(lái)的交換律的關(guān)系可以用以下公式表達(dá)(a和b為排列中的序號(hào))。
          在這個(gè)情況下,每一條箭頭都能滿足命題三中的條件,因此他們的加權(quán)和仍舊不具備視覺(jué)手性。
          作者將這種具備”排列交換律“的情況形象得稱(chēng)為”平移交換律“(Glide Commutativity),因?yàn)檫@類(lèi)視覺(jué)現(xiàn)象在自然界廣泛存在。例如人類(lèi)的足跡,經(jīng)過(guò)平移之后仍舊是對(duì)稱(chēng)的:
          那么如何檢驗(yàn)這種”平移交換律“的存在呢?作者針對(duì)隨機(jī)剪裁提出了一個(gè)簡(jiǎn)單的平移交換律測(cè)試(Glide Commutativity Test):
          假設(shè)一種平移(例如左移五個(gè)像素)為Φ,測(cè)試步驟如下:
          1. 首先將任意圖片x進(jìn)行填充,并確保邊緣足夠大。
          2. 將填充后的圖片進(jìn)行Φ平移。
          3. 通過(guò)先后運(yùn)算T和J,得到兩種圖片:?和?
          4. 將這兩個(gè)圖片用T(-Φ)平移回原處。
          5. 將這兩個(gè)圖片多余的填充像素剪裁掉。
          而平移交換律測(cè)試只需要對(duì)任意兩種平移方式()檢查以下殘差是否為0:
          作者對(duì)去馬賽克,JPEG壓縮,以及兩者結(jié)合這三種圖像處理方式進(jìn)行了測(cè)試。測(cè)試結(jié)果為:當(dāng)去馬賽克和JPEG壓縮單獨(dú)使用時(shí),經(jīng)過(guò)隨機(jī)剪裁后的分布具備平移交換律(如下圖1和2中的黑色格子),所以一定不具備視覺(jué)手性。而當(dāng)兩者結(jié)合時(shí),平移交換律就消失了,同時(shí)可能產(chǎn)生視覺(jué)手性。
          作者同樣利用人造數(shù)據(jù)集進(jìn)行了神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并驗(yàn)證了這一測(cè)試的結(jié)果。這意味著對(duì)于大量的互聯(lián)網(wǎng)圖片,由于它們都經(jīng)過(guò)了去馬賽克和JPEG壓縮,即便我們使用了隨機(jī)剪裁,仍然有可能觀察到視覺(jué)手性。也就是說(shuō),數(shù)字圖像處理所導(dǎo)致的視覺(jué)手性現(xiàn)象可能大量存在于互聯(lián)網(wǎng)圖片之中,并且這類(lèi)線索可能存在于任意圖片區(qū)域。這類(lèi)線索在互聯(lián)網(wǎng)圖片中可能肉眼不可見(jiàn),卻能被神經(jīng)網(wǎng)絡(luò)捕捉到。這也為圖片識(shí)偽(image forensic)提供了新的可能性。
          「視覺(jué)手性」這篇文章首次挑戰(zhàn)了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中對(duì)于圖片”翻轉(zhuǎn)不變性“的假設(shè),并在多種不同的視覺(jué)分布上發(fā)現(xiàn)了”視覺(jué)手性“的線索。這篇文章對(duì)于未來(lái)的數(shù)據(jù)增強(qiáng)和圖片識(shí)偽方法將有很大的指導(dǎo)意義。

          ---END---
          重磅!碼農(nóng)突圍-技術(shù)交流群已成立

          掃碼可添加碼農(nóng)突圍助手,可申請(qǐng)加入碼農(nóng)突圍大群和細(xì)分方向群,細(xì)分方向已涵蓋:Java、Python、機(jī)器學(xué)習(xí)、大數(shù)據(jù)、人工智能等群。
          一定要備注:開(kāi)發(fā)方向+地點(diǎn)+學(xué)校/公司+昵稱(chēng)(如Java開(kāi)發(fā)+上海+拼夕夕+猴子),根據(jù)格式備注,可更快被通過(guò)且邀請(qǐng)進(jìn)群

          ▲長(zhǎng)按加群

          推薦閱讀

          ? ?我在谷歌,女友在亞馬遜,曬出2人總收入,網(wǎng)友:好酸
          ???為什么建議大家使用 Linux 開(kāi)發(fā)?爽(外加七個(gè)感嘆號(hào))
          ???華科女博士年薪156萬(wàn)入職華為!最新回應(yīng):在深圳也難買(mǎi)房…
          ???Mysql,再見(jiàn)吧,select * !
          ?? 他曾經(jīng)復(fù)讀才考上三本,如今讓華為開(kāi)出201萬(wàn)年薪(其實(shí)還拒絕了360萬(wàn)offer)
          ?? 痛惜!才29歲,年輕博士不幸離世
          最近面試BAT,整理一份面試資料Java面試BAT通關(guān)手冊(cè),覆蓋了Java核心技術(shù)、JVM、Java并發(fā)、SSM、微服務(wù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)結(jié)構(gòu)等等。
          獲取方式:點(diǎn)“在看”,關(guān)注公眾號(hào)并回復(fù)?BAT?領(lǐng)取,更多內(nèi)容陸續(xù)奉上。
          如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝明天見(jiàn)(??ω??)??

          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一到本在线视频无码 | 精品国产91久久久久久小树林 | 舔逼网| 午夜一级视频 | 免费观看视频久久 |