<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          可視化高維數(shù)據(jù):T-SNE

          共 2907字,需瀏覽 6分鐘

           ·

          2021-06-07 20:28

          作者:知乎—Ganso

          地址:https://zhuanlan.zhihu.com/p/99469215

          Google Tech Talk June 24, 2013 (more info below)

          Presented by Laurens van der Maaten, Delft University of Technology, The Netherlands

          視頻:

          https://youtu.be/RJVL80Gg3lA

          論文:

          https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf

          Laurens van der Maaten & Geoffrey Hinton


          01

          Introduction
          有一個(gè)N維的高維數(shù)據(jù)集 ,那應(yīng)該如何去直觀感受數(shù)據(jù)組織?
          如果是關(guān)注過(guò)可視化領(lǐng)域的,通常會(huì)想到Parallel coordinates、radial graph layout或是tree maps:
          這些方法通常具有兩個(gè)特點(diǎn):豐富多彩,一次只可以可視化幾個(gè)變量。
          問題在于如何可視化非常高維度的數(shù)據(jù)?
          simple idea:
          建立一個(gè)高維數(shù)據(jù)空間到低維空間的映射。
          低維空間點(diǎn)的距離表示了數(shù)據(jù)之間的相似度。
          優(yōu)化相關(guān)目標(biāo)函數(shù)(描述了數(shù)據(jù)相似度以及映射之后的相似度)

          這樣我們可以可視化低維(2-3維度)數(shù)據(jù)。
          通常將這類方法稱為:dimension reduction(維度降低)、embedding(嵌入)或multidimensional scaling(多維度縮放)。


          02

          主成成分分析 PCA
          下圖是對(duì)于MNIST 5000張圖片的特征做了PCA。
          左邊紅色的部分是數(shù)字0,而右邊橙色的部分是1,可以看到之間有很大間隔。
          其他的主成成分構(gòu)成是上方的479,以及下方的358
          效果初看起來(lái)似乎還不錯(cuò),但這是作者使用了數(shù)據(jù)原始標(biāo)簽對(duì)于數(shù)據(jù)點(diǎn)進(jìn)行染色。如果缺乏標(biāo)簽信息的話,其實(shí)很難看出數(shù)據(jù)的分布。
          如果對(duì)于數(shù)據(jù)的標(biāo)簽是未知的,對(duì)于數(shù)據(jù)的可視化會(huì)變成這樣。
          Question:
          PCA是否在優(yōu)化合適的目標(biāo)函數(shù)?
          PCA主要是最大化樣本投影后的方差,或者說(shuō)是樣本點(diǎn)距離與投影點(diǎn)距離的方差。所以pca主要是擴(kuò)大點(diǎn)之間的距離。
          當(dāng)數(shù)據(jù)處于某種非線性流形時(shí),比如下面的瑞士卷(switch roll)。兩點(diǎn)的歐式距離不能很好的描述相似性。圖示的歐式距離很小,但是考慮到整個(gè)流形結(jié)構(gòu)上面的距離,這兩點(diǎn)其實(shí)距離很遠(yuǎn)。



          03

          其他方法
          等度量映射:測(cè)量原空間點(diǎn)之間的測(cè)地線距離,然后作為pca的輸入
          Locally Linear Embedding


          04

          T-SNE
          描述高維數(shù)據(jù)的相似度
          t-Distributed Stochastic Neighbor Embedding
          在高維空間中,我們要想辦法測(cè)量物體間距離。
          對(duì)于圖中的紅色方塊xi,我們以其為中心建立一個(gè)高斯分布,并且測(cè)量其他點(diǎn)在這個(gè)分布下的概率密度。所以我們會(huì)計(jì)算所有其他點(diǎn)在這個(gè)分布下的概率密度,并進(jìn)行歸一化(分母)。計(jì)算結(jié)果  是i與j的相似程度。
          在實(shí)踐中,我們往往計(jì)算數(shù)據(jù)之間的條件概率而不是聯(lián)合概率。即分母上我們不會(huì)歸一化所有的點(diǎn)對(duì),而是歸一化涉及xi的點(diǎn)對(duì)。這樣對(duì)于不同的點(diǎn)xi可以設(shè)置不同的標(biāo)準(zhǔn)差。在空間的不同部分可能有著不同的密度,而這個(gè)技巧可以適應(yīng)不同的密度分布。
          最后計(jì)算出聯(lián)合密度,即對(duì)條件情況進(jìn)行加權(quán)求和。最后求出了最終情況下高維度的相似度。
          描述低維數(shù)據(jù)的相似度:
          處理方法跟高維情況很像,對(duì)于指定的點(diǎn)建立一個(gè)分布,然后計(jì)算其他點(diǎn)在這個(gè)分布下的概率分布。我們希望的是低維情況下的相似度  能夠一定程度上反映高維情況下的相似度  。如果的結(jié)果很像,那么說(shuō)明映射的結(jié)構(gòu)與原始高維數(shù)據(jù)結(jié)構(gòu)很相近。
          我們通常可以使用KL散度來(lái)計(jì)算兩種概率分布相似程度:
          我們想要的是將數(shù)據(jù)映射到低維之后,與高維數(shù)據(jù)的KL散度相差并不大。為此需要對(duì)kl散度進(jìn)行梯度下降 。這樣同樣的兩個(gè)點(diǎn),如果高維上的相似度的差距很大,懲罰項(xiàng)也會(huì)很大。
          有一個(gè)明顯的問題是如何衡量映射后低維數(shù)據(jù)的相似度,這里作者使用了學(xué)生t分布。
          作者的解釋是
          假設(shè)原始數(shù)據(jù)是高維分布的。我們想將數(shù)據(jù)映射到低維并且相似數(shù)據(jù)的距離盡量小,這會(huì)導(dǎo)致不相似的點(diǎn)之間的距離會(huì)被建模的很遠(yuǎn)。
          舉一個(gè)很簡(jiǎn)單的例子,如圖所示的二維數(shù)據(jù)結(jié)構(gòu),紅線代表兩個(gè)相似點(diǎn)之間的距離。

          將其建模到一維之后,可以看到兩對(duì)相似點(diǎn)的距離是不變的,但是距離最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離發(fā)生了變化。

          當(dāng)你將高維數(shù)據(jù)建模到低維度時(shí),這種事情常常會(huì)發(fā)生。而學(xué)生氏t分布的長(zhǎng)尾分布特性可以減小這種影響。
          下圖是對(duì)于MNIST數(shù)據(jù)集進(jìn)行的T-SNE操作
          可以看到數(shù)據(jù)被很好的分成了好幾個(gè)簇,值得注意的是,數(shù)據(jù)標(biāo)簽僅用于后期標(biāo)注顏色,本身方法是無(wú)監(jiān)督的。
          除了MNIST之外,T-SNE也可以用于圖片材質(zhì)的特征提取


          05

          梯度插值

          梯度公式

          推導(dǎo)如下:
          對(duì)于梯度公式的直觀解釋:
          對(duì)于指定點(diǎn)  ,最后一項(xiàng)是表示其他點(diǎn)指向此點(diǎn)的向量
          前面兩項(xiàng)是對(duì)于此向量的擴(kuò)張/壓縮
          而  與  很相近時(shí),也就是我們的目標(biāo),相當(dāng)于不用改動(dòng)位置了,梯度也很接近0.
          最后求出所有向量的和,相當(dāng)表示于點(diǎn)i需要向哪里移動(dòng)。
          優(yōu)化計(jì)算量:Barnes-Hut approxiamtion
          如圖所示ABC三個(gè)點(diǎn)的距離十分相近,所以這三個(gè)向量可以由三個(gè)點(diǎn)中心的向量來(lái)模擬表示。
          對(duì)于整個(gè)數(shù)據(jù)結(jié)構(gòu)。可以用Quadtree來(lái)表示
          以上圖為例,根部表示整個(gè)map,整個(gè)map均分為4格。其中每格葉子節(jié)點(diǎn)的中心保存到根部的子節(jié)點(diǎn)中。
          當(dāng)我們需要計(jì)算abc離f的距離時(shí),直接對(duì)樹做深度優(yōu)先遍歷,其父節(jié)點(diǎn)離f足夠近(小于設(shè)定閾值)時(shí),就可以用近似向量來(lái)代替。這樣可以顯著減少計(jì)算量。


          06

          示例
          對(duì)于CIfar10的映射


          07

          應(yīng)用
          T-SNE可以用于高維數(shù)據(jù)的可視化。
          現(xiàn)有深度學(xué)習(xí)的原始數(shù)據(jù)集T-SNE很難處理(如上圖),但是通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的輸出數(shù)據(jù)(全連接層)可以通過(guò)T-SNE可視化得到很多信息。判斷網(wǎng)絡(luò)有沒有很好的學(xué)習(xí)到樣本特征。



          猜您喜歡:


          等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進(jìn)階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

          附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》

          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

          瀏覽 70
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩人妻无码免费视频 | 精品亲子乱一区二区三区 | 成人免费无码大片A毛片 | 亚洲无码18禁 | 五月天婷色 |