<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          常見距離度量方法優(yōu)缺點對比!

          共 3949字,需瀏覽 8分鐘

           ·

          2021-02-10 21:08

          ↑↑↑關(guān)注后"星標(biāo)"Datawhale
          每日干貨?&?每月組隊學(xué)習(xí),不錯過
          ?Datawhale干貨?
          譯者:張峰,安徽工業(yè)大學(xué),Datawhale成員

          許多算法,不管是有監(jiān)督的還是無監(jiān)督的,都會使用距離測量。這些度量方法,如歐氏距離或余弦相似度,經(jīng)常可以在KNN、UMAP、HDBSCAN等算法中找到。

          理解距離測量領(lǐng)域比你可能意識到的更重要。以KNN為例,這是一種常用于監(jiān)督式學(xué)習(xí)的技術(shù)。作為默認(rèn)設(shè)置,它通常使用歐幾里得度量。就其本身而言,是一個很好的距離測量方法。

          然而,如果你的數(shù)據(jù)是高維的呢?那么歐幾里得距離還能用嗎?或者,如果你的數(shù)據(jù)由地理空間信息組成呢?也許Haversine距離會是一個更好的選擇!

          知道何時使用哪種距離測量方法可以幫助你從一個差的分類器變成一個準(zhǔn)確的模型。

          在本文中,我們將介紹不同的距離測量方法,并探索如何以及何時最好地使用它們。最重要的是,我會談?wù)劯髯缘娜秉c,這樣你就能知道何時該避開使用某些距離度量的措施。

          1. 歐式距離

          我們從最常見的距離測量開始,即歐氏距離。它是一種最好的距離測量方法,可以解釋為連接兩點的線段長度。

          這個公式相當(dāng)簡單,因為距離是根據(jù)使用勾股定理的點的笛卡爾坐標(biāo)計算出來的。

          缺點

          雖然這是一種常見的距離測量方法,但歐幾里得距離并不是尺度不變的,這意味著計算出的距離可能會根據(jù)特征的單位而有所偏斜。通常情況下,在使用這種距離測量之前,需要對數(shù)據(jù)進(jìn)行歸一化。

          此外,隨著數(shù)據(jù)維度的增加,歐幾里得距離的作用就越小。這與維度的詛咒有關(guān),它涉及到高維空間的概念,并不像我們直觀地期望的那樣,從二維或三維空間中發(fā)揮作用。

          用例

          當(dāng)你有低維數(shù)據(jù),并且向量的大小很重要,需要測量時,歐氏距離的效果非常好。如果在低維數(shù)據(jù)上使用歐氏距離,kNN和HDBSCAN等方法就會顯示出很好的效果。

          雖然已經(jīng)開發(fā)了許多其他的測量方法來解釋歐氏距離的缺點,但它仍然是最常用的距離測量方法之一,這是有充分理由的。它使用起來非常直觀,實現(xiàn)起來也很簡單,并且在許多用例中都顯示出了很好的效果。


          2. 余弦相似性

          余弦相似性經(jīng)常被用來抵消歐幾里得距離的高維度問題。余弦相似性只是兩個向量之間角度的余弦。如果將它們歸一化為都有長度為1的向量,它的內(nèi)積也相同。

          兩個方向完全相同的向量的余弦相似度為1,而兩個方向截然相反的向量的相似度為-1,請注意,它們的大小并不重要,因為這是方向的量度。余弦相似度公式為:

          缺點

          余弦相似性的一個主要缺點是不考慮向量的大小,只考慮其方向。在實際應(yīng)用中,這意味著值的差異沒有被完全考慮。以推薦系統(tǒng)為例,那么余弦相似性并沒有考慮到不同用戶之間的評分等級差異。

          用例

          當(dāng)我們有高維數(shù)據(jù)且向量的大小并不重要時,我們經(jīng)常使用余弦相似度。對于文本分析來說,當(dāng)數(shù)據(jù)用字?jǐn)?shù)來表示時,這種測量方法是很常用的。

          例如,當(dāng)一個詞在一個文檔中出現(xiàn)的頻率高于另一個文檔時,這并不一定意味著一個文檔與該詞的關(guān)系更大??赡苁俏臋n的長度不均勻,計數(shù)的大小就不那么重要了。那么,我們最好是使用不考慮大小的余弦相似性。


          3.?漢明距離

          漢明距離是指兩個向量之間相差的數(shù)值。它通常用于比較兩個長度相等的二進(jìn)制字符串。它也可以用來比較字符串之間的相似度,計算彼此不同的字符數(shù)。

          缺點

          正如你所預(yù)料的,當(dāng)兩個向量的長度不相等時,漢明距離很難使用。你會希望將相同長度的向量相互比較,以了解哪些位置不匹配。

          而且,只要它們不同或相等,它就不考慮實際值。因此,當(dāng)幅度是一個重要的衡量標(biāo)準(zhǔn)時,不建議使用這個距離衡量。

          用例

          典型的使用情況包括在計算機(jī)網(wǎng)絡(luò)上傳輸數(shù)據(jù)時的糾錯/檢測。它可以用來確定二進(jìn)制字中的失真位數(shù),以此來估計錯誤。

          此外,你還可以使用漢明距離來測量分類變量之間的距離。


          4.?曼哈頓距離

          曼哈頓距離,通常被稱為出租車距離或城市街區(qū)距離,計算實值向量之間的距離。想象一下,在統(tǒng)一的網(wǎng)格上描述物體的向量,如棋盤。

          曼哈頓距離則是指兩個向量之間的距離,如果它們只能移動直角。計算距離時不涉及對角線的移動。曼哈頓距離公式為:

          缺點

          雖然曼哈頓距離對于高維數(shù)據(jù)似乎還不錯,但它是一個比歐幾里得距離更不直觀的測量方法,尤其是在高維數(shù)據(jù)中使用時。

          而且,它比歐幾里得距離更容易給出一個更高的距離值,因為它不可能是最短路徑。這不一定會帶來問題,但你應(yīng)該考慮到這一點。

          用例

          當(dāng)你的數(shù)據(jù)集有離散和/或二進(jìn)制屬性時,曼哈頓似乎很好用,因為它考慮到了現(xiàn)實中在這些屬性值內(nèi)可以采取的路徑。以歐氏距離為例,會在兩個向量之間創(chuàng)建一條直線,而在現(xiàn)實中這可能實際上是不可能的。


          5. 切比雪夫距離

          切比雪夫距離被定義為沿任何坐標(biāo)維度的兩個向量之間的最大差異。換句話說,它是沿著一個軸線的最大距離。

          由于它的性質(zhì),它經(jīng)常被稱為棋盤距離,因為國王從一個方格走到另一個方格所需的最少步數(shù)等于切比雪夫距離。切比雪夫距離公式為:

          缺點

          切比雪夫通常用于非常特殊的使用情況,這使得它很難像歐幾里得距離或余弦相似性那樣作為一個通用的距離度量。出于這個原因,我們建議只有當(dāng)你絕對確定它適合你的使用情況時才使用它。

          用例

          如前所述,切比雪夫距離可以用來提取從一個方格到另一個方格所需的最少步數(shù)。此外,在允許無限制的8向移動的棋局中,它也是一個有用的測量方法。

          在實踐中,切比雪夫距離經(jīng)常被用于倉庫物流,因為它很像天車移動一個物體所需的時間。


          6. 閔可夫斯基距離

          閔可夫斯基距離是一個相對復(fù)雜的度量方法。它是在規(guī)范向量空間(n維實空間)中使用的一種度量方法,這意味著它可以在表示為一個有長度的向量空間中使用。

          這個度量有三個要求:
          零向量:零向量的長度為零,而其它向量的長度為正。例如,如果我們從一個地方到另一個地方,那么這個距離總是正數(shù)。但是,如果我們從一個地方到它本身,那么這個距離就是零;
          標(biāo)量因子:當(dāng)你用正數(shù)乘以向量時,它的長度會改變,但方向不變。例如,如果我們在一個方向上走了一定的距離,再加上同樣的距離,方向不會改變;
          三角形不等式:兩點之間的最短距離是一條直線。

          閔可夫斯基距離的公式如下:

          這個距離度量最有趣的是使用參數(shù)p。我們可以用這個參數(shù)來操作距離度量,使之與其它度量方法非常相似。

          p的常見值有:
          - 曼哈頓距離;
          - 歐氏距離;
          -切比雪夫距離。

          缺點

          閔可夫斯基距離的缺點與它們所代表的距離度量一樣,所以對曼哈頓、歐幾里得和切比雪夫距離等度量的了解是極其重要的。

          此外,參數(shù) p 實際上在工作中可能會很麻煩,因為根據(jù)你的用例,找到正確的值可能會在計算上相當(dāng)?shù)托А?/span>

          用例

          p的優(yōu)點是可以對它進(jìn)行迭代,找到最適合你的使用情況的距離度量。它允許你在距離度量上有很大的靈活性,如果你對p和許多距離度量非常熟悉,這將是一個巨大的好處。


          7. Jaccard指數(shù)

          Jaccard指數(shù)(或稱交集比聯(lián)合)是一種用于計算樣本集相似性和多樣性的度量。它是交集的大小除以樣本集的聯(lián)合大小。

          在實踐中,它是集合之間相似實體的總數(shù)除以實體的總數(shù)。例如,如果兩個集合有1個共同的實體,而總共有5個不同的實體,那么Jaccard指數(shù)將是。

          要計算Jaccard距離,我們只需將Jaccard指數(shù)從1中減去。Jaccard距離公式為:

          缺點

          Jaccard指數(shù)的一個主要缺點是,它受數(shù)據(jù)大小的影響很大。大的數(shù)據(jù)集會對指數(shù)產(chǎn)生很大的影響,因為它可以在保持相似的交叉點的同時顯著增加聯(lián)合。

          用例

          Jaccard指數(shù)經(jīng)常用于使用二進(jìn)制或二值化數(shù)據(jù)的應(yīng)用中。當(dāng)你有一個深度學(xué)習(xí)模型預(yù)測圖像的片段時,例如,一輛汽車,Jaccard指數(shù)就可以用來計算給定真實標(biāo)簽的預(yù)測片段的準(zhǔn)確度。同樣,它也可以用于文本相似性分析,以衡量文檔之間的選詞重疊程度。因此,它可以用來比較模式的集合。


          8. Haversine距離

          Haversine距離是指球面上兩點之間的經(jīng)度和緯度距離。

          它與歐幾里得距離非常相似,因為它計算的是兩點之間的最短線。主要的區(qū)別是不可能有直線,因為這里的假設(shè)是兩點在一個球體上。兩點間的Haversine距離公式為:

          缺點

          這種距離測量方法的一個缺點是,它假定各點位于一個球體上。在實踐中,這種情況很少發(fā)生,例如,地球并不是完全的圓形,這可能會使計算在某些情況下變得困難。相反,如果能采用Vincenty距離,則會很有趣,因為它假設(shè)的是一個橢圓體。

          用例

          正如你所期望的那樣,Haversine距離經(jīng)常用于導(dǎo)航。例如,當(dāng)你在兩個國家之間飛行時,你可以用它來計算它們之間的距離。需要注意的是,如果本身距離已經(jīng)不大,它就不太適合了。曲率不會有那么大的影響。


          9. S?rensen-Dice指數(shù)

          S?rensen-Dice指數(shù)與Jaccard指數(shù)非常相似,因為它衡量樣本集的相似性和多樣性。

          雖然它們的計算方法相似,但S?rensen-Dice指數(shù)更直觀一些,因為它可以被看作是兩組之間的重疊百分比,這個數(shù)值在0和1之間。S?rensen–Dice指數(shù)公式為:

          缺點

          與Jaccard指數(shù)一樣,它們都高估了集合的重要性,只有很少或沒有TP(Truth Positive)值的正集合。因此,它可以求得多盤的平均分?jǐn)?shù)。它將每個項目與相關(guān)集合的大小成反比加權(quán),而不是平等對待它們。

          用例

          與Jaccard指數(shù)相似,通常用于圖像分割任務(wù)或文本相似性分析。

          注意:除了這里提到的9種距離度量,還有更多的度量。如果你正在尋找更多有趣的度量,我建議你研究以下其中一個:Mahalanobis, Canberra, Braycurtis, 和 KL-散度!
          “整理不易,三連
          瀏覽 315
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩传媒中文字幕一区 | 极品人妻侨喘呻吟 | 日日谢| 国产操逼www | 豆花无码一区二区三区 |