?數(shù)據(jù)科學中 17 種相似性和相異性度量
"There is no Royal Road to Geometry."—歐幾里得

. 簡介
相似性和相異性
指標
2 - 對稱性:??對于所有??和?。
3 - 三角不等式:??對于所有?。
4 -??僅當??時。
. 距離函數(shù)
? L2范數(shù),歐幾里得距離

n 維空間中兩點之間的歐幾里德距離
二維空間中兩點之間的歐幾里德距離。


KNN 算法,該算法使用歐幾里德距離對數(shù)據(jù)進行分類。為了演示 KNN 如何使用歐幾里德度量,我們選擇了一個 Scipy 包的流行?iris?數(shù)據(jù)集。Iris-Setosa、Iris-Versicolor 和 Iris-Virginica,并具有以下四個特征:萼片長度、萼片寬度、花瓣長度、花瓣寬度。因此就有一個 4 維空間,在其中表示每個數(shù)據(jù)點。
Iris-virginica?數(shù)據(jù)。通過這種方式,我們可以在二維空間中繪制數(shù)據(jù)點,其中 x 軸和 y 軸分別表示花瓣長度和花瓣寬度。
Iris-Setosa?或?Iris-versicolor(數(shù)據(jù)集中的 0 和 1)。因此,該數(shù)據(jù)集可用于 KNN 分類,因為它本質(zhì)上是一種有監(jiān)督的 ML 算法。假設(shè)我們的 ML 模型(k = 4?的 KNN)已經(jīng)在這個數(shù)據(jù)集上進行了訓練,我們選擇了兩個輸入特征只有 20 個數(shù)據(jù)點,如上圖所示。
Iris-Setosa 或 Iris-versicolor。至此,新數(shù)據(jù)點到我們訓練數(shù)據(jù)的每個點的歐幾里德距離都計算出來了,如下圖所示:
k = 4時,KNN分類器需要選擇最小的四個距離,代表新點到以下點的距離:point1、point5、point8和point9,如圖所示:
Iris-Setosa。使用這個類比,可以想象更高的維度和其他分類器。? 平方歐幾里得距離
② L1 范數(shù)、城市街區(qū)、曼哈頓或出租車距離



Iris-Setosa,另外兩個數(shù)據(jù)點投票支持?Iris-versicolor,這意味著這是個平局。
k=4,將其更改為?k=3將導致以下值:
k=5?將導致以下值:
Iris-Setosa。因此,由你決定是否需要增加或減少 k 的值。
Iris-Setosa。


Bishop?使用曼哈頓距離(如果沒有看到,可通過將棋盤旋轉(zhuǎn) 45° 來想象一下)。換句話說,讓主教越過紅色方塊所需的移動次數(shù)(距離)等于曼哈頓距離,即 2。L1-norm?比?l2-norm?給出更稀疏的估計。除此之外,L1 范數(shù)和L2 范數(shù)通常用于神經(jīng)網(wǎng)絡(luò)的正則化,以最小化權(quán)重或?qū)⒛承┲禋w零,就像套索回歸中使用的那樣。
③ 堪培拉距離
④ L∞ 范數(shù),切比雪夫距離,最大距離





⑤ Lp 范數(shù),閔可夫斯基距離

p = 1:?曼哈頓距離。 p = 2:?歐幾里得距離。 p → +∞ :?切比雪夫距離,邏輯或(點 D =?A或B?=?1或1?= 1)。 p → 0:?邏輯與(點 C =?A?AND?B?= 零)。 p → -∞ :?最小距離(點 D 的對稱性)。
?⑥余弦距離
文件A:?"I love to drink coffee in the morning." 文件B:?"I like to drink coffee." 文件C:?"My friend and I work at a coffee shop in our hometown. He tells some good jokes in the morning. We like to begin the day by drink a cup of tea each."

“I love to drink coffee”?然而,文件 C 包含文件 A 的所有單詞,但從頻率表中的含義非常不同。為了解決這個問題,你需要計算余弦相似度來判斷它們是否相似。文件 A:?"Bitcoin Bitcoin Bitcoin Money" 文件 B:?"Money Money Bitcoin Bitcoin"
“Bitcoin”這個詞作為 x 軸,把“Money”這個詞作為 y 軸。這意味著文檔 A 可以表示為向量 A(3,1),文檔 B 可以表示為 B(2,2)。0.894?并不意味著文檔 A 是?89.4%,與 B 相似。它意味著文檔 A 和 B 非常相似,但我們不知道有多少百分比!該值沒有閾值。換句話說,你可以將余弦相似度的值解釋如下:它越大,文檔 A 和 B 相似的可能性就越大,反之亦然。
A(1, 11)?和?B(22, 3)?的例子22.4,這并不能說明向量之間的相對相似性。另一方面,余弦相似度也適用于更高維度。參考資料
參考原文:?https://towardsdatascience.com/17-types-of-similarity-and-dissimilarity-measures-used-in-data-science-3eb914d2681
[2]?計算機安全:?https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.2974&rep=rep1&type=pdf
[3]?OpenPose:?https://github.com/CMU-Perceptual-Computing-Lab/openpose





評論
圖片
表情
