?數(shù)據(jù)科學(xué)中 17 種相似性和相異性度量
"There is no Royal Road to Geometry."—歐幾里得

?? . 簡(jiǎn)介
相似性和相異性
指標(biāo)
2 - 對(duì)稱性:??對(duì)于所有??和?。
3 - 三角不等式:??對(duì)于所有?。
4 -??僅當(dāng)??時(shí)。
?? . 距離函數(shù)
? L2范數(shù),歐幾里得距離

n 維空間中兩點(diǎn)之間的歐幾里德距離
二維空間中兩點(diǎn)之間的歐幾里德距離。


KNN 算法,該算法使用歐幾里德距離對(duì)數(shù)據(jù)進(jìn)行分類。為了演示 KNN 如何使用歐幾里德度量,我們選擇了一個(gè) Scipy 包的流行?iris?數(shù)據(jù)集。Iris-Setosa、Iris-Versicolor 和 Iris-Virginica,并具有以下四個(gè)特征:萼片長(zhǎng)度、萼片寬度、花瓣長(zhǎng)度、花瓣寬度。因此就有一個(gè) 4 維空間,在其中表示每個(gè)數(shù)據(jù)點(diǎn)。
Iris-virginica?數(shù)據(jù)。通過(guò)這種方式,我們可以在二維空間中繪制數(shù)據(jù)點(diǎn),其中 x 軸和 y 軸分別表示花瓣長(zhǎng)度和花瓣寬度。
Iris-Setosa?或?Iris-versicolor(數(shù)據(jù)集中的 0 和 1)。因此,該數(shù)據(jù)集可用于 KNN 分類,因?yàn)樗举|(zhì)上是一種有監(jiān)督的 ML 算法。假設(shè)我們的 ML 模型(k = 4?的 KNN)已經(jīng)在這個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練,我們選擇了兩個(gè)輸入特征只有 20 個(gè)數(shù)據(jù)點(diǎn),如上圖所示。
Iris-Setosa 或 Iris-versicolor。至此,新數(shù)據(jù)點(diǎn)到我們訓(xùn)練數(shù)據(jù)的每個(gè)點(diǎn)的歐幾里德距離都計(jì)算出來(lái)了,如下圖所示:
k = 4時(shí),KNN分類器需要選擇最小的四個(gè)距離,代表新點(diǎn)到以下點(diǎn)的距離:point1、point5、point8和point9,如圖所示:
Iris-Setosa。使用這個(gè)類比,可以想象更高的維度和其他分類器。? 平方歐幾里得距離
② L1 范數(shù)、城市街區(qū)、曼哈頓或出租車(chē)距離



Iris-Setosa,另外兩個(gè)數(shù)據(jù)點(diǎn)投票支持?Iris-versicolor,這意味著這是個(gè)平局。
k=4,將其更改為?k=3將導(dǎo)致以下值:
k=5?將導(dǎo)致以下值:
Iris-Setosa。因此,由你決定是否需要增加或減少 k 的值。
Iris-Setosa。


Bishop?使用曼哈頓距離(如果沒(méi)有看到,可通過(guò)將棋盤(pán)旋轉(zhuǎn) 45° 來(lái)想象一下)。換句話說(shuō),讓主教越過(guò)紅色方塊所需的移動(dòng)次數(shù)(距離)等于曼哈頓距離,即 2。L1-norm?比?l2-norm?給出更稀疏的估計(jì)。除此之外,L1 范數(shù)和L2 范數(shù)通常用于神經(jīng)網(wǎng)絡(luò)的正則化,以最小化權(quán)重或?qū)⒛承┲禋w零,就像套索回歸中使用的那樣。
③ 堪培拉距離
④ L∞ 范數(shù),切比雪夫距離,最大距離





⑤ Lp 范數(shù),閔可夫斯基距離

p = 1:?曼哈頓距離。 p = 2:?歐幾里得距離。 p → +∞ :?切比雪夫距離,邏輯或(點(diǎn) D =?A或B?=?1或1?= 1)。 p → 0:?邏輯與(點(diǎn) C =?A?AND?B?= 零)。 p → -∞ :?最小距離(點(diǎn) D 的對(duì)稱性)。
?⑥余弦距離
文件A:?"I love to drink coffee in the morning." 文件B:?"I like to drink coffee." 文件C:?"My friend and I work at a coffee shop in our hometown. He tells some good jokes in the morning. We like to begin the day by drink a cup of tea each."

“I love to drink coffee”?然而,文件 C 包含文件 A 的所有單詞,但從頻率表中的含義非常不同。為了解決這個(gè)問(wèn)題,你需要計(jì)算余弦相似度來(lái)判斷它們是否相似。文件 A:?"Bitcoin Bitcoin Bitcoin Money" 文件 B:?"Money Money Bitcoin Bitcoin"
“Bitcoin”這個(gè)詞作為 x 軸,把“Money”這個(gè)詞作為 y 軸。這意味著文檔 A 可以表示為向量 A(3,1),文檔 B 可以表示為 B(2,2)。0.894?并不意味著文檔 A 是?89.4%,與 B 相似。它意味著文檔 A 和 B 非常相似,但我們不知道有多少百分比!該值沒(méi)有閾值。換句話說(shuō),你可以將余弦相似度的值解釋如下:它越大,文檔 A 和 B 相似的可能性就越大,反之亦然。
A(1, 11)?和?B(22, 3)?的例子22.4,這并不能說(shuō)明向量之間的相對(duì)相似性。另一方面,余弦相似度也適用于更高維度。參考資料
參考原文:?https://towardsdatascience.com/17-types-of-similarity-and-dissimilarity-measures-used-in-data-science-3eb914d2681
[2]?計(jì)算機(jī)安全:?https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.2974&rep=rep1&type=pdf
[3]?OpenPose:?https://github.com/CMU-Perceptual-Computing-Lab/openpose

推薦閱讀
歡迎長(zhǎng)按掃碼關(guān)注「數(shù)據(jù)管道」
評(píng)論
圖片
表情
