<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          干貨|全面理解無(wú)監(jiān)督學(xué)習(xí)基礎(chǔ)知識(shí)

          共 2931字,需瀏覽 6分鐘

           ·

          2022-11-02 01:01


            點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

            重磅干貨,第一時(shí)間送達(dá)

          一、無(wú)監(jiān)督學(xué)習(xí)

          無(wú)監(jiān)督學(xué)習(xí)的特點(diǎn)是,模型學(xué)習(xí)的數(shù)據(jù)沒(méi)有標(biāo)簽,因此無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是通過(guò)對(duì)這些無(wú)標(biāo)簽樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在特性及規(guī)律,其代表就是聚類(lèi)。與監(jiān)督學(xué)習(xí)相比,監(jiān)督學(xué)習(xí)是按照給定的標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí)(這里的標(biāo)準(zhǔn)指標(biāo)簽),而無(wú)監(jiān)督學(xué)習(xí)則是按照數(shù)據(jù)的相對(duì)標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí)(數(shù)據(jù)之間存在差異)。以分類(lèi)為例,小時(shí)候你在區(qū)分貓和狗的時(shí)候,別人和你說(shuō),這是貓,那是狗,最終你遇到貓或狗你都能區(qū)別出來(lái)(而且知道它是貓還是狗),這是監(jiān)督學(xué)習(xí)的結(jié)果。但如果小時(shí)候沒(méi)人教你區(qū)別貓和狗,不過(guò)你發(fā)現(xiàn)貓和狗之間存在差異,應(yīng)該是兩種動(dòng)物(雖然能區(qū)分但不知道貓和狗的概念),這是無(wú)監(jiān)督學(xué)習(xí)的結(jié)果。

          聚類(lèi)正是做這樣的事,按照數(shù)據(jù)的特點(diǎn),將數(shù)據(jù)劃分成多個(gè)沒(méi)有交集的子集(每個(gè)子集被稱為簇)。通過(guò)這樣的劃分,簇可能對(duì)應(yīng)一些潛在的概念,但這些概念就需要人為的去總結(jié)和定義了。

          聚類(lèi)可以用來(lái)尋找數(shù)據(jù)的潛在的特點(diǎn),還可以用來(lái)其他學(xué)習(xí)任務(wù)的前驅(qū)。例如在一些商業(yè)引用中需要對(duì)新用戶的類(lèi)型進(jìn)行判別,但是“用戶類(lèi)型”不好去定義,因此可以通過(guò)對(duì)用戶進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果將每個(gè)簇定義為一個(gè)類(lèi),然后基于這些類(lèi)訓(xùn)練模型,用于判別新用戶的類(lèi)型。

          二、聚類(lèi)的性能度量  

          聚類(lèi)有著自己的性能度量,這和監(jiān)督學(xué)習(xí)的損失函數(shù)類(lèi)似,如果沒(méi)有性能度量,則不能判斷聚類(lèi)結(jié)果的好壞了。

          聚類(lèi)的性能大致有兩類(lèi):一類(lèi)是聚類(lèi)結(jié)果與某個(gè)參考模型進(jìn)行比較,稱為外部指標(biāo);另一種則是直接考察聚類(lèi)結(jié)果而不參考其他模型,稱為內(nèi)部指標(biāo)。

          在介紹外部指標(biāo)之前先作以下定義。對(duì)于樣本集合,我們可以給每一個(gè)樣本一個(gè)單獨(dú)的編號(hào),并且我們以表示編號(hào)為i j 的樣本屬于同一個(gè)簇,這里 i<j 可以避免重復(fù)。因此有

          a表示在聚類(lèi)結(jié)果中樣本i j 屬于同一個(gè)簇,而在參考模型中i j 也同屬于一個(gè)簇。b表示在聚類(lèi)結(jié)果中樣本i j 屬于同一個(gè)簇,而在參考模型中i j 不同屬于一個(gè)簇。cd同理。以上定義兩兩樣本在聚類(lèi)結(jié)果和參考模型結(jié)果可能出現(xiàn)的情況。

          常用的外部指標(biāo)如下

          以上的性能度量的結(jié)果都在[0,1]區(qū)間中,并且結(jié)果越大,說(shuō)明性能越好。

          倘若沒(méi)有可參考的模型,一個(gè)好的聚類(lèi)結(jié)果應(yīng)是類(lèi)內(nèi)的點(diǎn)都足夠近,類(lèi)間的點(diǎn)都足夠遠(yuǎn),這就是內(nèi)部指標(biāo)說(shuō)要描述的。對(duì)于內(nèi)部指標(biāo)我們需要先做以下定義

          常用的內(nèi)部指標(biāo)有

          DBI值越小說(shuō)明聚類(lèi)效果好,DI則相反,DI值越大說(shuō)明聚類(lèi)效果越好。

          三、距離度量

          樣本點(diǎn)分布空間中,如果兩個(gè)樣本點(diǎn)相距很近,則認(rèn)為樣本點(diǎn)應(yīng)該屬于同一個(gè)簇。如果樣本相距很遠(yuǎn),則不會(huì)認(rèn)為它們屬于同一個(gè)簇。當(dāng)然這里的遠(yuǎn)近是一種相對(duì)的概念而不是單純的數(shù)值。我們可以使用VDM(Value Difference Metric)距離:


          以上表示了屬性u(píng)上兩個(gè)離散值a與b之間的VDM距離。表示屬性u(píng)上取值為a的樣本數(shù)表示在第i個(gè)樣本簇中屬性u(píng)上取值為a的樣本數(shù),k為樣本簇?cái)?shù)。

          距離度量在聚類(lèi)中非常重要,因?yàn)榫嚯x度量描述的是不同類(lèi)別的相似度,距離越大相似度越小,由于不同概念之相似度的度量有所不同,在現(xiàn)實(shí)任務(wù)中,需要通過(guò)樣本確定合適的距離計(jì)算公式,這可以通過(guò)距離度量學(xué)習(xí)實(shí)現(xiàn)。

          四、常見(jiàn)的距離算法

          k-means

          k均值是常用的快速聚類(lèi)方法,該方法在學(xué)習(xí)開(kāi)始之初,隨機(jī)設(shè)置若干個(gè)簇心,樣本點(diǎn)隸屬于離它最近的簇心。因此每個(gè)簇心會(huì)有一個(gè)隸屬于它自己的樣本集合。每次迭代,每個(gè)簇心找到隸屬于自己的樣本集合,并根據(jù)其隸屬的樣本集合中計(jì)算出中心位置(均值),然后簇心移動(dòng)到此處。直到聚類(lèi)結(jié)果不發(fā)生改變。k-means對(duì)球狀簇比較高效,針對(duì)其他的效果較差。

          關(guān)于聚類(lèi)簇心的設(shè)置,現(xiàn)實(shí)中我們往往會(huì)設(shè)置不同數(shù)量的簇心,通過(guò)聚類(lèi)的性能度量來(lái)選擇最佳的簇心個(gè)數(shù)。

          以上是西瓜數(shù)據(jù)集的聚類(lèi)過(guò)程。

          學(xué)習(xí)向量量化(Learin Vector Quantization)

          LVQ和K均值算法很像,同樣是通過(guò)移動(dòng)簇心來(lái)實(shí)現(xiàn)聚類(lèi),不同的是LVQ假設(shè)數(shù)據(jù)樣本有類(lèi)別標(biāo)記,通過(guò)這些監(jiān)督信息輔助聚類(lèi)。算法過(guò)程如下

          以上算法的過(guò)程可以簡(jiǎn)單概括為,如果隨機(jī)選擇的點(diǎn)與簇心的類(lèi)別不對(duì)應(yīng)則令簇心遠(yuǎn)離該樣本點(diǎn),否則靠近該樣本點(diǎn)。迭代結(jié)束后對(duì)于任意樣本x,它將被劃入與其距離最近的原型向量所代表的簇中。

          以上是LVQ在西瓜數(shù)據(jù)集聚類(lèi)的過(guò)程。

          高斯混合聚類(lèi)

          高斯混合聚類(lèi)才用概率模型來(lái)表達(dá)聚類(lèi)原型,我們可以定義高斯混合分布為

          其中為混合系數(shù)且。使用高斯混合聚類(lèi)其實(shí)是假設(shè)樣本是在高斯混合分布中采樣的結(jié)果。對(duì)于樣本我們可以通過(guò)計(jì)算

          得出某樣本由第i個(gè)高斯分布生成的后驗(yàn)概率,該樣本的類(lèi)別為使得該概率最大的分布的類(lèi)別。有關(guān)于高斯混合模型的具體介紹,將會(huì)與EM算法一起介紹。

          密度聚類(lèi)

          顧名思義,密度聚類(lèi)從樣本密度的角度來(lái)考察樣本之間的關(guān)聯(lián)性,其經(jīng)典算法為DBSCAN,該算法通過(guò)設(shè)置的鄰域樣本鄰域內(nèi)最少樣本點(diǎn)數(shù)為標(biāo)準(zhǔn)設(shè)置核心對(duì)象,倘若核心對(duì)象密度相連則將它們合并到同一簇,因此DBSCAN的聚類(lèi)結(jié)果的一個(gè)簇為最大的密度相連的樣本集合。以下是DBSCAN的一些概念的定義:

          上面MinPts = 3,虛線表示核心對(duì)象的鄰域。X1與X2密度直達(dá),X1與X3密度可達(dá)X3與X4密度相連。

          DBSCAN能夠?qū)⒆銐蚋呙芏鹊膮^(qū)域劃分成簇,并能在具有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的簇。

          層次聚類(lèi)

          層次聚類(lèi)開(kāi)始時(shí)把所有的樣本歸為一類(lèi),然后計(jì)算出各個(gè)類(lèi)之間的距離,然后合并距離最小的兩個(gè)類(lèi)。從上面的描述來(lái)看,層次聚類(lèi)就像是在用克魯斯卡爾算法建立最小生成樹(shù)一樣,不過(guò)當(dāng)層次聚類(lèi)當(dāng)前類(lèi)別數(shù)下降到給定的類(lèi)別數(shù)是就會(huì)終止。這里層次聚類(lèi)所使用的聚類(lèi)是不同類(lèi)別之間的平均距離。

          因?yàn)閷哟尉垲?lèi)所需要計(jì)算的距離很多,因此層次聚類(lèi)并不適合在大的數(shù)據(jù)集中的使用。

          好消息!

          小白學(xué)視覺(jué)知識(shí)星球

          開(kāi)始面向外開(kāi)放啦??????



          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測(cè)、車(chē)道線檢測(cè)、車(chē)輛計(jì)數(shù)、添加眼線、車(chē)牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.肏屄 | 五月天无码在线 | 自拍偷拍2025 | 一级黄色AA | 91美女视频 |