圖像分類的主要難點(diǎn)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
圖像分類是根據(jù)圖像的類型(類別)為圖像分配標(biāo)簽的過程。考慮我們有以下類別的圖像:貓和狗因此,當(dāng)我們將給定類別的圖像提供給圖像分類系統(tǒng)時(shí),系統(tǒng)會(huì)根據(jù)類別為圖像分配標(biāo)簽。例如,如果我們將下面給出的圖像提供給“圖像分類系統(tǒng)”。系統(tǒng)應(yīng)為圖像分配標(biāo)簽“ dog”。

圖像分類的挑戰(zhàn):
1.類內(nèi)變化
2.比例變化
3.視點(diǎn)變化
4.咬合
5.照明
6.背景雜波
類內(nèi)差異是同一類圖像之間的差異。類內(nèi)變異的示例是在我們的數(shù)據(jù)集中具有多種類型的椅子。椅子可以是“辦公椅”,“舒適椅”,“餐桌椅”,“裝飾椅”等。

在上面的圖片中,我們有不同類型的椅子。因此,我們的圖像分類系統(tǒng)應(yīng)該能夠解決類內(nèi)變異問題。
這個(gè)問題在圖像分類中非常普遍。比例變化實(shí)際上是同一對(duì)象的圖像具有多個(gè)大小。下圖顯示了同一對(duì)象__勺子的比例變化,但它們都是勺子的大小不同。

我們具有視點(diǎn)變化,相對(duì)于如何在圖像中拍攝和捕獲對(duì)象,可以在多個(gè)維度上定向/旋轉(zhuǎn)對(duì)象。無論我們從哪個(gè)角度捕捉椅子的圖像,它仍然是椅子。

我們要在圖像中分類的許多對(duì)象無法完全查看。很大一部分隱藏在其他對(duì)象的后面。

給出的是貓的圖像,但請(qǐng)注意,它是如何在封面下靜止的,這在我們看來是封閉的。這意味著它不是完全可見,但是我們的圖像分類系統(tǒng)應(yīng)該能夠?qū)⑵錂z測為貓。
我們的圖像分類還應(yīng)該能夠處理照明的變化。

這兩個(gè)圖像都屬于同一杯,但是像素的強(qiáng)度級(jí)別有所不同。我們的圖像分類系統(tǒng)應(yīng)該能夠處理光照的變化,因此當(dāng)我們給圖像分類系統(tǒng)提供相同物體的任何具有不同亮度(照度)的圖片時(shí),系統(tǒng)都應(yīng)該能夠?yàn)槠浞峙湎嗤臉?biāo)簽。
這意味著圖像中有很多對(duì)象,對(duì)于觀察者來說,找到特定對(duì)象非常困難。這些圖像非常“嘈雜”。但是我們只對(duì)圖像中的一個(gè)特定物體感興趣;然而,由于所有的“噪音”,要挑出特定的物體并不容易。對(duì)于人類而言,這是一項(xiàng)非常艱巨的任務(wù),因此請(qǐng)想象一下,對(duì)于沒有圖像語義理解的計(jì)算機(jī)而言,這是多么困難。


在某些情況下,即使圖像中沒有物體,例如,如果我們向圖像分類系統(tǒng)顯示僅冰的圖像,系統(tǒng)也會(huì)將其標(biāo)記為熊。這是因?yàn)閳D像分類系統(tǒng)在訓(xùn)練過程中已經(jīng)學(xué)會(huì)了圖像中的圖案,并且有白熊和無熊的冰的圖案非常相似。因此我們的圖像分類系統(tǒng)應(yīng)該能夠解決背景混亂的問題。這就是圖像分類系統(tǒng)所面臨的挑戰(zhàn)。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


