圖像處理,計算機(jī)視覺和人工智能之間的差異
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
本文轉(zhuǎn)自:AI算法與圖像處理

左圖像是輸入圖像,右圖像是處理圖像
這是我的圖像處理代碼的鏈接,它很容易和有趣的嘗試自己。https://github.com/PallawiSinghal/AI_Starter/blob/master/image_processing.ipynb
現(xiàn)在,你希望獎勵你的寵物“Shimmy”和“Pluto”作為獲勝者和亞軍,根據(jù)誰在他們的嘴里抓住紅蘋果或黃色圓盤的最大次數(shù)并將它們返回給你在他們各自的軌道上移動 ,左邊是“Shimmy”,右邊是“Pluto”(游戲規(guī)則)。
所以,現(xiàn)在你必須建立一個計算機(jī)視覺系統(tǒng)來自動化你的工作。
因此,CV(計算機(jī)視覺)系統(tǒng)的第一步應(yīng)該對350的每個圖像進(jìn)行詳細(xì)分析。
分析階段
這項分析的目的是找到一個通用的解決方案,不僅僅是幾百個圖像,而是多年來的許多圖像。
我們在圖像中必須尋找的是大多數(shù)時候?qū)櫸锶绾纬霈F(xiàn)在圖像中的模式。就像這里“Shimmy”在左側(cè)軌道,“Pluto”在右側(cè)。

左圖是輸入圖像,中間圖像是掩模(如果你不斷看圖像一段時間你可以找到從中心到角的強(qiáng)度差異),右圖是背景圖像(這個背景) 使用非常著名的OpenCV函數(shù)“Grabcut”完成刪除(前景和背景分割)

第一個圖像是上面最右邊圖像的模糊圖像,這里使用的模糊像處理算法,用于邊緣保存和噪聲消除。第二幅圖像是灰度圖像。第三圖像是閾值圖像,也稱為二值圖像。第四個圖像是第三個圖像的輪廓圖像(簡單地說,我們試圖在所有顏色為白色的物體上繪制邊界,其中也包括寵物),在最后一個圖像中,我們通過周長逼近最大輪廓使用凸包,這里最大的輪廓將是寵物的輪廓,并在圖像上繪制近似的形狀,多邊形

左圖像是該步驟的輸入圖像,我們制作近似的小掩模(中心圖像)以將寵物多邊形轉(zhuǎn)移(也稱為翹曲,wrapping)到小圖像(中心圖像)上。翹曲后的結(jié)果看起來像右圖

左圖是這里的輸入,我們使用黃色光盤的小模板圖像在此圖像上進(jìn)行模板匹配,如下圖所示。模板匹配是一種算法,模板圖像從輸入圖像的頂部到底部移動,輸入圖像是我們情況下最左邊的圖像,并在輸入圖像中找到最佳匹配部分。模板匹配的輸出將是中心圖像,因為你可以看到圖像中最亮和閃亮的部分是黃色光盤所在的位置。因此,我們在最右邊的圖像上繪制一個框。

模板圖片
如果你選擇硬閾值來檢測“Shimmy”,“Pluto”或黃色圓盤,例如應(yīng)用半自動分割(OpenCV grab cut),模板匹配,決定寵物應(yīng)移動的軌道,則此設(shè)計的系統(tǒng)可能缺乏可擴(kuò)展性或?qū)櫸锷眢w的顏色閾值。你最終可能會創(chuàng)建一個只能識別“Shimmy”和“Pluto”的有偏見系統(tǒng)。
你將無法將你的CV系統(tǒng)交給世界,以便在不同的狗或貓身上得到相同的結(jié)果,因為規(guī)則和特征只偏向于“Shimmy”和“Pluto”。
人工智能“救世主”提供圖像處理,計算機(jī)視覺算法和機(jī)器學(xué)習(xí)算法,以幫助你像魔術(shù)一樣推廣系統(tǒng)。
就像你在教育系統(tǒng)中長大的學(xué)習(xí)一樣,你的老師教你用圖像來區(qū)分世俗的東西,給你的大腦喂兩個輸入,一個是圖像,第二個是正確的特征描述,它的外觀和位置在圖片。
同樣,如果我們想為上述類比構(gòu)建一個AI系統(tǒng),我們需要使用圖像處理算法提供預(yù)處理的圖像,并告訴他們你想要檢測的球,圓盤,蘋果,狗或任何東西的位置并存在于圖像中。
然后,一旦圖像和圖像的內(nèi)容,信息被提供給系統(tǒng),計算機(jī)視覺就會出現(xiàn)在圖片中。
AI由多層組成,就像一包面包一樣,每層運行一個計算機(jī)視覺算法,其工作是從圖像中提取特征。
在前幾層中,我們提取圖像上的直線或曲線邊緣等低級特征,然后在它學(xué)習(xí)檢測眼睛,蘋果,爪子,尾巴以及后來完成的每層中提取所有提取的特征。狗或貓。稍后你將使用這些學(xué)習(xí)卷積核來預(yù)測新數(shù)據(jù)集上的對象,該數(shù)據(jù)集也稱為測試數(shù)據(jù)集。

以上圖片由https://www.cc.gatech.edu/~hays/compvision/proj6/提供,可以在此處查看圖層的外觀以及每層的特征提取方式。
當(dāng)然有數(shù)學(xué)方程式。但是,讓我向你保證,他們很容易,你可以做到。
并且所有的學(xué)習(xí)都保存在模型中,就像我們的學(xué)習(xí)保存在我們的大腦中一樣,它是通用的,可以用于任何其他數(shù)據(jù)。
構(gòu)建AI解決方案的一個非常關(guān)鍵的輸入是數(shù)據(jù)。想象一下,你需要付出的努力才能創(chuàng)造出一個狗在世界各地玩球的數(shù)據(jù)集(沒有差錯的數(shù)據(jù)集)。
因此,綜合圖像處理,計算機(jī)視覺和機(jī)器學(xué)習(xí)三個形成了一個你身邊所聽到,看到和體驗到的人工智能系統(tǒng)。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

