計算機視覺知識體系
點擊下方卡片,關(guān)注“新機器視覺”公眾號
重磅干貨,第一時間送達(dá)

一、計算機視覺:
三個層次:系統(tǒng)工程方案層、領(lǐng)域任務(wù)模塊層、基礎(chǔ)算法層。
三方面知識點:圖像處理、機器學(xué)習(xí)、基礎(chǔ)數(shù)學(xué)與模型。
視頻的三個場景:近距離(手機、智能硬件、PC等),室內(nèi)中距離(室內(nèi),如辦公室、商場、家內(nèi);卡口,門口等),室外遠(yuǎn)距離(道路、公共場所等)
二、系統(tǒng)工程方案層:WEB圖像結(jié)構(gòu)化;離線SDK圖像結(jié)構(gòu)化;視頻關(guān)鍵幀獲取、結(jié)構(gòu)化、序列化行為分析、結(jié)果圖流媒體;
性能上,高并發(fā);高可用;單張時間,盡量在200ms以內(nèi),尤其是視頻;準(zhǔn)確度。
三、領(lǐng)域任務(wù)模塊層:五大領(lǐng)域(人、車、文、物、事)
人:人體(檢測、關(guān)鍵點、屬性分類、行為、識別或者以圖搜人);人臉(檢測、關(guān)鍵點、屬性分類、活體行為、識別);
車:車輛(檢測、關(guān)鍵點、品牌細(xì)分類、屬性分類、行為,識別或者以圖搜車);車牌(檢測、樣式分類、文字識別);
文:OCR(圖像預(yù)處理、基于圖像分類、全部文字檢測、指定字段定位、文字識別、基于文字內(nèi)容分類),領(lǐng)域:票據(jù)、證件(個人、企業(yè))、證書、車牌、自然場景(內(nèi)部系統(tǒng)圖像、門牌、站牌、物體等)
物:動物(檢測、關(guān)鍵點、品種細(xì)分類、屬性分類、行為、識別或以圖搜動物);物體(檢測、關(guān)鍵點、品牌細(xì)分類、屬性分類、識別或以圖搜物)
事:特定場景檢測,如煙火、物體遺留、工業(yè)視覺等。
四、基礎(chǔ)算法層:三個方面(檢測分割、分類識別、圖像預(yù)處理)
檢測分割:定位目標(biāo)位置、分出目標(biāo)類別、提取目標(biāo)關(guān)鍵點、從畫面中分割出目標(biāo)的像素。
分類識別:分類包含三層,大類、屬類、細(xì)類,檢測到目標(biāo)后,目標(biāo)品牌或者品種細(xì)分類、目標(biāo)屬性分類(顏色、形狀、屬類等)、靜態(tài)行為分類、序列行為分類;提取目標(biāo)特征,結(jié)合類別進行以圖搜圖識別。
圖像預(yù)處理:圖像增強、去霧、亮度調(diào)整、傾斜校正等。
五、深入領(lǐng)域體會:
人臉領(lǐng)域,檢測敏感度(人臉傾斜檢測)、誤檢測率,人臉特征提取速度,人臉識別準(zhǔn)確度。
車輛領(lǐng)域,車牌準(zhǔn)確度、敏感度;顏色、類型、品牌準(zhǔn)確度;車輛整體特征與內(nèi)部局部特征的提取;車輛行為分析。
文字領(lǐng)域,圖像質(zhì)量對文字檢測與識別的影響,圖像預(yù)處理,文字檢測的準(zhǔn)確度與漏檢率,文字識別,文字語義的分析。
視頻領(lǐng)域,三大難題:(1)誤檢較多。(2)漏檢問題,例如遮擋、逆光條件、傾斜姿態(tài)較大等情況無法檢測到。(3)速度問題,檢測算法速度無法完全達(dá)到實時性,在100ms以內(nèi)就不錯。解決速度問題方法:a.視頻關(guān)鍵幀或間隔幀;b.圖像壓縮,坐標(biāo)還原;c.耗時模塊在關(guān)鍵時刻運行,其他時刻做數(shù)據(jù)關(guān)聯(lián)。






轉(zhuǎn)自:CSDN博客,作者:shaoshuai_AI_DATA
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
