【深度學(xué)習(xí)】通俗講解深度學(xué)習(xí)中的圖像分割技術(shù)
來源:Python數(shù)據(jù)之道
作者:來自讀者投稿
整理:陽哥
今天來跟大家分享 深度學(xué)習(xí)中圖像分割技術(shù) 相關(guān)的知識(shí)點(diǎn),文章內(nèi)容由公眾號(hào)讀者創(chuàng)作。
近幾年來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,自動(dòng)駕駛、目標(biāo)檢測(cè)、人臉識(shí)別等熱門科技逐漸走進(jìn)人們的生活當(dāng)中,今天小編帶大家一起來認(rèn)識(shí)圖像分割技術(shù)。
圖像分割
圖像分割,顧名思義就是根據(jù)某些規(guī)則將圖片分成若干特定的、具有獨(dú)特性質(zhì)的區(qū)域,并抽取出感興趣的目標(biāo)。
下圖展示了圖像分割領(lǐng)域的幾種子領(lǐng)域:
語義分割:對(duì)于一張圖像,分割出所有的目標(biāo)(包括背景),但對(duì)于同一類別的目標(biāo),無法區(qū)別不同個(gè)體。 實(shí)例分割:將圖像中除背景之外的所有目標(biāo)分割出來,并且可以區(qū)分同一類別下的不同個(gè)體(例如第三幅圖中每個(gè)人都用不同的顏色表示) 全景分割:在實(shí)例分割的基礎(chǔ)上,可以分割出背景目標(biāo)。

幾種分割方式的關(guān)系
下圖說明了什么是語義分割,從像素層次上來識(shí)別圖像,為圖像中的每個(gè)像素指定類別標(biāo)記,如圖,使用相應(yīng)的顏色表示不同的類別,來標(biāo)記圖像中的每個(gè)像素。

語義分割與實(shí)例分割最主要的區(qū)別就是,實(shí)例分割在正確檢測(cè)目標(biāo)的同時(shí),還要精確的分割出每個(gè)實(shí)例,但不包括背景信息。

分割在圖像中的表達(dá)
我們知道,圖像在計(jì)算機(jī)中的表達(dá)方式是數(shù)字,對(duì)于一張圖像中的每個(gè)目標(biāo)來說,計(jì)算機(jī)對(duì)他們的認(rèn)識(shí)則是通過像素完成的,如下圖,對(duì)圖像進(jìn)行標(biāo)注的時(shí)候,將人用數(shù)字1表示,包用數(shù)字2,樹葉用數(shù)字3表示,通過不同的數(shù)字來區(qū)分不同的類別。

這些數(shù)字也叫做掩膜Mask,它表示圖像中存在特定類別的區(qū)域,每個(gè)類別構(gòu)成一個(gè)數(shù)組。

圖像分割應(yīng)用
關(guān)于圖像分割的應(yīng)用也有很多,例如自動(dòng)駕駛,醫(yī)學(xué)圖像診斷等等,都需要分割出對(duì)我們有用的目標(biāo)。

常用的圖像數(shù)據(jù)集
圖像分割領(lǐng)域常用的數(shù)據(jù)集有以下幾種:
PASCAL VOC COCO BDD100K CamVid Cityscapes Dataset ApolloScape Scene Parsing
PASCAL VOC
VOC 2012 數(shù)據(jù)集分為20類,包括背景有21類,分別如下:
人:人 動(dòng)物:鳥、貓、牛、狗、馬、羊 車輛:飛機(jī)、自行車、船、巴士、汽車、摩托車、火車 室內(nèi):瓶子、椅子、餐桌、植物、沙發(fā)、電視
數(shù)據(jù)集的下載鏈接為:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

COCO
COCO 數(shù)據(jù)集起源于2014年微軟出資標(biāo)注的Microsoft COCO數(shù)據(jù)集,它提供的類別有80類,超過33萬張圖片,其中20萬張有標(biāo)注,整個(gè)數(shù)據(jù)集中個(gè)體數(shù)目超過150萬個(gè)。
數(shù)據(jù)集的下載鏈接為:
http://cocodataset.org/

BDD100K
2018年5月伯克利大學(xué)AI實(shí)驗(yàn)室發(fā)布了目前最大規(guī)模、內(nèi)容最具多樣性的公開駕駛數(shù)據(jù)集BDD100K,同時(shí)設(shè)計(jì)了一個(gè)圖片標(biāo)注系統(tǒng)。BDD100K 數(shù)據(jù)集包含10萬段高清視頻,每個(gè)視頻約40秒,720p,30 fps 。每個(gè)視頻的第10秒對(duì)關(guān)鍵幀進(jìn)行采樣,得到10萬張圖片(圖片尺寸:1280*720 ),并進(jìn)行標(biāo)注。
數(shù)據(jù)集的下載鏈接為:
https://bair.berkeley.edu/blog/2018/05/30/bdd/

CamVid
CamVid 是第一個(gè)具有目標(biāo)類別語義標(biāo)簽的視頻集合。數(shù)據(jù)庫(kù)提供32個(gè)ground truth語義標(biāo)簽,將每個(gè)像素與語義類別之一相關(guān)聯(lián)。
該數(shù)據(jù)庫(kù)解決了對(duì)實(shí)驗(yàn)數(shù)據(jù)的需求,以定量評(píng)估新興算法。數(shù)據(jù)是從駕駛汽車的角度拍攝的。
數(shù)據(jù)集的下載鏈接為:
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/

Cityscapes Dataset
包含戴姆勒在內(nèi)的三家德國(guó)單位聯(lián)合提供,包含50多個(gè)城市的立體視覺數(shù)據(jù);像素級(jí)標(biāo)注;提供算法評(píng)估接口。
數(shù)據(jù)集的下載鏈接為:
https://www.cityscapes-dataset.com/

ApolloScape Scene Parsing
百度公司提供的 ApolloScape 數(shù)據(jù)集將包括具有高分辨率圖像和每像素標(biāo)注的 RGB 視頻,具有語義分割的測(cè)量級(jí)密集3D點(diǎn),立體視頻和全景圖像。
Scene Parsing 數(shù)據(jù)集是 ApolloScape 的一部分,它為高級(jí)自動(dòng)駕駛研究提供了一套工具和數(shù)據(jù)集。場(chǎng)景解析旨在為圖像中的每個(gè)像素或點(diǎn)云中的每個(gè)點(diǎn)分配類別(語義)標(biāo)簽。
下面是幾種數(shù)據(jù)集的比較,可以針對(duì)不同使用場(chǎng)景,選擇合適的數(shù)據(jù)集進(jìn)行訓(xùn)練。

常用的圖像標(biāo)注工具
這里小編為大家總結(jié)了幾種常用的圖像標(biāo)注工具,以滿足不同任務(wù)的需求。
Labelme:
適合通用物體的標(biāo)注,需要用多邊形擬合物體。支持對(duì)象檢測(cè)、圖像語義分割數(shù)據(jù)標(biāo)注,實(shí)現(xiàn)語言為 Python 與 QT,支持導(dǎo)出 VOC 與 COCO 格式數(shù)據(jù)實(shí)例分割。
鏈接:https://github.com/wkentaro/labelme
LabelImg:
適用于圖像檢測(cè)任務(wù)的數(shù)據(jù)集制作,其中標(biāo)簽存儲(chǔ)功能和“Next Image”、“Prev Image”的設(shè)計(jì)使用起來比較方便。該軟件最后保存的 xml 文件格式和 ImageNet 數(shù)據(jù)集是一樣的。
鏈接:https://github.com/tzutalin/labelImg
RectLabel:
支持導(dǎo)出 YOLO、KITTI、COCOJSON 與 CSV 格式,讀寫 Pascal VOC 格式的 XML 文件。
鏈接:https://rectlabel.com/
VIA:
VGG發(fā)布的一種基于 WEB 方式的圖像標(biāo)注工具,使用起來方便快捷,適用于實(shí)例分割等標(biāo)注任務(wù)。
鏈接:http://www.robots.ox.ac.uk/~vgg/software/via/
OpenCV/CVAT:
高效的計(jì)算機(jī)視覺標(biāo)注工具,支持圖像分類、對(duì)象檢測(cè)框、圖像語義分割、實(shí)例分割數(shù)據(jù)標(biāo)注在線標(biāo)注工具。支持圖像與視頻數(shù)據(jù)標(biāo)注,最重要的是支持本地部署,無需擔(dān)心數(shù)據(jù)外泄。
鏈接:https://github.com/opencv/cvat
VOTT:
微軟發(fā)布的基于 WEB 方式本地部署的視覺數(shù)據(jù)標(biāo)注工具。支持圖像與視頻數(shù)據(jù)標(biāo)注,支持導(dǎo)出 CNTK/Pascal VOC 格式,支持導(dǎo)出TFRecord、CSV、VoTT 格式,當(dāng)前主要分支版本有 V1 與 V2 版本。
鏈接:https://github.com/microsoft/VoTT
往期精彩回顧
本站qq群851320808,加入微信群請(qǐng)掃碼:
