匯總 | 深度學習中圖像語義分割基準數(shù)據(jù)集詳解
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
匯總圖像語義分割那些質量最好的數(shù)據(jù)集與常用benchmark數(shù)據(jù)集
圖像語義分割是計算機視覺最經(jīng)典的任務之一,早期的圖像分割主要有以下幾種實現(xiàn)方法。
基于像素分布的分割算法:KMeans、Fuzzy C Means、 GMM、MeanShift
基于圖像拓撲結構的分割算法:分水嶺填充、輪廓邊緣分析
基于能量最大化的分割方法:圖割

但是隨著深度學習的興趣,最近幾年傳統(tǒng)的圖像分割方法已經(jīng)很少被人提起,現(xiàn)在開始學習圖像分割的都是基于深度學習的各種模型實現(xiàn),這其中模型的訓練需要大量的數(shù)據(jù),所以想要了解圖像分割,首先需要了解圖像分割那些質量最好的各種數(shù)據(jù)集。這些數(shù)據(jù)集有的作為benchmark 可以很公平的比較各種語義分割模型的性能與精度,評價一個模型的好壞。
這些數(shù)據(jù)集的標注多數(shù)都是基于像素級別的標簽,也有的是基于點級別的標簽。語義分割針對不同的任務,數(shù)據(jù)集分為如下三類:
2D RGB圖像數(shù)據(jù)集
2.5D或者RGB-D的深度圖像數(shù)據(jù)集
純立體或者3D圖像數(shù)據(jù)集
這些數(shù)據(jù)集總的列表如下:

圖像語義分割多數(shù)都是針對二維的圖像進行過,所以2D 數(shù)據(jù)集是數(shù)據(jù)集類別最多的,這里2D包括RGB彩色與灰度圖像。
PASCAL Visual Object Classes(VOC)數(shù)據(jù)集
PASCAL VOC數(shù)據(jù)集支持五種不同的視覺任務訓練包括圖像分類、對象檢測、圖像分割、行為分類、人體Layout。分割是預測圖像種每個像素屬于哪個類別的任務,VOC數(shù)據(jù)集總計有21個類別(包括背景)。分割數(shù)據(jù)集被分為訓練與測試兩個子集,分別有1464與1449張圖像。
PASCAL Context數(shù)據(jù)集
它是PASCAL VOC 2010數(shù)據(jù)集的擴展,包含10103張基于像素級別標注的訓練圖像,它包含總數(shù)540個類別,其中59個類別是常見類別,被大量標注,整個類別圖像的數(shù)據(jù)符合冪次法則分布。
SBD (Semantic Boundaries Dataset)數(shù)據(jù)集
它的數(shù)據(jù)來自那些在PASCAL VOC中沒有被語義分割標注的圖像數(shù)據(jù),總計有11355張圖像來自PASCAL VOC 2011,實現(xiàn)了兩個層級的標注分布是種類/類別與實例對象分割,其中8498張為訓練集,2857張為測試集。
COCO(Microsoft Common Objects in Context)數(shù)據(jù)集
是微軟發(fā)布的圖像分類、對象檢測、實例分割、圖像語義的大規(guī)模數(shù)據(jù)集,其中圖像分割部分有80分類,82783張訓練圖像、40504張驗證圖像,測試集好感80000張圖像,而且測試集本身被分為四種不同測試數(shù)據(jù),分別應對開發(fā)測試、標準測試、評估挑戰(zhàn)、過擬合測試。
Cityscapes
一個大規(guī)模的城市道路與交通語義分割數(shù)據(jù)集,8大類別30種類的像素級別標注,數(shù)據(jù)集包含5000張精準標注的圖像,20000張標注圖像。數(shù)據(jù)收集來自50多個城市,前后花了幾個月的時間,對這個時間線與天氣下的場景都進行圖像采集,最初原始的數(shù)據(jù)是視頻方式,通過人工選擇視頻幀,得到最終的數(shù)據(jù)。整個數(shù)據(jù)集支持三個級別的分割性能評估
像素級別分割
實例級別分割
全景級別分割
其中數(shù)據(jù)采集的城市地圖如下:

精準標注的圖像

粗糙標注的圖像

所有數(shù)據(jù)組與類別列表如下

CamVid
是來自劍橋的道路與駕駛場景圖像分割數(shù)據(jù)集,圖像數(shù)據(jù)來自視頻幀提取,原始分辨率大小為960x720,包括32個類別。分為367張訓練圖像,100張驗證圖像,233張測試圖像。
KITTI
自動駕駛最常用的一個數(shù)據(jù)集,數(shù)據(jù)采集來自高分辨RGB、灰度立體相機,3D激光掃描等。但是數(shù)據(jù)集本身不包括標注的ground truth分割(一般人用不起),網(wǎng)上有很多研究機構部分標注的數(shù)據(jù)集可以下載!
Youtube-Objects
數(shù)據(jù)收集來自Youtube視頻網(wǎng)站,分類是PASCAL VOC其中10個子分類包括(aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, and train) ,數(shù)據(jù)集沒有被標注,但是有個好人手動標注了一些,他對視頻序列每十幀標注一幀,總計對480x360視頻數(shù)據(jù)的10167幀數(shù)據(jù)進行了標注。
Adobe’s Portrait Segmentation

它是一個人體肖像分割數(shù)據(jù)集,圖像分辨率為800x600數(shù)據(jù)來自Flickr,多數(shù)數(shù)據(jù)是來自手機前置相機拍照的生成。數(shù)據(jù)集包含1500張訓練圖像,300張測試圖像,全部被標注了,人與背景的分類,圖像標注的時候采用了半自動的標注方式。先通過程序進行人臉檢測,然后人工手動PS生成。
Materials in Context (MINC)
全場景的物體識別數(shù)據(jù)集,包含23個類別,7061張標記訓練圖像,5000張作為測試,2500張作為驗證。這些圖像主要來自OpenSur face數(shù)據(jù)集。整個數(shù)據(jù)集的圖像分辨率分布從800x500到500x800之間。
Densely-Annotated VIdeo Segmentation (DAVIS)
該數(shù)據(jù)集主要是視頻中對象分割數(shù)據(jù),目的是適應實時動態(tài)視頻語義分割挑戰(zhàn)。主要有50段視頻序列構成,其中4219幀是訓練數(shù)據(jù),2013幀是驗證數(shù)據(jù),所有的視頻數(shù)據(jù)都下采樣至480P大小,像素級別的對每幀數(shù)據(jù)標注四個類別,分別是人、動物、車輛、對象。視頻的另外一個特征是每幀至少有一個前景目標對象在視頻幀中出現(xiàn)。
Stanford background
該數(shù)據(jù)集是室外場景數(shù)據(jù)集,主要數(shù)據(jù)來自LabelMe、MSRC、PASCAL VOC、Geometric Context公開數(shù)據(jù)集。數(shù)據(jù)集包含715張至少有一個前景對象圖像,進行了像素級別的圖像標注。主要用于評估分割模型的語義場景理解。
SiftFlow
包含2688完全標注的圖像,是LabelMe數(shù)據(jù)集的子集。絕大數(shù)圖像是室外八種場景,33個類別,256x256大小。
ADE20K

該數(shù)據(jù)集是全尺寸的圖像語義分割標注數(shù)據(jù)集,其中訓練圖像201210張,驗證圖像2000張,該數(shù)據(jù)集格式如下:
*.jpg表示RGB圖像
*_seg.png表示對象分割mask圖像,既包括實例mask也包括類別mask信息,其中通道R與G被編碼成對象mask,通道B被編碼成實例mask。
*_seg_parts_N.png 表示部分分割mask
*.txt表述每個分割圖像的對象與parts的冗余信息文本文件
上述的這些圖像語義分割數(shù)據(jù)集都是2D圖像語義分割模型訓練、評估、測試經(jīng)常是使用的一些基準數(shù)據(jù)集。大家覺得有用請不要忘記分享給更多需要的人 ,贈人玫瑰、手有余香!
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~

