21個深度學(xué)習(xí)開源數(shù)據(jù)集匯總!
轉(zhuǎn)自丨極市平臺
導(dǎo)讀
?本文收集整理了21個國內(nèi)外經(jīng)典的開源數(shù)據(jù),包含了目標(biāo)檢測、圖像分割、圖像分類、人臉、自動駕駛、姿態(tài)估計、目標(biāo)跟蹤等方向。
深度學(xué)習(xí)的三大要素:數(shù)據(jù)、算法、算力。
數(shù)據(jù)在深度學(xué)習(xí)中占據(jù)著非常重要的地位,一個高質(zhì)量的數(shù)據(jù)集往往能夠提高模型訓(xùn)練的質(zhì)量和預(yù)測的準(zhǔn)確率。極市平臺收集整理了21個國內(nèi)外經(jīng)典的開源數(shù)據(jù),包含了目標(biāo)檢測、圖像分割、圖像分類、人臉、自動駕駛、姿態(tài)估計、目標(biāo)跟蹤等方向。
數(shù)據(jù)集下載匯總鏈接:https://www.cvmart.net/dataSets
數(shù)據(jù)集將會不斷更新,歡迎大家持續(xù)關(guān)注!
一、目標(biāo)檢測
1.COCO2017數(shù)據(jù)集
COCO2017是2017年發(fā)布的COCO數(shù)據(jù)集的一個版本,主要用于COCO在2017年后持有的物體檢測任務(wù)、關(guān)鍵點檢測任務(wù)和全景分割任務(wù)。
二、圖像分割
1.LVIS數(shù)據(jù)集
LVIS是一個大規(guī)模細粒度詞匯集標(biāo)記數(shù)據(jù)集,該數(shù)據(jù)集針對超過 1000 類物體進行了約 200 萬個高質(zhì)量的實例分割標(biāo)注,包含 164k 張圖像。
2.高密度人群及移動物體視頻數(shù)據(jù)集
Crowd Segmentation Dataset 是一個高密度人群和移動物體視頻數(shù)據(jù),視頻來自BBC Motion Gallery 和 Getty Images 網(wǎng)站。
3.DAVIS 視頻分割數(shù)據(jù)集
Densely Annotated Video Segmentation 是一個高清視頻中的物體分割數(shù)據(jù)集,包括 50個 視頻序列,3455個 幀標(biāo)注,視頻采集自高清 1080p 格式。
三、圖像分類
1.MNIST 手寫數(shù)字圖像數(shù)據(jù)集
MNIST數(shù)據(jù)集是一個手寫阿拉伯?dāng)?shù)字圖像識別數(shù)據(jù)集,圖片分辨率為 20x20 灰度圖圖片,包含‘0 - 9’ 十組手寫手寫阿拉伯?dāng)?shù)字的圖片。其中,訓(xùn)練樣本 60000 ,測試樣本 10000,數(shù)據(jù)為圖片的像素點值,作者已經(jīng)對數(shù)據(jù)集進行了壓縮。
2.Kaggle 垃圾分類圖片數(shù)據(jù)集
該數(shù)據(jù)集是圖片數(shù)據(jù),分為訓(xùn)練集85%(Train)和測試集15%(Test)。其中O代表Organic(有機垃圾),R代表Recycle(可回收)
四、人臉
1.IMDB-WIKI人臉數(shù)據(jù)集
IMDB-WIKI 500k+ 是一個包含名人人臉圖像、年齡、性別的數(shù)據(jù)集,圖像和年齡、性別信息從 IMDB 和 WiKi 網(wǎng)站抓取,總計 524230 張名人人臉圖像及對應(yīng)的年齡和性別。其中,獲取自 IMDB 的 460723 張,獲取自 WiKi 的 62328 張。
2.WiderFace人臉檢測數(shù)據(jù)集
WIDER FACE數(shù)據(jù)集是人臉檢測的一個benchmark數(shù)據(jù)集,包含32203圖像,以及393,703個標(biāo)注人臉,其中,158,989個標(biāo)注人臉位于訓(xùn)練集,39,,496個位于驗證集。每一個子集都包含3個級別的檢測難度:Easy,Medium,Hard。這些人臉在尺度,姿態(tài),光照、表情、遮擋方面都有很大的變化范圍。WIDER FACE選擇的圖像主要來源于公開數(shù)據(jù)集WIDER。制作者來自于香港中文大學(xué),他們選擇了WIDER的61個事件類別,對于每個類別,隨機選擇40%10%50%作為訓(xùn)練、驗證、測試集。
3.LFW 人像圖像數(shù)據(jù)集
該數(shù)據(jù)集是用于研究無約束面部識別問題的面部照片數(shù)據(jù)庫。數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的13000多張圖像。每張臉都貼上了所畫的人的名字,圖片中的1680人在數(shù)據(jù)集中有兩個或更多不同的照片。
GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機器概念實驗室收集。該數(shù)據(jù)集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像,GENKI-4K包含4000個圖像,分為“笑”和“不笑”兩種,每個圖片的人臉的尺度大小,姿勢,光照變化,頭的轉(zhuǎn)動等都不一樣,專門用于做笑臉識別。GENKI-SZSL包含3500個圖像,這些圖像包括廣泛的背景,光照條件,地理位置,個人身份和種族等。
五、姿態(tài)估計
1.MPII人體模型數(shù)據(jù)集
MPII Human Shape 人體模型數(shù)據(jù)是一系列人體輪廓和形狀的3D模型及工具。模型是從平面掃描數(shù)據(jù)庫 CAESAR 學(xué)習(xí)得到。
2.MPII人類姿態(tài)數(shù)據(jù)集
MPII 人體姿態(tài)數(shù)據(jù)集是用于評估人體關(guān)節(jié)姿勢估計的最先進基準(zhǔn)。該數(shù)據(jù)集包括大約 25,000 張圖像,其中包含超過 40,000 個帶有注釋身體關(guān)節(jié)的人。這些圖像是使用已建立的人類日常活動分類法系統(tǒng)收集的??偟膩碚f,數(shù)據(jù)集涵蓋了 410 項人類活動,每個圖像都提供了一個活動標(biāo)簽。每張圖像都是從 YouTube 視頻中提取的,并提供前后未注釋的幀。此外,測試集有更豐富的注釋,包括身體部位遮擋和 3D 軀干和頭部方向。
六、自動駕駛
1.KITTI 道路數(shù)據(jù)集
道路和車道估計基準(zhǔn)包括289次培訓(xùn)和290幅測試圖像。我們在鳥瞰空間中評估道路和車道的估計性能。它包含不同類別的道路場景:城市無標(biāo)記、城市標(biāo)記、 城市多條標(biāo)記車道以及以上三者的結(jié)合。
2.CrackForest數(shù)據(jù)集
CrackForest數(shù)據(jù)集是一個帶注釋的道路裂縫圖像數(shù)據(jù)庫,可以大致反映城市路面狀況。
3.KITTI-2015立體聲數(shù)據(jù)集
stero 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景(每個場景 4 幅彩色圖像,以無損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測試相比,它包含動態(tài)場景,在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。
4.KITTI-2015光流數(shù)據(jù)集
Flow 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景(每個場景 4 幅彩色圖像,以無損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測試相比,它包含動態(tài)場景,在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。
5.KITTI-2015場景流數(shù)據(jù)集
Sceneflow 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景(每個場景 4 幅彩色圖像,以無損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測試相比,它包含動態(tài)場景,在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。
6.KITTI深度數(shù)據(jù)集
KITTI-depth 包含超過 93,000 個深度圖以及相應(yīng)的原始 LiDaR 掃描和 RGB 圖像。鑒于大量的訓(xùn)練數(shù)據(jù),該數(shù)據(jù)集應(yīng)允許訓(xùn)練復(fù)雜的深度學(xué)習(xí)模型,以完成深度補全和單幅圖像深度預(yù)測的任務(wù)。此外,該數(shù)據(jù)集提供了帶有未發(fā)布深度圖的手動選擇圖像,作為這兩個具有挑戰(zhàn)性的任務(wù)的基準(zhǔn)。
七、目標(biāo)跟蹤
1.ALOV300++跟蹤數(shù)據(jù)集
ALOV++,Amsterdam Library of Ordinary Videos for tracking 是一個物體追蹤視頻數(shù)據(jù),旨在對不同的光線、通透度、泛著條件、背景雜亂程度、焦距下的相似物體的追蹤。
八、動作識別
1.HMDB人類動作視頻數(shù)據(jù)集
由布朗大學(xué)發(fā)布的人類動作視頻數(shù)據(jù)集,該數(shù)據(jù)集視頻多數(shù)來源于電影,還有一部分來自公共數(shù)據(jù)庫以及YouTube等網(wǎng)絡(luò)視頻庫。數(shù)據(jù)庫包含有6849段樣本,分為51類,每類至少包含有101段樣本。
2.UCF50動作識別數(shù)據(jù)集
UCF50 是一個由中佛羅里達大學(xué)發(fā)布的動作識別數(shù)據(jù)集,由來自 youtube 的真實視頻組成,包含 50 個動作類別,如棒球投球、籃球投籃、臥推、騎自行車、騎自行車、臺球、蛙泳、挺舉、跳水、擊鼓等。對于所有 50 個類別,視頻分為 25 組,其中每組由超過 4 個動作剪輯。同一組中的視頻片段可能具有一些共同的特征,例如同一個人、相似背景、相似視點等。
3.SBU Kinect 交互數(shù)據(jù)集
SBU Kinect Interaction是一個復(fù)雜的人類活動數(shù)據(jù)集,描述了兩個人的交互,包括同步視頻、深度和運動捕捉數(shù)據(jù)。
往期精彩:
?時隔一年!深度學(xué)習(xí)語義分割理論與代碼實踐指南.pdf第二版來了!
