轉(zhuǎn)自丨極市平臺

導(dǎo)讀

本文收集整理了21個國內(nèi)外經(jīng)典的開源數(shù)據(jù)，包含了目標(biāo)檢測、圖像分割、圖像分類、人臉、自動駕駛、姿態(tài)估計、目標(biāo)跟蹤等方向。

深度學(xué)習(xí)的三大要素：數(shù)據(jù)、算法、算力。

數(shù)據(jù)在深度學(xué)習(xí)中占據(jù)著非常重要的地位，一個高質(zhì)量的數(shù)據(jù)集往往能夠提高模型訓(xùn)練的質(zhì)量和預(yù)測的準(zhǔn)確率。極市平臺收集整理了21個國內(nèi)外經(jīng)典的開源數(shù)據(jù)，包含了目標(biāo)檢測、圖像分割、圖像分類、人臉、自動駕駛、姿態(tài)估計、目標(biāo)跟蹤等方向。

數(shù)據(jù)集下載匯總鏈接：https://www.cvmart.net/dataSets

數(shù)據(jù)集將會不斷更新，歡迎大家持續(xù)關(guān)注！

一、目標(biāo)檢測

1.COCO2017數(shù)據(jù)集

COCO2017是2017年發(fā)布的COCO數(shù)據(jù)集的一個版本，主要用于COCO在2017年后持有的物體檢測任務(wù)、關(guān)鍵點檢測任務(wù)和全景分割任務(wù)。

二、圖像分割

1.LVIS數(shù)據(jù)集

LVIS是一個大規(guī)模細粒度詞匯集標(biāo)記數(shù)據(jù)集，該數(shù)據(jù)集針對超過 1000 類物體進行了約 200 萬個高質(zhì)量的實例分割標(biāo)注，包含 164k 張圖像。

2.高密度人群及移動物體視頻數(shù)據(jù)集

Crowd Segmentation Dataset 是一個高密度人群和移動物體視頻數(shù)據(jù)，視頻來自BBC Motion Gallery 和 Getty Images 網(wǎng)站。

3.DAVIS 視頻分割數(shù)據(jù)集

Densely Annotated Video Segmentation 是一個高清視頻中的物體分割數(shù)據(jù)集，包括 50個視頻序列，3455個幀標(biāo)注，視頻采集自高清 1080p 格式。

三、圖像分類

1.MNIST 手寫數(shù)字圖像數(shù)據(jù)集

MNIST數(shù)據(jù)集是一個手寫阿拉伯?dāng)?shù)字圖像識別數(shù)據(jù)集，圖片分辨率為 20x20 灰度圖圖片，包含‘0 - 9’ 十組手寫手寫阿拉伯?dāng)?shù)字的圖片。其中，訓(xùn)練樣本 60000 ，測試樣本 10000，數(shù)據(jù)為圖片的像素點值，作者已經(jīng)對數(shù)據(jù)集進行了壓縮。

2.Kaggle 垃圾分類圖片數(shù)據(jù)集

該數(shù)據(jù)集是圖片數(shù)據(jù)，分為訓(xùn)練集85%（Train）和測試集15%（Test）。其中O代表Organic（有機垃圾），R代表Recycle（可回收）

四、人臉

1.IMDB-WIKI人臉數(shù)據(jù)集

IMDB-WIKI 500k+ 是一個包含名人人臉圖像、年齡、性別的數(shù)據(jù)集，圖像和年齡、性別信息從 IMDB 和 WiKi 網(wǎng)站抓取，總計 524230 張名人人臉圖像及對應(yīng)的年齡和性別。其中，獲取自 IMDB 的 460723 張，獲取自 WiKi 的 62328 張。

2.WiderFace人臉檢測數(shù)據(jù)集

WIDER FACE數(shù)據(jù)集是人臉檢測的一個benchmark數(shù)據(jù)集，包含32203圖像，以及393,703個標(biāo)注人臉，其中，158,989個標(biāo)注人臉位于訓(xùn)練集，39,,496個位于驗證集。每一個子集都包含3個級別的檢測難度：Easy，Medium，Hard。這些人臉在尺度，姿態(tài)，光照、表情、遮擋方面都有很大的變化范圍。WIDER FACE選擇的圖像主要來源于公開數(shù)據(jù)集WIDER。制作者來自于香港中文大學(xué)，他們選擇了WIDER的61個事件類別，對于每個類別，隨機選擇40%10%50%作為訓(xùn)練、驗證、測試集。

3.LFW 人像圖像數(shù)據(jù)集

該數(shù)據(jù)集是用于研究無約束面部識別問題的面部照片數(shù)據(jù)庫。數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的13000多張圖像。每張臉都貼上了所畫的人的名字，圖片中的1680人在數(shù)據(jù)集中有兩個或更多不同的照片。

4.GENKI 人臉圖像數(shù)據(jù)集?

GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機器概念實驗室收集。該數(shù)據(jù)集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像，GENKI-4K包含4000個圖像，分為“笑”和“不笑”兩種，每個圖片的人臉的尺度大小，姿勢，光照變化，頭的轉(zhuǎn)動等都不一樣，專門用于做笑臉識別。GENKI-SZSL包含3500個圖像，這些圖像包括廣泛的背景，光照條件，地理位置，個人身份和種族等。

五、姿態(tài)估計

1.MPII人體模型數(shù)據(jù)集

MPII Human Shape 人體模型數(shù)據(jù)是一系列人體輪廓和形狀的3D模型及工具。模型是從平面掃描數(shù)據(jù)庫 CAESAR 學(xué)習(xí)得到。

2.MPII人類姿態(tài)數(shù)據(jù)集

MPII 人體姿態(tài)數(shù)據(jù)集是用于評估人體關(guān)節(jié)姿勢估計的最先進基準(zhǔn)。該數(shù)據(jù)集包括大約 25,000 張圖像，其中包含超過 40,000 個帶有注釋身體關(guān)節(jié)的人。這些圖像是使用已建立的人類日常活動分類法系統(tǒng)收集的?？偟膩碚f，數(shù)據(jù)集涵蓋了 410 項人類活動，每個圖像都提供了一個活動標(biāo)簽。每張圖像都是從 YouTube 視頻中提取的，并提供前后未注釋的幀。此外，測試集有更豐富的注釋，包括身體部位遮擋和 3D 軀干和頭部方向。

六、自動駕駛

1.KITTI 道路數(shù)據(jù)集

道路和車道估計基準(zhǔn)包括289次培訓(xùn)和290幅測試圖像。我們在鳥瞰空間中評估道路和車道的估計性能。它包含不同類別的道路場景：城市無標(biāo)記、城市標(biāo)記、城市多條標(biāo)記車道以及以上三者的結(jié)合。

2.CrackForest數(shù)據(jù)集

CrackForest數(shù)據(jù)集是一個帶注釋的道路裂縫圖像數(shù)據(jù)庫，可以大致反映城市路面狀況。

3.KITTI-2015立體聲數(shù)據(jù)集

stero 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準(zhǔn)測試相比，它包含動態(tài)場景，在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

4.KITTI-2015光流數(shù)據(jù)集

Flow 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準(zhǔn)測試相比，它包含動態(tài)場景，在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

5.KITTI-2015場景流數(shù)據(jù)集

Sceneflow 2015 基準(zhǔn)測試包含 200 個訓(xùn)練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準(zhǔn)測試相比，它包含動態(tài)場景，在半自動過程中為其建立了真值。該數(shù)據(jù)集是通過在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

6.KITTI深度數(shù)據(jù)集

KITTI-depth 包含超過 93,000 個深度圖以及相應(yīng)的原始 LiDaR 掃描和 RGB 圖像。鑒于大量的訓(xùn)練數(shù)據(jù)，該數(shù)據(jù)集應(yīng)允許訓(xùn)練復(fù)雜的深度學(xué)習(xí)模型，以完成深度補全和單幅圖像深度預(yù)測的任務(wù)。此外，該數(shù)據(jù)集提供了帶有未發(fā)布深度圖的手動選擇圖像，作為這兩個具有挑戰(zhàn)性的任務(wù)的基準(zhǔn)。

七、目標(biāo)跟蹤

1.ALOV300++跟蹤數(shù)據(jù)集

ALOV++，Amsterdam Library of Ordinary Videos for tracking 是一個物體追蹤視頻數(shù)據(jù)，旨在對不同的光線、通透度、泛著條件、背景雜亂程度、焦距下的相似物體的追蹤。

八、動作識別

1.HMDB人類動作視頻數(shù)據(jù)集

由布朗大學(xué)發(fā)布的人類動作視頻數(shù)據(jù)集，該數(shù)據(jù)集視頻多數(shù)來源于電影，還有一部分來自公共數(shù)據(jù)庫以及YouTube等網(wǎng)絡(luò)視頻庫。數(shù)據(jù)庫包含有6849段樣本，分為51類，每類至少包含有101段樣本。

2.UCF50動作識別數(shù)據(jù)集

UCF50 是一個由中佛羅里達大學(xué)發(fā)布的動作識別數(shù)據(jù)集，由來自 youtube 的真實視頻組成，包含 50 個動作類別，如棒球投球、籃球投籃、臥推、騎自行車、騎自行車、臺球、蛙泳、挺舉、跳水、擊鼓等。對于所有 50 個類別，視頻分為 25 組，其中每組由超過 4 個動作剪輯。同一組中的視頻片段可能具有一些共同的特征，例如同一個人、相似背景、相似視點等。

3.SBU Kinect 交互數(shù)據(jù)集

SBU Kinect Interaction是一個復(fù)雜的人類活動數(shù)據(jù)集，描述了兩個人的交互，包括同步視頻、深度和運動捕捉數(shù)據(jù)。

往期精彩：
?時隔一年！深度學(xué)習(xí)語義分割理論與代碼實踐指南.pdf第二版來了！
?基于 docker 和 Flask 的深度學(xué)習(xí)模型部署！
?新書預(yù)告 | 《機器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)》出版在即！

21個深度學(xué)習(xí)開源數(shù)據(jù)集匯總！

一、目標(biāo)檢測