Tencent ML-Images大規(guī)模多標(biāo)簽圖像數(shù)據(jù)集
Tencent ML-Images 由多標(biāo)簽圖像數(shù)據(jù)集 ML-Images 與業(yè)內(nèi)目前同類深度學(xué)習(xí)模型中精度最高的深度殘差網(wǎng)絡(luò) ResNet-101 構(gòu)成。
-
ML-Images: 最大的開源多標(biāo)簽圖像數(shù)據(jù)庫(kù),包括 17,609,752 個(gè)訓(xùn)練集和 88,739 個(gè)驗(yàn)證圖像 URL,最多可標(biāo)注 11,166 個(gè)類別。
-
Resnet-101 model: 在 ML-Images 上進(jìn)行了預(yù)訓(xùn)練,并通過(guò)遷移學(xué)習(xí)在 ImageNet 上實(shí)現(xiàn)了 top-1 精度 80.73%。
該項(xiàng)目的主要內(nèi)容包括:
-
ML-Images 數(shù)據(jù)集的全部圖像 URL,以及相應(yīng)的類別標(biāo)注。出于原始圖像版權(quán)的考慮,此次開源將不直接提供原始圖像,用戶可利用我們提供的下載代碼和 URL 自行下載圖像。
-
ML-Images 數(shù)據(jù)集的詳細(xì)介紹,包括圖像來(lái)源、圖像數(shù)量、類別數(shù)量、類別的語(yǔ)義標(biāo)簽體系,標(biāo)注方法,以及圖像的標(biāo)注數(shù)量等統(tǒng)計(jì)量。
-
完整的代碼和模型。提供的代碼涵蓋從圖像下載,圖像預(yù)處理,基于 ML-Images 的預(yù)訓(xùn)練,基于 ImageNet 的遷移學(xué)習(xí),到基于訓(xùn)練所得模型的圖像特征提取的完整流程。該項(xiàng)目提供了基于小數(shù)據(jù)集的訓(xùn)練示例,以方便用戶快速體驗(yàn)我們的訓(xùn)練流程。該項(xiàng)目還提供了非常高精度的 ResNet-101 模型(在單標(biāo)簽基準(zhǔn)數(shù)據(jù)集 ImageNet 的驗(yàn)證集上的 top-1 精度為 80.73%)。用戶可根據(jù)自身需求,隨意選用該項(xiàng)目的代碼或模型。
