曠視 | 大且高質(zhì)量的數(shù)據(jù)集用于目標(biāo)檢測
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

來源:計算機視覺戰(zhàn)隊
導(dǎo)讀
今天,給大家介紹一個新的大型目標(biāo)檢測數(shù)據(jù)集Objects365,它擁有超過600,000個圖像,365個類別和超過1000萬個高質(zhì)量的邊界框。由精心設(shè)計的三步注釋管道手動標(biāo)記,它是迄今為止最大的對象檢測數(shù)據(jù)集合(帶有完整注釋),并為社區(qū)創(chuàng)建了更具挑戰(zhàn)性的基準(zhǔn)。
摘要先前看
Objects365可用作更好的特征學(xué)習(xí)數(shù)據(jù)集,用于對位置敏感的任務(wù),例如目標(biāo)檢測和分割。Objects365預(yù)訓(xùn)練模型明顯優(yōu)于ImageNet預(yù)訓(xùn)練模型:當(dāng)在COCO上訓(xùn)練90K / 540K迭代時,AP改善了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時,當(dāng)達(dá)到相同的精度時,可以大大減少微調(diào)時間(差異的10倍)。Object365的更好的泛化功能也已在CityPersons,VOC Segmentation和ADE中得到驗證。我們將發(fā)布數(shù)據(jù)集和所有預(yù)先訓(xùn)練的模型。
01
目標(biāo)檢測是計算機虛擬環(huán)境中的一項基本任務(wù)。PASCAL VOC和COCO為目標(biāo)檢測的快速發(fā)展做出了巨大貢獻(xiàn)。從DPM這樣的傳統(tǒng)方法到R-CNN和FPN等基于深度學(xué)習(xí)的方法,以上兩個數(shù)據(jù)集用作“黃金”基準(zhǔn),以評估算法并推動研究的進(jìn)行。今天我們分享的將進(jìn)一步介紹了一種新的大規(guī)模、高質(zhì)量的目標(biāo)檢測數(shù)據(jù)集Objects 365,主要集中在三個方面:規(guī)模、質(zhì)量和泛化。

02
接下來我們來看看幾處亮點:
新的Objects365數(shù)據(jù)集直接解決了上述兩個問題,并為特性學(xué)習(xí)提供了更好的選擇。如下圖所示,Objects 365預(yù)訓(xùn)練的特性可以顯著優(yōu)于基于ImageNet,即使是有足夠長的訓(xùn)練時間(540K迭代)的特性。
此外,利用Objects365特征,可以在一個數(shù)量級的訓(xùn)練時間內(nèi)獲得類似的結(jié)果。

03
Annotation Pipeline

注解者幾乎不可能記住并注釋所有365個類別。此外,少數(shù)圖像應(yīng)該被拒絕,因為圖標(biāo)圖像或圖像沒有365個目標(biāo)類別。在已有的ImageNet和COCO等數(shù)據(jù)集的激勵下,以及*中對可擴展多類注釋的討論,我們按照以下三個步驟設(shè)計了我們的注釋流程。
* Jia Deng, Olga Russakovsky, Jonathan Krause, Michael S Bernstein, Alex Berg, and Li Fei-Fei. Scalable multi-label annotation. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pages 3099–3102. ACM, 2014
第一步執(zhí)行兩類分類。如果圖像是非標(biāo)志性的,或者在11個超級類別中至少包含一個目標(biāo)實例,那么它將被傳遞到下一個步驟;在第二步中,包含11個超級類別的圖像級標(biāo)記將被標(biāo)記,可以用多個標(biāo)簽標(biāo)記圖像;在第三步中,將分配一個注釋器將目標(biāo)實例標(biāo)記在一個特定的超級類別中。屬于超級類別的所有目標(biāo)實例都應(yīng)與目標(biāo)名稱一起用邊框標(biāo)記。
如上圖所示,基于所建議的注釋流程,每個注釋器只需熟悉一個超級類別中的目標(biāo)類別,而不是所有365個對象類別。這不僅提高了標(biāo)注效率,而且提高了標(biāo)注質(zhì)量。
Classification Rule
它為標(biāo)簽中的歧義情況定義了明確的優(yōu)先順序和function優(yōu)先原則。例如,在上圖左邊,可以將對象視為“龍頭”或“茶壺”。根據(jù)我們的分類規(guī)則,我們使用function優(yōu)先原則,在這種情況下,對象將被標(biāo)記為“TAP”。

Bounding Box Rules

由于注解器的多樣性,對邊框的注釋有時可能不一致。當(dāng)邊界框存在歧義時,我們定義了以下規(guī)則。
注釋器必須覆蓋最大的邊框,這不會導(dǎo)致定義目標(biāo)類別的模糊性。例如,我們需要將時鐘的裝飾部分包含在上圖左邊圖形中,因為裝飾部分屬于時鐘,不會導(dǎo)致對目標(biāo)類別的誤解。對于上圖中的右邊圖形,注釋器需要標(biāo)記小的邊界框,因為時鐘的外部區(qū)域?qū)?dǎo)致另一個類別為“塔”。
Statistics



Quality
為了驗證Objects 365數(shù)據(jù)集的質(zhì)量,三個訓(xùn)練有素的注釋者被要求對200個隨機選擇的圖像進(jìn)行標(biāo)記??偣灿?250個邊框,基于注釋器的細(xì)化。92%的實例在原始注釋中進(jìn)行注釋。注釋回憶與CoCO和OpenImage的比較見下表。

對于注釋的精度,如果目標(biāo)類別錯誤或注釋邊界框不準(zhǔn)確,則考慮假正。Objects365的精度明顯高于COCO,分別為91.7%和71.9%。
04
Results of the baseline algorithms on the Objects365 dataset


Diagnosis results on Objects365 and COCO
A comparison of different learning rate strategies for fine- tuning on the COCO benchmark

Generalization ability of general object detection results on the COCO dataset

以下是一些列實驗驗證結(jié)果:

An illustration of the results on the Objects365 dataset
Generalization ability of object detection results on the PASCAL VOC dataset. The results are implemented based on FPN with Resnet50 backbone

Generalization ability of semantic segmentation results on the PASCAL VOC dataset. The results are implemented based on PSPNet with Resnet50 backbone

Comparison of the training time for the COCO general detection task. The algorithm is implemented based on the FPN with the Resnet50 backbone. Iterations denotes the number of iterations for the COCO training.

Comparison of the pretraining backbone only against pretraining both the backbone and head on the COCO benchmark. The results are implemented based on FPN with Resnet50 back- bone. “Iters” denotes the number of iterations for the COCO training.

好消息!
小白學(xué)視覺知識星球
開始面向外開放啦??????
下載1:OpenCV-Contrib擴展模塊中文版教程 在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。 下載2:Python視覺實戰(zhàn)項目52講 在「小白學(xué)視覺」公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。 下載3:OpenCV實戰(zhàn)項目20講 在「小白學(xué)視覺」公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。 交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~







