CVAT標(biāo)注
一般信息

計算機視覺注釋工具 (CVAT)是一種用于注釋數(shù)字圖像和視頻的開源工具。該應(yīng)用程序的主要功能是為用戶提供方便的注釋工具。為此,我們將 CVAT 設(shè)計為具有許多強大功能的多功能服務(wù)。
CVAT 是一個基于瀏覽器的應(yīng)用程序,適用于個人和團隊,支持不同的工作場景。監(jiān)督式機器學(xué)習(xí)的主要任務(wù)可以分為三組:
物體檢測
圖像分類
圖像分割
CVAT 允許您為每個案例注釋數(shù)據(jù)。該工具有一些優(yōu)點和缺點。
優(yōu)點:
基于網(wǎng)絡(luò)。用戶無需安裝應(yīng)用程序;如果他們想要創(chuàng)建任務(wù)或注釋數(shù)據(jù),他們只需要在瀏覽器中打開工具的鏈接。
協(xié)作。用戶可以創(chuàng)建公共任務(wù)并在其他用戶之間分配工作。
易于部署。CVAT 可以使用Docker*安裝在本地網(wǎng)絡(luò)中 。
自動注釋。例如,用戶可以在關(guān)鍵幀之間使用插值。
專業(yè)開發(fā)。該工具是在專業(yè)注釋和算法團隊的支持下創(chuàng)建的。
一體化。CVAT 適合嵌入到開放和可擴展的平臺中,例如Onepanel*。
支持的可選工具:
深度學(xué)習(xí)部署工具包(Intel? Distribution of OpenVINO? toolkit element)
TensorFlow* 對象檢測 API (TF OD API)
ELK(Elasticsearch* + Logstash* + Kibana*)分析系統(tǒng)
NVIDIA* CUDA* 工具包
支持不同的注釋場景。
在MIT 許可下開源代碼。
缺點:
有限的瀏覽器支持。CVAT 的客戶端僅適用于 Google Chrome*。CVAT 未在其他瀏覽器中進行測試,但它可能適用于基于 Chromium* 的瀏覽器,例如 Opera* 或 Yandex* 瀏覽器。
未加工的自動測試系統(tǒng)。所有檢查都必須手動完成,這大大減慢了開發(fā)過程。然而,英特爾正在下諾夫哥羅德羅巴切夫斯基州立大學(xué)的學(xué)生的幫助下努力解決這個問題,他們作為IT 實驗室項目的一部分協(xié)助該團隊。
缺乏源代碼文檔。這會使參與該工具的開發(fā)變得非常困難。
性能問題。由于大量帶注釋的數(shù)據(jù)而導(dǎo)致的需求增加導(dǎo)致 Chrome Sandbox 出現(xiàn)問題,從而限制了 RAM 的使用。
如上所述,CVAT 支持許多額外的可選組件:
深度學(xué)習(xí)部署工具包,英特爾? OpenVINO 工具包分發(fā)版的一個元素,用于在沒有 GPU 的情況下加速 TF OD API 模型的啟動。該工具包具有一些可用于開發(fā)的有益功能。
TensorFlow* 對象檢測 API,用于自動注釋對象。Faster RCNN Inception ResNet V2 模型在COCO(80 個類)上訓(xùn)練是默認(rèn)的,但用戶可以輕松連接其他模型。
Logstash*、Elasticsearch*、Kibana*允許用戶可視化和分析來自客戶端的注釋日志。它可能有助于監(jiān)控注釋過程,或搜索錯誤及其原因。

數(shù)據(jù)標(biāo)注
CVAT 中的數(shù)據(jù)注釋首先使用以下說明創(chuàng)建注釋任務(wù):
指定詳細注釋規(guī)范的完整 URL 和其他附加信息 ( Bug Tracker )
指定用于數(shù)據(jù)存儲的 Git 存儲庫的 URL ( Dataset Repository )
將所有圖像旋轉(zhuǎn) 180 度(翻轉(zhuǎn)圖像)
支持分割任務(wù)的層(Z-Order)
將龐大的數(shù)據(jù)集劃分為幾個較小的段(段大小e)
制作重疊段(Overlap)。此選項使視頻從一個片段連續(xù)到另一個片段
指定上傳圖像的質(zhì)量(圖像質(zhì)量)
數(shù)據(jù)集從本地文件系統(tǒng)或容器內(nèi)的掛載文件系統(tǒng)加載。一項任務(wù)可以包括一個圖像檔案、一個視頻、一組或來自共享存儲的圖像目錄。
命名任務(wù)
指定標(biāo)簽及其屬性
選擇要下載的文件
一些附加選項:

然后按提交按鈕,它將被添加到注釋任務(wù)列表中。

Jobs部分內(nèi)的每個鏈接對應(yīng)一個段。在這種情況下,數(shù)據(jù)集不會劃分為段。用戶可以通過任何鏈接開始注釋過程。

用戶可以使用四種形狀來注釋圖像:框、多邊形(通常用于分割任務(wù))、折線(可用于注釋路標(biāo))和點(例如,用于注釋面部標(biāo)志或姿勢估計)。

此外,還有許多用于典型注釋任務(wù)的功能:自動化工具(使用 TensorFlow OD API 復(fù)制和傳播對象、插值和自動注釋)、視覺設(shè)置、快捷方式、過濾器等。這些可以在設(shè)置菜單中更改。

在幫助菜單還包含了一些快捷鍵和其他的暗示。

