<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          從CVPR 2021的論文看計(jì)算機(jī)視覺的現(xiàn)狀

          共 11074字,需瀏覽 23分鐘

           ·

          2021-07-18 22:53

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨Georgian
          來源丨DeepHub IMBA
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          本文根據(jù)今年的CVPR錄用結(jié)果總結(jié)出了一些CV領(lǐng)域相關(guān)的發(fā)展現(xiàn)狀。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          計(jì)算機(jī)視覺(Computer Vision, CV)是人工智能領(lǐng)域的一個(gè)領(lǐng)域,致力于讓計(jì)算機(jī)能夠像人類一樣識(shí)別和處理圖像和視頻中的物體。以前,計(jì)算機(jī)視覺只能在有限的能力下工作。但由于深度學(xué)習(xí)的進(jìn)步,該領(lǐng)域近年來取得了巨大的飛躍,現(xiàn)在正在迅速改變不同的行業(yè)!

          CV的變化如此之快,實(shí)際上僅去年一年,我們就經(jīng)歷了10年的變化,發(fā)表了超過4.5萬篇論文,OpenAI (iGPT[18]和CLIP[10])和谷歌(v - g /14[19])等大型科技公司發(fā)布了許多怪物模型!跟上這個(gè)領(lǐng)域?qū)γ總€(gè)人來說都是一個(gè)挑戰(zhàn)!

          在這篇文章中,你可以閱讀我們的CVPR會(huì)議總結(jié)。CVPR (Computer Vision and Pattern Recognition,計(jì)算機(jī)視覺與模式識(shí)別)是計(jì)算機(jī)視覺領(lǐng)域最重要的會(huì)議之一。今年,CVPR共舉辦了83個(gè)研討會(huì),30個(gè)教程,50多個(gè)贊助者,12次會(huì)議共發(fā)表了超過1600篇論文(其中7093篇論文,錄收率約23%)。

          最近的趨勢

          在2021年的CVPR上,CV的各個(gè)子領(lǐng)域都顯示出了有希望的改進(jìn)。在過去幾年中,包括分割和對(duì)象分類在內(nèi)的一些主題一直是人們關(guān)注的焦點(diǎn),但最近又出現(xiàn)了一些新主題,并在2021年登上了中心舞臺(tái)。我們的總結(jié)集中在以下主題:

          • 使用對(duì)抗性例子學(xué)習(xí)

          • 自監(jiān)督和對(duì)比學(xué)習(xí)

          • 視覺語言模型

          • 有限數(shù)據(jù)學(xué)習(xí)

          我們還分享了對(duì)CV很重要的兩個(gè)行業(yè)的見解:

          • 零售

          • 自主駕駛

          使用對(duì)抗性示例學(xué)習(xí)概述

          深度學(xué)習(xí)和計(jì)算機(jī)視覺系統(tǒng)在各種任務(wù)上都取得了成功,但它們也有缺點(diǎn)。最近引起研究界注意的一個(gè)問題是這些系統(tǒng)對(duì)對(duì)抗樣本的敏感性。一個(gè)對(duì)抗性的例子是一個(gè)嘈雜的圖像,旨在欺騙系統(tǒng)做出錯(cuò)誤的預(yù)測 [1]。為了在現(xiàn)實(shí)世界中部署這些系統(tǒng),它們必須能夠檢測到這些示例。為此,最近的工作探索了通過在訓(xùn)練過程中包含對(duì)抗性示例來使這些系統(tǒng)更強(qiáng)大對(duì)抗對(duì)抗性攻擊的可能性。

          使用對(duì)抗樣本學(xué)習(xí)的利弊

          優(yōu)點(diǎn):傳統(tǒng)的深度學(xué)習(xí)方法對(duì)數(shù)據(jù)集中的每個(gè)訓(xùn)練樣本均等地加權(quán),而不管標(biāo)簽的正確性。這可能會(huì)使學(xué)習(xí)過程脫軌,尤其是在標(biāo)簽包含噪聲的情況下。通過對(duì)抗性學(xué)習(xí),當(dāng)加入不同級(jí)別的噪聲時(shí),每個(gè)樣本的可靠性可以根據(jù)其預(yù)測標(biāo)簽的穩(wěn)定性來估計(jì)。這使模型能夠識(shí)別和關(guān)注對(duì)噪聲更具彈性的樣本,從而降低其對(duì)對(duì)抗性示例的敏感性。此外,在訓(xùn)練機(jī)制中包含對(duì)抗性示例已被證明超過了標(biāo)準(zhǔn)任務(wù)的基準(zhǔn),例如對(duì)象分類和檢測。這在半監(jiān)督設(shè)置中很有用,即當(dāng)標(biāo)記數(shù)據(jù)供應(yīng)有限時(shí)。

          缺點(diǎn):對(duì)抗性訓(xùn)練涉及設(shè)置“epsilon”參數(shù),該參數(shù)控制添加到每個(gè)樣本的噪聲量。過高的“epsilon”可能會(huì)阻礙學(xué)習(xí)過程。此外,[2] 中所做的實(shí)驗(yàn)表明,隨著大型標(biāo)記數(shù)據(jù)集的可用,監(jiān)督學(xué)習(xí)技術(shù)的性能趕上了對(duì)抗性訓(xùn)練技術(shù),使得對(duì)抗性訓(xùn)練的優(yōu)勢變得不那么深刻。

          使用對(duì)抗樣本學(xué)習(xí)的最新技術(shù)

          SENTRY:此方法在遷移學(xué)習(xí)的設(shè)置中使用對(duì)抗性示例。遷移學(xué)習(xí)是深度學(xué)習(xí)的領(lǐng)域,其中在源分布上訓(xùn)練的模型在不同的目標(biāo)分布上進(jìn)行微調(diào)和評(píng)估。在目標(biāo)分布中,SENTRY 解決了分配給所有樣本的權(quán)重相等的問題。它使用“預(yù)測一致性”方法識(shí)別可靠的目標(biāo)實(shí)例。在這種方法中,模型的預(yù)測置信度在被認(rèn)為可靠的高度一致的目標(biāo)實(shí)例上增加。更具體地說,一個(gè)實(shí)例,連同它自身的幾個(gè)增強(qiáng)版本,被輸入到一個(gè)模型集合中。評(píng)估每個(gè)模型的預(yù)測的一致性。如果更多模型的預(yù)測一致,則目標(biāo)實(shí)例是可靠的,因此應(yīng)該用于最小化熵?fù)p失。如果預(yù)測不一致,則目標(biāo)實(shí)例不可靠,因此應(yīng)忽略。按照這種方法,SENTRY 在 DomainNet [3] 上實(shí)現(xiàn)了 SOTA,這是一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,用于評(píng)估模型的遷移學(xué)習(xí)能力。

          AdvProp:在訓(xùn)練中包含對(duì)抗性示例已被證明可以提高模型性能并導(dǎo)致更符合人類解釋的特征 [4]。這項(xiàng)工作探索了干凈和對(duì)抗性圖像的聯(lián)合訓(xùn)練模型。以前的工作探索了對(duì)抗樣本的預(yù)訓(xùn)練模型,然后對(duì)干凈的圖像進(jìn)行微調(diào)。雖然這提高了分類性能,但模型變得容易受到“災(zāi)難性遺忘”的影響,其中模型忘記了它在預(yù)訓(xùn)練階段(在域轉(zhuǎn)移的情況下)學(xué)習(xí)的特征。為了解決這個(gè)問題,提出了輔助批量歸一化(BN)層來專門對(duì)對(duì)抗樣本進(jìn)行歸一化。另一方面,正常的 BN 層用于標(biāo)準(zhǔn)化干凈的圖像。這允許歸一化層根據(jù)干凈樣本和對(duì)抗樣本的不同分布而表現(xiàn)不同。在推理過程中,輔助 BN 層被刪除,而正常的 BN 層用于預(yù)測。這種訓(xùn)練機(jī)制與作為主干架構(gòu)的 EfficientNet 一起在 ImageNet 分類精度上實(shí)現(xiàn)了前 1 名的 SOTA 性能。此外,AdvProp 在更難的 ImageNet 版本上實(shí)現(xiàn)了 SOTA 性能:ImageNet-a、ImageNet-c 和 Stylized ImageNet。此外,在訓(xùn)練中包括對(duì)抗樣本也實(shí)現(xiàn)了目標(biāo)檢測的 SOTA [5]。

          自監(jiān)督和對(duì)比學(xué)習(xí)概述

          深度學(xué)習(xí)需要干凈的標(biāo)記數(shù)據(jù),這對(duì)于許多應(yīng)用程序來說很難獲得。注釋大量數(shù)據(jù)需要大量的人力勞動(dòng),這是耗時(shí)且昂貴的。此外,數(shù)據(jù)分布在現(xiàn)實(shí)世界中一直在變化,這意味著模型必須不斷地根據(jù)不斷變化的數(shù)據(jù)進(jìn)行訓(xùn)練。自監(jiān)督方法通過使用大量原始未標(biāo)記數(shù)據(jù)來訓(xùn)練模型來解決其中的一些挑戰(zhàn)。在這種情況下,監(jiān)督是由數(shù)據(jù)本身(不是人工注釋)提供的,目標(biāo)是完成一個(gè)間接任務(wù)。間接任務(wù)通常是啟發(fā)式的(例如,旋轉(zhuǎn)預(yù)測),其中輸入和輸出都來自未標(biāo)記的數(shù)據(jù)。定義間接任務(wù)的目標(biāo)是使模型能夠?qū)W習(xí)相關(guān)特征,這些特征稍后可用于下游任務(wù)(通常有一些注釋可用)。自監(jiān)督學(xué)習(xí)在 2020 年變得更加流行,當(dāng)時(shí)它終于開始趕上全監(jiān)督方法的性能。有貢獻(xiàn)的一項(xiàng)特殊技術(shù)是對(duì)比學(xué)習(xí) (Contrastive Learning)。

          CL 的靈感來自一個(gè)古老的想法 [6],即相似的項(xiàng)目應(yīng)該在嵌入空間中保持靠近,而不同的項(xiàng)目應(yīng)該相距很遠(yuǎn)。為了實(shí)現(xiàn)這一點(diǎn),CL 形成了樣本對(duì)。對(duì)于給定的樣本,使用樣本項(xiàng)和它的增強(qiáng)版本創(chuàng)建一個(gè)正對(duì)。類似地,使用相同的項(xiàng)目和不同的項(xiàng)目創(chuàng)建負(fù)對(duì)。然后,學(xué)習(xí)特征使得正對(duì)在嵌入空間中很近,而負(fù)對(duì)相距很遠(yuǎn)。這允許相似的項(xiàng)目在嵌入空間中聚集在一起。聚類中心可以表示語義或?qū)ο箢悺S捎跊]有使用標(biāo)簽,CL 可以利用大量未標(biāo)記的原始數(shù)據(jù)。

          自我監(jiān)督和對(duì)比學(xué)習(xí)的利弊

          優(yōu)點(diǎn):自監(jiān)督學(xué)習(xí)是一種數(shù)據(jù)高效的學(xué)習(xí)范式。監(jiān)督學(xué)習(xí)方法教會(huì)模型擅長特定任務(wù)。另一方面,自監(jiān)督學(xué)習(xí)允許學(xué)習(xí)不專門用于解決特定任務(wù)的一般表示,而是為各種下游任務(wù)封裝更豐富的統(tǒng)計(jì)數(shù)據(jù)。在所有自監(jiān)督方法中,使用 CL 進(jìn)一步提高了提取特征的質(zhì)量。自監(jiān)督學(xué)習(xí)的數(shù)據(jù)效率特性使其有利于遷移學(xué)習(xí)應(yīng)用。

          缺點(diǎn):自監(jiān)督學(xué)習(xí)的大部分成功都?xì)w功于精心選擇的圖像增強(qiáng),例如縮放、模糊和裁剪。因此,為特定任務(wù)選擇正確的增強(qiáng)集和程度可能是一個(gè)具有挑戰(zhàn)性的過程。此外,CL 可能會(huì)誤導(dǎo)模型區(qū)分包含相同對(duì)象的兩個(gè)圖像。例如,對(duì)于一匹馬的圖像,為了創(chuàng)建負(fù)對(duì),CL 可能會(huì)選擇另一個(gè)也包含一匹馬的圖像。在這種情況下,模型認(rèn)為是負(fù)對(duì)的實(shí)際上是正對(duì)。

          最先進(jìn)的自我監(jiān)督和對(duì)比學(xué)習(xí)

          SimSiam: Exploring Simple Siamese Representation Learning:Siamese 網(wǎng)絡(luò)框架是一種在自監(jiān)督學(xué)習(xí)中廣受歡迎的架構(gòu)。與創(chuàng)建正負(fù)對(duì)的 CL 不同,該框架僅最大化圖像增強(qiáng)之間的相似性,這有助于學(xué)習(xí)有用的表示。自監(jiān)督學(xué)習(xí)中的并行工作使用對(duì)比損失,這些工作的成功依賴于 (i) 負(fù)對(duì) [7] 的使用,(ii) 批次大小,以及 (iii) 動(dòng)量編碼器 [8]。然而,SimSiam 不依賴于這些因素,使其對(duì)超參數(shù)的選擇更加穩(wěn)健。此外,SimSiam 使用“stop-gradient”技術(shù)來防止特征崩潰。特征崩潰是一種現(xiàn)象,模型在不學(xué)習(xí)有用表示的情況下學(xué)習(xí)了最小化目標(biāo)函數(shù)的捷徑。因此,學(xué)習(xí)到的特征是不可泛化的。通過避免特征崩潰,SimSiam 在 ImageNet 和后續(xù)下游任務(wù)(例如 COCO 對(duì)象檢測和實(shí)例分割)上取得了有競爭力的結(jié)果。

          DINO:自監(jiān)督視覺Transformers的新興特性:DINO 建立在 SwAV [9] 之上,包括無標(biāo)簽的自蒸餾。使用的主干架構(gòu)是Transformers [10],它已被證明優(yōu)于卷積網(wǎng)絡(luò)。使用transformers + DINO框架,改進(jìn)了圖像分類任務(wù)的SOTA。DINO 可應(yīng)用于復(fù)制檢測和圖像檢索等應(yīng)用。給定一個(gè)查詢圖像,盡可能快地檢索該圖像的所有可能副本。此外,DINO 免費(fèi)提供分段功能。與監(jiān)督方法相比,在 DINO 中學(xué)習(xí)的特征已被證明在顯著圖生成方面表現(xiàn)更好。最后,通過仔細(xì)的閾值設(shè)置,DINO 可以開箱即用地應(yīng)用于每幀視頻對(duì)象分割,而無需進(jìn)行時(shí)間一致性訓(xùn)練。

          視覺語言模型概述

          Vision-Language (VL) 涉及對(duì)圖像和文本模式有共同理解的訓(xùn)練系統(tǒng)。VL 類似于人類與世界互動(dòng)的方式;視覺是人類如何感知世界的很大一部分,而語言是人類交流方式的很大一部分。VL 模型學(xué)習(xí)不同數(shù)據(jù)模態(tài)的聯(lián)合嵌入空間。對(duì)于訓(xùn)練,使用圖像和文本對(duì),其中文本通常描述圖像。該領(lǐng)域的大部分最新工作都使用基于轉(zhuǎn)換器的自監(jiān)督學(xué)習(xí)來從數(shù)據(jù)中提取特征。另一方面,視頻-文本對(duì)已開始用于學(xué)習(xí)更豐富和更密集的表示。然而,它仍然是一個(gè)具有巨大潛力的新興領(lǐng)域。

          視覺語言模型的優(yōu)缺點(diǎn)

          優(yōu)點(diǎn):VL 使用不同形式的數(shù)據(jù),可以更好地進(jìn)行特征映射和提取。此外,可以使用大量數(shù)據(jù)樣本(例如 YouTube 視頻和自動(dòng)生成的注釋)來訓(xùn)練這些系統(tǒng)。與自監(jiān)督學(xué)習(xí)類似,學(xué)習(xí)到的特征是通用的,可用于多個(gè)下游任務(wù),例如

          • 圖像字幕 (IC)

          • 視覺問答 (VQA)

          • 視覺蘊(yùn)涵

          • 圖文檢索

          此外,VL 模型可用于學(xué)習(xí)更好的視覺特征和增強(qiáng)語言表示,如

          • OpenAI-CLIP [11]

          • Google ALIGN [12]

          • OpenAI-DALL-E [13]

          • Vokenization [14]

          缺點(diǎn):VL 模型專門使用英語來創(chuàng)建圖像-文本對(duì)。因此,多語種工作在這一領(lǐng)域仍需取得進(jìn)展。至于視頻文本模型,沒有足夠的統(tǒng)一基準(zhǔn)來評(píng)估它們。而且,類似于基于圖像-文本的 VL 模型,視頻-文本模型也可以通過更多地關(guān)注多語言功能來使不同的語言受益。

          最先進(jìn)的視覺語言模型

          VinVL:重新審視視覺語言模型中的視覺表示:VinVL 改進(jìn)了 VL 任務(wù)的視覺表示。VL 模型通常具有對(duì)象檢測器模型和語言提取器模型,然后是融合模型。融合模型負(fù)責(zé)合并視覺和語言嵌入。以前的 VL 模型主要側(cè)重于改進(jìn)視覺語言融合模型 [15],同時(shí)保持對(duì)象檢測模型不變。VinVL 表明視覺特征在 VL 模型中非常重要,并提出了改進(jìn)的對(duì)象檢測模型。對(duì)象檢測模型檢測幾乎覆蓋圖像所有語義區(qū)域的邊界框,而不是僅覆蓋重要對(duì)象的傳統(tǒng)邊界框。最后,視覺特征通過轉(zhuǎn)換器 [16] 與語言嵌入融合。在對(duì)多個(gè)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后,VinVL 針對(duì)多個(gè)下游任務(wù)(VQA、IC 等)進(jìn)行了微調(diào),并在七個(gè)公共基準(zhǔn)上實(shí)現(xiàn)了 SOTA 性能。性能提升可歸因于改進(jìn)的對(duì)象檢測模型。

          有限數(shù)據(jù)學(xué)習(xí)概述

          監(jiān)督學(xué)習(xí)方法需要大量數(shù)據(jù),其性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和大小。然而,在現(xiàn)實(shí)世界中,大量標(biāo)記數(shù)據(jù)的獲取通常很昂貴或不容易獲得。當(dāng)考慮需要基于專家知識(shí)(例如醫(yī)學(xué)成像)進(jìn)行注釋的視覺類、很少出現(xiàn)的類或標(biāo)記需要大量工作(例如圖像分割)的任務(wù)時(shí),這個(gè)問題變得更加嚴(yán)重。在過去的十年中,出現(xiàn)了各種研究領(lǐng)域來應(yīng)對(duì)這些挑戰(zhàn)。弱監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和自/半監(jiān)督等領(lǐng)域試圖通過使 ML 模型從有限、弱或嘈雜的監(jiān)督中學(xué)習(xí)來克服這些挑戰(zhàn)。由于上面已經(jīng)介紹了自/半監(jiān)督,這里我們主要關(guān)注弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)。

          有限數(shù)據(jù)學(xué)習(xí)的利弊

          優(yōu)點(diǎn):弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)有助于減少訓(xùn)練 CV 模型所需的標(biāo)記數(shù)據(jù)量,從而增加這些模型在工業(yè)中的應(yīng)用和采用。弱監(jiān)督學(xué)習(xí)還可以幫助模型在存在噪聲標(biāo)簽的情況下表現(xiàn)得更好,這在現(xiàn)實(shí)世界中經(jīng)常出現(xiàn)。此外,基于實(shí)例的遷移學(xué)習(xí)方法可用于克服現(xiàn)實(shí)世界數(shù)據(jù)集自然產(chǎn)生的類不平衡挑戰(zhàn)(例如,視覺世界的長尾分布[17])。

          缺點(diǎn):弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)都是相對(duì)較新的領(lǐng)域,仍需要時(shí)間才能在工業(yè)中使用。這些方法通常是根據(jù)從受控環(huán)境收集的基準(zhǔn)來開發(fā)和評(píng)估的,因此在實(shí)際環(huán)境中進(jìn)行測試時(shí),它們的性能通常會(huì)下降。此外,這些領(lǐng)域中最有趣的論文都是基于研究環(huán)境中的假設(shè)而開發(fā)的,但不一定在現(xiàn)實(shí)環(huán)境中。在使用這些論文解決實(shí)際問題時(shí),請注意這些論文中隱含和顯式的假設(shè)。

          使用有限數(shù)據(jù)進(jìn)行最先進(jìn)的學(xué)習(xí)

          WyPR:弱監(jiān)督點(diǎn)識(shí)別:WyPR 以點(diǎn)云為輸入,共同解決分割、提議生成和檢測。共同完成這些任務(wù)有幾個(gè)好處,包括:

          1. 將語義分割作為檢測的替代任務(wù)可以提供點(diǎn)級(jí)預(yù)測,形成自下而上的解決方案

          2. 這些任務(wù)是互利的,例如,檢測結(jié)果可用于細(xì)化分割

          3. 多任務(wù)設(shè)置可以實(shí)現(xiàn)更好的表征學(xué)習(xí)。

          WyPR 使用多實(shí)例學(xué)習(xí) (MIL) 和自我訓(xùn)練技術(shù)進(jìn)行訓(xùn)練,并在任務(wù)和轉(zhuǎn)換中定義了額外的一致性損失。WyPR 在 ScanNet 數(shù)據(jù)上的性能比之前的分割方法高 6.3% mIoU。同樣,它在 ScanNet 上的提議生成和檢測方面優(yōu)于先前的提議方法。

          DatasetGAN:DatasetGAN 使用生成對(duì)抗網(wǎng)絡(luò) (GAN) 和小樣本學(xué)習(xí)(遷移學(xué)習(xí)的一個(gè)子領(lǐng)域)來生成真實(shí)的訓(xùn)練數(shù)據(jù)——圖像和標(biāo)簽。該方法建立在 StyleGAN[20] 之上,StyleGAN[20] 是用于生成逼真圖像的最新模型。StyleGAN 默認(rèn)只生成圖像。為了使 StyleGAN 能夠在圖像之外生成標(biāo)簽(例如語義分割圖),他們在 StyleGAN 的合成塊中添加了一個(gè)標(biāo)簽分支。標(biāo)簽分支只是幾層多層感知器,在這項(xiàng)工作中用 16 個(gè)標(biāo)記樣本進(jìn)行訓(xùn)練。論文表明,即使只有一個(gè)標(biāo)記示例,該方法也能獲得合理的結(jié)果,并且當(dāng)提供 30 個(gè)標(biāo)記示例時(shí),它達(dá)到了全監(jiān)督方法的性能。此外,作者表明相同的想法可用于生成帶有標(biāo)簽的合成視頻 [21]。

          零售行業(yè)

          從自助結(jié)賬到產(chǎn)品推薦,CV 在過去幾年幫助零售公司取得了重要進(jìn)展。以下是一些使用簡歷來提升零售體驗(yàn)的公司和初創(chuàng)公司的例子:

          Grabango 是一家位于伯克利的零售視覺初創(chuàng)公司,它正在應(yīng)用 CV 進(jìn)行無摩擦結(jié)賬,類似于 AmazonGo。這家初創(chuàng)公司的目標(biāo)是生成一個(gè)虛擬購物籃,用于識(shí)別購物者選擇的商品,簡化結(jié)賬流程。為了實(shí)現(xiàn)自助結(jié)賬,由加州大學(xué)伯克利分校的 Trevor Darrell 教授領(lǐng)導(dǎo)的數(shù)據(jù)科學(xué)團(tuán)隊(duì)將問題分解為三個(gè)部分:跟蹤,跟蹤店內(nèi)顧客的動(dòng)向,檢測諸如取走/保留商品等事件。貨架和預(yù)測產(chǎn)品 ID。Grabango 在商店中放置了數(shù)以千計(jì)的傳感器、訪問大量歷史數(shù)據(jù)以及來自 BAIR(伯克利人工智能研究)的專門研究人員團(tuán)隊(duì),Grabango 正在使自助結(jié)賬成為現(xiàn)實(shí)。

          Facebook AI Research (FAIR):通過從 Facebook Marketplace 訪問數(shù)百萬個(gè)零售數(shù)據(jù)點(diǎn),F(xiàn)acebook 能夠創(chuàng)建 CV 模型,根據(jù)文本描述向用戶推薦產(chǎn)品。簡而言之,用戶輸入他們想要購買的產(chǎn)品的描述。Facebook 使用此描述作為查詢來獲取并向用戶顯示最相關(guān)的產(chǎn)品圖片。在幕后,F(xiàn)acebook 使用 GrokNet,這是一個(gè)訓(xùn)練用于大規(guī)模產(chǎn)品識(shí)別的 CV 模型。使用著名的 ArcFace 模型和 Catalyzer 的改進(jìn),GrokNet 在產(chǎn)品推薦任務(wù)上取得了令人印象深刻的結(jié)果。

          自動(dòng)駕駛

          幾年來,自動(dòng)駕駛汽車一直是人們關(guān)注的焦點(diǎn)。谷歌、特斯拉、優(yōu)步、豐田和 Waabi 等多家公司和初創(chuàng)公司投資于自動(dòng)駕駛汽車。雖然實(shí)現(xiàn) 5 級(jí)自治的基本原則(即汽車在無人干預(yù)的情況下自動(dòng)駕駛)保持一致,但該領(lǐng)域的領(lǐng)導(dǎo)者對(duì)哪些傳感器性能更好有不同的看法。自動(dòng)駕駛汽車廣泛使用傳感器來獲取有關(guān)其周圍環(huán)境的數(shù)據(jù)。然后將這些數(shù)據(jù)饋送到 CV 模型以獲得自動(dòng)駕駛所需的預(yù)測。一些公司將僅使用攝像頭的傳感器作為黃金標(biāo)準(zhǔn),而另一些公司則更喜歡將攝像頭和雷達(dá)傳感器混合使用。

          特斯拉:由 Andrej Karpathy 博士領(lǐng)導(dǎo)的自動(dòng)駕駛團(tuán)隊(duì)僅使用攝像頭傳感器進(jìn)行預(yù)測。該團(tuán)隊(duì)通過實(shí)驗(yàn)展示了使用攝像頭傳感器而不是雷達(dá)的好處。特斯拉首席執(zhí)行官埃隆馬斯克甚至發(fā)了推文!此外,該團(tuán)隊(duì)認(rèn)為攝像頭傳感器比雷達(dá)便宜,這使得它們在大規(guī)模生產(chǎn)時(shí)更經(jīng)濟(jì)。與其競爭對(duì)手相比,特斯拉已經(jīng)在街上擁有數(shù)千輛自動(dòng)駕駛汽車。這使他們能夠收集訓(xùn)練期間未考慮的獨(dú)特駕駛條件的實(shí)時(shí)數(shù)據(jù)。為此,特斯拉擁有一個(gè)名為“車隊(duì)”的基礎(chǔ)設(shè)施,其唯一目的是從世界不同地區(qū)收集有關(guān)不同駕駛條件的數(shù)據(jù)。以“大數(shù)據(jù)=自動(dòng)駕駛解決”的理念,特斯拉在自動(dòng)駕駛行業(yè)的研發(fā)中處于領(lǐng)先地位。

          Waabi:由自動(dòng)駕駛行業(yè)專家兼首席執(zhí)行官 Raquel Urtasun 博士領(lǐng)導(dǎo),Waabi 是一家總部位于多倫多的初創(chuàng)公司,專注于長途卡車駕駛。Waabi 使用一套傳感器在卡車周圍創(chuàng)建導(dǎo)航環(huán)境。使用概率模型,環(huán)境能夠模擬和合成現(xiàn)實(shí)生活中遇到的不同交通狀況和場景。從這個(gè)環(huán)境中采樣不同的路徑軌跡,然后輸入到為特定任務(wù)設(shè)計(jì)的 CV 模型。Waabi 認(rèn)為,獲取真實(shí)交通中可能發(fā)生的所有可能場景的實(shí)時(shí)數(shù)據(jù)是很困難的。在這里,模擬環(huán)境可用于創(chuàng)建多個(gè)邊緣情況場景,然后可用于訓(xùn)練模型。

          引用

          • Adversarial Example. https://openai.com/blog/adversarial-example-research/.

          • Robustness May Be at Odds with Accuracy. https://arxiv.org/abs/1805.12152

          • Class-imbalanced Domain Adaptation: An Empirical Odyssey. https://arxiv.org/abs/1910.10320.

          • Adversarial Examples Are Not Bugs, They Are Features. https://arxiv.org/abs/1905.02175.

          • Robust and Accurate Object Detection via Adversarial Learning. https://arxiv.org/abs/2103.13886.

          • Self-organizing neural network that discovers surfaces in random-dot stereograms. https://www.nature.com/articles/355161a0

          • A Simple Framework for Contrastive Learning of Visual Representations. https://arxiv.org/abs/2002.05709.

          • Bootstrap your own latent: A new approach to self-supervised Learning. https://arxiv.org/abs/2006.07733.

          • Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. https://arxiv.org/abs/2006.09882.

          • An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. https://arxiv.org/abs/2010.11929.

          • CLIP: Connecting Text and Images. https://openai.com/blog/clip/.

          • ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision. https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html.

          • DALL-E: Creating Images from Text. https://openai.com/blog/dall-e/.

          • Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision. https://arxiv.org/abs/2010.06775.

          • Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. https://arxiv.org/abs/1707.07998.

          • Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. https://arxiv.org/abs/2004.06165.

          • Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective, https://arxiv.org/abs/2003.10780

          • iGPT: Image GPT: https://openai.com/blog/image-gpt/.

          • Scaling Vision Transformers: https://arxiv.org/abs/2106.04560

          • A Style-Based Generator Architecture for Generative Adversarial Networks: https://arxiv.org/abs/1812.04948

          • DriveGAN: Towards a Controllable High-Quality Neural Simulation: https://arxiv.org/abs/2104.15060

          • PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation (Oral, Best paper candidate): https://arxiv.org/abs/2105.02465

          • Rethinking and Improving the Robustness of Image Style Transfer (Oral, Best Paper Candidate): https://arxiv.org/abs/2104.05623

          • SimSiam: Exploring Simple Siamese Representation Learning: https://arxiv.org/abs/2011.10566

          • SENTRY: Selective Entropy Optimization via Committee Consistency for Unsupervised Domain Adaptation. https://arxiv.org/abs/2012.11460

          • Adversarial Examples improve Image Recognition (CVPR’20): https://arxiv.org/abs/1911.09665

          • VinVL: Revisiting Visual Representations in Vision-Language Models: https://arxiv.org/abs/2101.00529

          • DINO: Emerging Properties in Self-Supervised Vision Transformers: https://arxiv.org/pdf/2104.14294.pdf. Blog: https://ai.facebook.com/blog/dino-paws-computer-vision-with-self-supervised-transformers-and-10x-more-efficient-training

          • DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort: https://arxiv.org/abs/2104.06490 . Code and Blog: https://nv-tlabs.github.io/datasetGAN/

          如果覺得有用,就請分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~


          極市干貨
          YOLO教程:一文讀懂YOLO V5 與 YOLO V4大盤點(diǎn)|YOLO 系目標(biāo)檢測算法總覽全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)
          實(shí)操教程:PyTorch vs LibTorch:網(wǎng)絡(luò)推理速度誰更快?只用兩行代碼,我讓Transformer推理加速了50倍PyTorch AutoGrad C++層實(shí)現(xiàn)
          算法技巧(trick):深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(有實(shí)驗(yàn)支撐)深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集長尾識(shí)別中的Tricks匯總(AAAI2021
          最新CV競賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge3D人體目標(biāo)檢測與行為分析競賽開賽,獎(jiǎng)池7萬+,數(shù)據(jù)集達(dá)16671張!


          CV技術(shù)社群邀請函 #


          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~



          覺得有用麻煩給個(gè)在看啦~  


          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  影音先锋AV一区二区三区 | 亚洲欧美精品另类 | SM在线免费观看 | 狼友最新网址 | 国内自拍一区 |