Facebook 正在研究新型 AI 系統(tǒng),以自我視角與世界進行交互
點擊“凹凸域”,馬上關注
更多內(nèi)容、請置頂或星標

編譯:禾木木
想象一下,你的 AR 設備準確地顯示了如何在架子鼓課上握住鼓棒,知道你完成一個食譜;幫助你找到丟失的鑰匙,或是像全息圖一樣在你的記憶中重現(xiàn)。為了構建這些新技術,人工智能需要像我們一樣,可以從第一人稱的角度理解世界并進行互動。在研究界,通常稱為以自我為中心的感知。然而,今天的計算機視覺系統(tǒng)通常是以第三人稱視角來拍攝的數(shù)百萬張照片或是在視頻中學習,而相機只是動作的旁觀者。
Facebook AI 推出 Ego4D
- Ego4D 的第一個基準挑戰(zhàn)是情景記憶(Episodic memory)。
- 下一步就是進行預測:接下來可能會做什么?
- 第三個挑戰(zhàn)基準就是手-物之間的互動(Hand and object manipulation)也是難點和關鍵的一步,因為AI需要理解在做什么,如何做?
- 這個就是第四個挑戰(zhàn)基準 -?視聽分類
- 社會互動(Social interaction)是 Ego4D 的最后一個方向。
基準和數(shù)據(jù)集在歷史上被證明是人工智能行業(yè)創(chuàng)新的關鍵催化劑。畢竟,今天的 CV 系統(tǒng)幾乎可以識別圖像中的任何對象,它是建立在數(shù)據(jù)集和基準(例如 MNIST、COCO 和 ImageNet)之上的,它們?yōu)檠芯咳藛T提供了一個用于研究真實世界圖像的試驗臺。但是以自我為中心的感知是一個全新的領域。我們不能使用昨天的工具來構建明天的創(chuàng)新。Ego4D 前所未有的規(guī)模和多樣性對于引入下一代智能 AI 系統(tǒng)至關重要。為了構建這個數(shù)據(jù)集,每所合作大學的團隊向研究者分發(fā)了頭戴式攝像頭和其他可穿戴傳感器,以便他們能夠捕捉第一人稱、無腳本視頻。日常生活。參與者從日常場景中錄制大約8分鐘的視頻片段,例如雜貨店購物、烹飪和邊玩游戲邊交談以及與家人和朋友一起參與其他集體活動。Ego4D 捕捉了佩戴攝像機的人在特定環(huán)境中選擇注視的內(nèi)容,用手或是面前的物體做了什么,以及他們?nèi)绾我缘谝蝗朔Q視覺與其他人進行互動。與現(xiàn)有數(shù)據(jù)集相比,Ego4D 數(shù)據(jù)集提供了更大的場景、人物和活動的多樣性,這增加了針對不同背景、種族、職業(yè)和年齡的人訓練的模型的適用性。
Ego4D 及以后的下一步是什么?
- https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/
- https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/
—?END?—
想要了解更多AI資訊
點這里??關注我,記得標星呀~
請點擊上方卡片,專注計算機人工智能方向的研究
評論
圖片
表情
