ICML'24開源 | LEO:首個(gè)三維世界中的具身通用智能體
共 4723字,需瀏覽 10分鐘
·
2024-05-29 07:00
本次分享我們邀請(qǐng)到了北京大學(xué)智能學(xué)院在讀博士黃江勇,為大家詳細(xì)介紹他們的工作:
An Embodied Generalist Agent in 3D World
項(xiàng)目主頁:https://embodied-generalist.github.io/
開源代碼:https://github.com/embodied-generalist/embodied-generalist
個(gè)人主頁:http://huangjy-pku.github.io/
直播信息
時(shí)間
2024年5月29日(周三)晚上20:00
主題
ICML'24|LEO: 三維世界中的具身通用智能體
直播平臺(tái)
3D視覺工坊嗶哩嗶哩
掃碼觀看直播,或前往B站搜索3D視覺工坊觀看直播
嘉賓介紹
黃江勇
北京大學(xué)智能學(xué)院在讀博士,北京通用人工智能研究院(BIGAI)通用視覺實(shí)驗(yàn)室實(shí)習(xí)研究員。研究方向?yàn)槎嗄B(tài)學(xué)習(xí),場(chǎng)景理解,具身智能。
直播大綱
-
研究背景與動(dòng)機(jī) -
具身通用智能體: LEO -
三維指令微調(diào)數(shù)據(jù)集: LEO-align & LEO-instruct -
實(shí)驗(yàn)結(jié)果與demo展示
參與方式
DEMO
摘要
想要邁向通用人工智能,必須要構(gòu)建一個(gè)能夠理解人類生活的真實(shí)世界并掌握豐富技能的具身通用智能體。近年以來,以 PALM-E[1]、LLaVA[2]、GPT-4V[3]等為代表的多模態(tài)大模型(Multi-modal Large Language Model)在自然語言處理、視覺理解、機(jī)器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。 為解決這一問題,北京通用人工智能研究院聯(lián)合北京大學(xué)和清華大學(xué)的研究人員提出了首個(gè)三維世界中的具身多任務(wù)多模態(tài)的通才智能體LEO。通才智能體LEO可以完成感知(perception)、推理(reasoning)、對(duì)話(dialogue)、規(guī)劃(planning)和動(dòng)作執(zhí)行(acting)等任務(wù)。LEO的三維視覺語言理解、具身推理和動(dòng)作執(zhí)行能力在現(xiàn)實(shí)世界中有廣泛的應(yīng)用場(chǎng)景與巨大的應(yīng)用價(jià)值。
模型
LEO 模型的整體設(shè)計(jì)思想圍繞兩個(gè)核心點(diǎn):
-
在統(tǒng)一的框架內(nèi)處理第一視角的二維圖片、三維場(chǎng)景信息和自然語言指令,并同時(shí)支持文本與動(dòng)作的輸出; -
能夠充分利用預(yù)訓(xùn)練語言模型的先驗(yàn)信息來促進(jìn)下游任務(wù)。
基于上述兩個(gè)原則,作者設(shè)計(jì)了上圖所示的模型框架,將所有的多模態(tài)(2D、3D、text)輸入都對(duì)齊到 LLM 的文本空間。其中,作者利用 PointNet++ 提取出場(chǎng)景點(diǎn)云中物體級(jí)別的特征,隨后用空間編碼器(Spatial Transformer)對(duì)空間位置關(guān)系進(jìn)行建模,從而得到三維場(chǎng)景級(jí)別(scene-level)的特征。輸入中的二維圖像則經(jīng)過預(yù)訓(xùn)練模型 OpenCLIP ConvNext 處理得到第一視角的視覺特征。二維和三維的視覺特征最后分別經(jīng)過 projector 映射到文本空間中。模型的輸出空間包含文本和動(dòng)作 token,支持視覺語言、具身推理與動(dòng)作執(zhí)行等任務(wù)。LEO 的模型框架統(tǒng)一了不同任務(wù)的多模態(tài)輸入輸出序列,用統(tǒng)一的自回歸損失函數(shù)進(jìn)行訓(xùn)練。作者采用 Vicuna-7B 作為預(yù)訓(xùn)練語言模型,并利用 LoRA 方法進(jìn)行微調(diào)。
數(shù)據(jù)
LEO 的訓(xùn)練分為兩個(gè)階段:1)三維視覺 - 語言對(duì)齊,2)視覺 - 語言 - 動(dòng)作指令微調(diào)。因此,作者分別收集了兩個(gè)階段的訓(xùn)練數(shù)據(jù)集:LEO-align 和 LEO-instruct,其整體概況如下圖所示。數(shù)據(jù)集涵蓋了大規(guī)模的三維物體數(shù)據(jù),如 Objaverse,以及三維場(chǎng)景數(shù)據(jù)集,如 ScanNet、3RScan、Matterport3D 等,還包括了機(jī)器人操作相關(guān)的數(shù)據(jù)集 CLIPort。
在三維視覺語言數(shù)據(jù)收集過程中,作者提出了基于場(chǎng)景圖(scene graph)與 LLM 的自助數(shù)據(jù)生成方法,并設(shè)計(jì)了一系列優(yōu)化措施確保生成的數(shù)據(jù)質(zhì)量,如下圖所示。
實(shí)驗(yàn)結(jié)果
LEO 在描述(3D captioning)、問答(3D QA)、具身推理(embodied reasoning)、具身導(dǎo)航(embodied navigation)、機(jī)器人操作(robotic manipulation)等多個(gè)任務(wù)上展示了杰出的能力。
三維視覺語言理解
作者在三維場(chǎng)景問答數(shù)據(jù)集 ScanQA、三維物體描述數(shù)據(jù)集 Scan2Cap、三維場(chǎng)景具身推理數(shù)據(jù)集 SQA3D 上測(cè)試了模型的能力,這幾類任務(wù)都以三維場(chǎng)景、自然語言指令為輸入,其中 SQA3D 任務(wù)上還包括了提問時(shí)所處的位置和朝向,基于這些輸入模型需要給出相應(yīng)的回答。作者比較了之前各個(gè)數(shù)據(jù)集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],結(jié)果如下表所示,實(shí)驗(yàn)結(jié)果表明 LEO 在三維視覺語言理解的任務(wù)上的多個(gè)指標(biāo)明顯優(yōu)于之前的方法。
具身動(dòng)作執(zhí)行
作者測(cè)試了 LEO 在機(jī)器人操作數(shù)據(jù)集 CLIPort 上的表現(xiàn),該任務(wù)要求模型根據(jù)三維、二維感知結(jié)果和自然語言指令輸出機(jī)械臂操作指令。作者比較了 CLIPort 的基線方法 [6],結(jié)果如下表所示。結(jié)果表明 LEO 與 SOTA 方法的表現(xiàn)接近,甚至有更優(yōu)的泛化性(unseen tasks)。值得一提的是,LEO 未引入針對(duì)機(jī)器人操作任務(wù)的歸納偏置(inductive bias),直接輸出動(dòng)作指令,其簡潔的視覺語言模型展示出了解決機(jī)器人操作任務(wù)的潛力。
作者還測(cè)試了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)這兩個(gè)數(shù)據(jù)集上的表現(xiàn),這一任務(wù)以三維場(chǎng)景、第一視角圖片和自然語言指令作為輸入,模型需要預(yù)測(cè)下一步的導(dǎo)航動(dòng)作。論文與近期的相關(guān)工作 [7, 8] 進(jìn)行了比較,如上表所示。可以看出所提方法在學(xué)習(xí)最短路徑數(shù)據(jù)下的表現(xiàn)可圈可點(diǎn),在 SPL 指標(biāo)上超越了先前的基準(zhǔn)方法,而由于 LEO 的模型沒有采用 recurrence 的結(jié)構(gòu),因此在學(xué)習(xí) 70k human demonstrations 的設(shè)定下表現(xiàn)出的能力有限。
場(chǎng)景對(duì)話與任務(wù)規(guī)劃
下圖展示了 LEO 在多種任務(wù)中的可視化結(jié)果,可以看出,由于經(jīng)過了指令微調(diào)訓(xùn)練的過程,LEO 可以進(jìn)行多輪的場(chǎng)景對(duì)話,如按照用戶需求在場(chǎng)景中尋找物體、按照不同的要求描述房間中的物體、給出建議等。還可以根據(jù)場(chǎng)景信息進(jìn)行任務(wù)規(guī)劃,如將房間整理為一個(gè)學(xué)習(xí)空間、打掃房間、重新裝飾房間等。LEO 在對(duì)話與規(guī)劃任務(wù)中展現(xiàn)出了兩個(gè)亮點(diǎn):1)回答與場(chǎng)景中的物體密切相關(guān);2)豐富的空間位置關(guān)系描述。更多的例子可以在項(xiàng)目主頁中進(jìn)一步了解。
分析
為了挖掘關(guān)于具身通用智能體的insights,作者進(jìn)行了多組對(duì)比實(shí)驗(yàn),探索不同數(shù)據(jù)組成和訓(xùn)練策略對(duì)模型表現(xiàn)的影響。另一方面,作者基于 LEO 探索驗(yàn)證了 scaling law。實(shí)驗(yàn)結(jié)果如下所示。
總結(jié)
本文提出的智能體 LEO 將當(dāng)前的 LLM 模型能力拓展到了三維世界以及動(dòng)作執(zhí)行任務(wù)上,這一工作為構(gòu)建通用具身智能體邁出了重要的一步。基于這一工作,作者認(rèn)為未來可以在如下方面進(jìn)一步進(jìn)行探索:
-
通過大規(guī)模的場(chǎng)景 - 文本數(shù)據(jù)提升三維視覺 - 語言定位能力; -
填補(bǔ)視覺 - 語言能力和動(dòng)作執(zhí)行能力之間的差距; -
探索具身通用智能體的對(duì)齊和安全問題。
團(tuán)隊(duì)介紹
論文核心團(tuán)隊(duì)來自北京通用人工智能研究院通用視覺實(shí)驗(yàn)室,團(tuán)隊(duì)負(fù)責(zé)人黃思遠(yuǎn)博士長期從事關(guān)于三維場(chǎng)景理解、具身智能體、視覺機(jī)器人等方向的相關(guān)工作。該團(tuán)隊(duì)擁有包括全職研究員、工程師、以及實(shí)習(xí)生在內(nèi)的三十余人團(tuán)隊(duì),團(tuán)隊(duì)的長期目標(biāo)是打造未來的通用具身智能體 / 視覺機(jī)器人。
參考文獻(xiàn)
[1] Danny Driess, et al. Palm-e: An embodied multimodal language model. ICML, 2023.
[2] Haotian Liu, et al. Visual instruction tuning. NeurIPS, 2023.
[3] OpenAI. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[4] Ziyu Zhu, et al. 3d-vista: Pre-trained transformer for 3d vision and text alignment. ICCV, 2023.
[5] Yining Hong, et al. 3d-llm: Injecting the 3d world into large language models. NeurIPS, 2023.
[6] Mohit Shridhar, et al. Cliport: What and where pathways for robotic manipulation. CoRL, 2021.
[7] Ram Ramrakhya, et al. Habitat-web: Learning embodied object-search strategies from human demonstrations at scale. CVPR, 2022.
[8] Arjun Majumdar, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? NeurIPS, 2023.
[9] Jared Kaplan, et al. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
注:本次分享我們邀請(qǐng)到了北京大學(xué)智能學(xué)院在讀博士黃江勇,為大家詳細(xì)介紹他們的工作:An Embodied Generalist Agent in 3D World。如果您有相關(guān)工作需要分享,歡迎聯(lián)系:cv3d008
