<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          “大模型+機(jī)器人”的現(xiàn)狀和未來,重磅綜述報(bào)告來了!

          共 6400字,需瀏覽 13分鐘

           ·

          2024-04-03 01:56

          大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自機(jī)器人大講堂

          基礎(chǔ)模型(Foundation Models)是近年來人工智能領(lǐng)域的重要突破,在自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域取得了顯著成果。將基礎(chǔ)模型引入機(jī)器人學(xué),有望從感知、決策和控制等方面提升機(jī)器人系統(tǒng)的性能,推動(dòng)機(jī)器人學(xué)的發(fā)展。由斯坦福大學(xué)、普林斯頓大學(xué)等多所頂尖學(xué)府,以及英偉達(dá)、Google DeepMind等眾多知名企業(yè)組成的聯(lián)合研究團(tuán)隊(duì),發(fā)布了一篇綜述報(bào)告。該報(bào)告全面梳理了基礎(chǔ)模型在機(jī)器人學(xué)各個(gè)領(lǐng)域的應(yīng)用現(xiàn)狀,分析了其優(yōu)勢和局限性,并展望未來的研究方向。


          基礎(chǔ)模型通過在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的語義信息和世界知識。與傳統(tǒng)的特定任務(wù)模型不同,基礎(chǔ)模型具有較強(qiáng)的通用性和遷移能力,能夠應(yīng)用于多種不同的下游任務(wù)。一方面,基礎(chǔ)模型能夠作為機(jī)器人系統(tǒng)的先驗(yàn)知識,減少對任務(wù)特定數(shù)據(jù)的依賴;另一方面,基礎(chǔ)模型可以作為機(jī)器人系統(tǒng)的通用組件,實(shí)現(xiàn)感知、推理和規(guī)劃等核心功能。

          基礎(chǔ)模型主要包括以下幾類:

          1、大型語言模型(Large Language Models):如BERT、GPT-3、PaLM等,主要應(yīng)用于自然語言處理任務(wù)。

          2、視覺Transformer模型:如ViT、Swin Transformer等,主要應(yīng)用于計(jì)算機(jī)視覺任務(wù)。

          3、視覺-語言模型(Vision-Language Models):如CLIP、ALIGN等,通過跨模態(tài)對比學(xué)習(xí)實(shí)現(xiàn)視覺與語言的對齊。

          4、具身多模態(tài)語言模型(Embodied Multimodal Language Models):如R3M,將視覺、語言與機(jī)器人動(dòng)作相結(jié)合進(jìn)行學(xué)習(xí)。

          5、視覺生成模型(Visual Generative Models):如擴(kuò)散模型和GAN等,用于視覺信號的生成。



          本文將重點(diǎn)分析基礎(chǔ)模型在機(jī)器人學(xué)各個(gè)領(lǐng)域的應(yīng)用,并討論相關(guān)技術(shù)挑戰(zhàn)和未來機(jī)遇。介紹基礎(chǔ)模型在機(jī)器人感知中的應(yīng)用、基礎(chǔ)模型在機(jī)器人決策與規(guī)劃中的應(yīng)用、基礎(chǔ)模型在機(jī)器人控制中的應(yīng)用,總結(jié)全文并展望未來。

          機(jī)器人感知中的基礎(chǔ)模型應(yīng)用

          感知是機(jī)器人系統(tǒng)的重要組成部分,旨在從原始傳感器數(shù)據(jù)中提取語義信息,以支持決策和控制。傳統(tǒng)的機(jī)器人感知方法依賴于特定場景下的特征工程和模型設(shè)計(jì),難以適應(yīng)開放環(huán)境的復(fù)雜性和多樣性。近年來,深度學(xué)習(xí)的發(fā)展使得從大規(guī)模數(shù)據(jù)中端到端地學(xué)習(xí)感知模型成為可能。基礎(chǔ)模型進(jìn)一步擴(kuò)展了這一范式,使得機(jī)器人系統(tǒng)能夠利用更廣泛的先驗(yàn)知識,實(shí)現(xiàn)更強(qiáng)大、更通用的感知能力。



          在視覺感知方面,視覺Transformer模型展現(xiàn)出了強(qiáng)大的特征提取和泛化能力。以ViT為代表的純Transformer模型直接將圖像分割為序列,通過自注意力機(jī)制學(xué)習(xí)像素間的全局依賴,在ImageNet等大規(guī)模數(shù)據(jù)集上取得了超越CNN的性能。進(jìn)一步地,Swin Transformer等層次化的Transformer模型能夠更好地建模視覺信號的多尺度特性,在檢測、分割等下游任務(wù)上取得了顯著的性能提升。在機(jī)器人領(lǐng)域,視覺Transformer模型可以用于構(gòu)建更魯棒、更通用的視覺感知模塊。以O(shè)WL-ViT為例,該模型將ViT與開放詞匯對象檢測相結(jié)合,能夠識別數(shù)百種未在訓(xùn)練集中出現(xiàn)的物體類別,為機(jī)器人系統(tǒng)提供了更廣泛的物體理解能力。

          在語義感知方面,視覺-語言模型為實(shí)現(xiàn)開放詞匯的識別和理解提供了新的思路。以CLIP為代表的對比語言-圖像預(yù)訓(xùn)練模型通過最大化圖像特征與文本特征的互信息,學(xué)習(xí)了視覺與語言的對齊映射。在下游任務(wù)中,CLIP可以根據(jù)文本描述動(dòng)態(tài)生成視覺分類器,實(shí)現(xiàn)開放集識別。進(jìn)一步地,CLIP可以作為視覺骨干網(wǎng)絡(luò),用于引導(dǎo)其他感知任務(wù)的學(xué)習(xí),如分割、檢測等。以CLIP-SAM為例,該模型采用CLIP作為視覺編碼器,引入文本描述構(gòu)建語義分割模型,能夠泛化到新的物體類別和場景。在機(jī)器人領(lǐng)域,CLIP等視覺-語言模型為實(shí)現(xiàn)開放詞匯的物體識別、關(guān)系理解等提供了重要基礎(chǔ)。

          在交互感知方面,具身多模態(tài)語言模型為機(jī)器人學(xué)習(xí)復(fù)雜的操作行為提供了新的范式。以R3M為例,該模型在視覺、語言和機(jī)器人動(dòng)作數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,通過掩碼自回歸學(xué)習(xí)視覺-語言-動(dòng)作的表示。在下游任務(wù)中, R3M可以根據(jù)語言指令和視覺觀察生成對應(yīng)的機(jī)器人動(dòng)作,實(shí)現(xiàn)跨模態(tài)的指令跟隨和技能學(xué)習(xí)。相比于傳統(tǒng)的模仿學(xué)習(xí)方法,R3M引入了語言模態(tài),使得機(jī)器人能夠理解更抽象、更多樣的指令,具備更強(qiáng)的泛化能力。未來,如何進(jìn)一步提高具身語言模型在開放環(huán)境中的魯棒性和安全性,是亟需解決的問題。

          總的來說,基礎(chǔ)模型為機(jī)器人感知提供了先驗(yàn)知識和泛化能力。在視覺感知方面,視覺Transformer模型實(shí)現(xiàn)了更魯棒、更通用的特征提取;在語義感知方面,視覺-語言模型實(shí)現(xiàn)了開放詞匯的識別和理解;在交互感知方面,具身語言模型實(shí)現(xiàn)了跨模態(tài)的指令跟隨和技能學(xué)習(xí)。未來,如何進(jìn)一步提高基礎(chǔ)模型在機(jī)器人感知任務(wù)中的性能和效率,如何利用多模態(tài)信息實(shí)現(xiàn)更高層次的場景理解,都是亟需探索的方向。

          機(jī)器人決策與規(guī)劃中的基礎(chǔ)模型應(yīng)用

          決策與規(guī)劃是機(jī)器人系統(tǒng)的核心功能,旨在根據(jù)感知信息和任務(wù)目標(biāo),自主地選擇行動(dòng)策略并生成動(dòng)作序列。傳統(tǒng)的機(jī)器人決策與規(guī)劃方法依賴于精確的環(huán)境模型和專家知識,難以適應(yīng)非結(jié)構(gòu)化環(huán)境的不確定性和復(fù)雜性。近年來,深度強(qiáng)化學(xué)習(xí)的發(fā)展使得機(jī)器人能夠從數(shù)據(jù)中學(xué)習(xí)決策與規(guī)劃策略,但其樣本效率和泛化能力仍有待提高。基礎(chǔ)模型為機(jī)器人決策與規(guī)劃引入了豐富的先驗(yàn)知識,有望進(jìn)一步促進(jìn)該領(lǐng)域的發(fā)展。



          在任務(wù)規(guī)劃方面,大型語言模型展現(xiàn)出了將自然語言指令轉(zhuǎn)化為可執(zhí)行計(jì)劃的能力。以PaLM-SayCan為例,該模型首先在大規(guī)模語料上訓(xùn)練一個(gè)通用的語言模型,然后在機(jī)器人指令數(shù)據(jù)上進(jìn)行微調(diào),學(xué)習(xí)將高層指令映射到低層動(dòng)作的策略。在測試階段,PaLM-SayCan可以根據(jù)用戶提供的自然語言指令,生成相應(yīng)的機(jī)器人動(dòng)作序列,并交由運(yùn)動(dòng)規(guī)劃模塊執(zhí)行。實(shí)驗(yàn)表明,PaLM-SayCan能夠處理復(fù)雜的日常操作指令,大大提高了機(jī)器人的語言理解和任務(wù)泛化能力。類似地,SayCan等模型也展示了將語言指令轉(zhuǎn)化為視覺操作序列的能力。

          在運(yùn)動(dòng)規(guī)劃方面,擴(kuò)散模型為生成平滑、多樣的機(jī)器人軌跡提供了新的思路。以DiffSkill為例,該模型通過學(xué)習(xí)軌跡數(shù)據(jù)的條件分布,實(shí)現(xiàn)了從起始狀態(tài)、目標(biāo)狀態(tài)和語言指令到軌跡序列的映射。在規(guī)劃階段,DiffSkill根據(jù)任務(wù)要求,通過反向擴(kuò)散過程生成平滑、自然的機(jī)器人軌跡,并交由運(yùn)動(dòng)控制模塊執(zhí)行。相比于傳統(tǒng)的軌跡優(yōu)化方法,DiffSkill能夠同時(shí)兼顧軌跡的平滑性、多樣性和語義一致性,為機(jī)器人運(yùn)動(dòng)規(guī)劃提供了更靈活、更高效的解決方案。

          在策略學(xué)習(xí)方面,基礎(chǔ)模型為提高強(qiáng)化學(xué)習(xí)的樣本效率和泛化能力提供了新的思路。以VIMA為例,該模型利用CLIP將視覺觀察映射到語言空間,得到緊湊且語義豐富的狀態(tài)表示。在此基礎(chǔ)上,VIMA通過對比學(xué)習(xí)建立起狀態(tài)表示與最優(yōu)動(dòng)作之間的映射,實(shí)現(xiàn)了跨任務(wù)、跨環(huán)境的策略泛化。實(shí)驗(yàn)表明,VIMA在視覺導(dǎo)航、機(jī)械臂操作等任務(wù)中顯著減少了所需的交互樣本數(shù)量,展現(xiàn)出了強(qiáng)大的知識遷移能力。類似地,CLIP-TD3、CLIPort等模型也展示了利用視覺-語言模型來引導(dǎo)策略學(xué)習(xí)的有效性。

          總的來說,基礎(chǔ)模型為機(jī)器人決策與規(guī)劃引入了語言理解、常識推理等關(guān)鍵能力。在任務(wù)規(guī)劃方面,大型語言模型實(shí)現(xiàn)了將自然語言指令轉(zhuǎn)化為可執(zhí)行計(jì)劃;在運(yùn)動(dòng)規(guī)劃方面,擴(kuò)散模型實(shí)現(xiàn)了平滑、多樣軌跡的生成;在策略學(xué)習(xí)方面,視覺-語言模型實(shí)現(xiàn)了高效、泛化的策略學(xué)習(xí)。盡管取得了可喜的進(jìn)展,但如何進(jìn)一步提高基礎(chǔ)模型在機(jī)器人決策與規(guī)劃中的可解釋性、安全性和實(shí)時(shí)性仍是亟需探索的問題。此外,如何將決策與規(guī)劃與感知、控制更緊密地結(jié)合,構(gòu)建端到端的自主系統(tǒng),也是未來的重要研究方向。

          機(jī)器人控制中的基礎(chǔ)模型應(yīng)用

          控制是機(jī)器人系統(tǒng)的執(zhí)行部分,旨在根據(jù)感知信息和決策指令,精準(zhǔn)、穩(wěn)定地控制機(jī)器人執(zhí)行器完成預(yù)定動(dòng)作。傳統(tǒng)的機(jī)器人控制方法依賴于精確的動(dòng)力學(xué)模型和專家知識,難以適應(yīng)非結(jié)構(gòu)化環(huán)境的不確定性和復(fù)雜性。近年來,學(xué)習(xí)型控制的發(fā)展使得機(jī)器人能夠從數(shù)據(jù)中學(xué)習(xí)控制策略,但其泛化能力和魯棒性仍有待提高。基礎(chǔ)模型為機(jī)器人控制引入了豐富的先驗(yàn)知識和泛化能力,有望進(jìn)一步突破傳統(tǒng)控制方法的局限性。

          在軌跡跟蹤控制方面,擴(kuò)散模型展現(xiàn)出了從語言指令生成平滑、準(zhǔn)確機(jī)器人軌跡的能力。以 DiffTraj 為例,該模型通過學(xué)習(xí)軌跡數(shù)據(jù)的條件分布,實(shí)現(xiàn)了從起始狀態(tài)、目標(biāo)狀態(tài)和語言指令到軌跡序列的映射。在控制階段,DiffTraj根據(jù)高層指令,通過反向擴(kuò)散過程生成平滑、準(zhǔn)確的機(jī)器人關(guān)節(jié)軌跡,并交由底層控制器執(zhí)行。實(shí)驗(yàn)表明,DiffTraj能夠根據(jù)簡單的語言描述生成復(fù)雜的操作軌跡,如"打開抽屜"、"倒水"等,大大提高了機(jī)器人控制的靈活性和易用性。

          在模仿學(xué)習(xí)方面,視覺-語言模型為機(jī)器人學(xué)習(xí)復(fù)雜技能提供了新的范式。以CLIP-ASAP為例,該模型首先利用CLIP將視頻幀編碼為語義特征,然后通過因果語言建模學(xué)習(xí)動(dòng)作與視覺變化之間的關(guān)系。在控制階段,CLIP-ASAP根據(jù)語言指令和當(dāng)前視覺觀察,預(yù)測下一時(shí)刻的關(guān)鍵幀,并將其傳遞給低層控制器執(zhí)行。實(shí)驗(yàn)表明,CLIP-ASAP能夠?qū)W習(xí)復(fù)雜的長期技能,如烹飪、家政等,且具有很強(qiáng)的泛化能力,能夠根據(jù)不同的指令組合技能。類似地,R3M、Pix2R等模型也展示了利用視覺-語言對齊進(jìn)行模仿學(xué)習(xí)的能力。

          在強(qiáng)化學(xué)習(xí)領(lǐng)域,基礎(chǔ)模型為引入先驗(yàn)知識和提高樣本效率提供了新的思路。以LanguagePlan為例,該模型利用GPT-3根據(jù)任務(wù)描述生成抽象的行動(dòng)計(jì)劃,如"先走到門口,然后打開門,再走出房間"。然后,LanguagePlan將該行動(dòng)計(jì)劃嵌入到狀態(tài)空間中,作為額外的觀察信息,用于訓(xùn)練一個(gè)分層強(qiáng)化學(xué)習(xí)智能體。實(shí)驗(yàn)表明,LanguagePlan能夠顯著提高樣本效率和泛化性能,加速復(fù)雜任務(wù)的學(xué)習(xí)。類似地,LOFT、T-EBM等模型也展示了利用語言模型引導(dǎo)策略學(xué)習(xí)的能力。

          盡管基礎(chǔ)模型在機(jī)器人控制中展現(xiàn)出了廣闊的應(yīng)用前景,但如何進(jìn)一步提高其實(shí)時(shí)性、魯棒性和可解釋性仍然是亟待解決的問題。此外,如何將控制與感知、決策和規(guī)劃更緊密地結(jié)合,構(gòu)建端到端的自主系統(tǒng),也是未來的重要研究方向。

          總結(jié)與展望

          本文全面梳理了基礎(chǔ)模型在機(jī)器人學(xué)各個(gè)領(lǐng)域的應(yīng)用現(xiàn)狀。在機(jī)器人感知方面,視覺Transformer和視覺-語言模型實(shí)現(xiàn)了開放詞匯的物體識別、語義分割和交互感知;在機(jī)器人決策與規(guī)劃方面,大型語言模型展示了從自然語言指令生成行動(dòng)計(jì)劃和策略的能力;在機(jī)器人控制方面,擴(kuò)散模型和視覺-語言模型實(shí)現(xiàn)了從語言指令生成平滑軌跡和模仿復(fù)雜技能的能力。這些應(yīng)用表明,基礎(chǔ)模型為機(jī)器人系統(tǒng)注入了語言理解、視覺泛化、常識推理等關(guān)鍵能力,有望推動(dòng)機(jī)器人學(xué)的新一輪發(fā)展。

          展望未來,基礎(chǔ)模型驅(qū)動(dòng)的機(jī)器人學(xué)必將迎來蓬勃發(fā)展,并有望實(shí)現(xiàn)機(jī)器人系統(tǒng)的新一輪突破。同時(shí),它也為機(jī)器人學(xué)和人工智能的基礎(chǔ)理論研究提供了新的視角和方法。未來,機(jī)器人學(xué)和人工智能領(lǐng)域的研究者需要攜手合作,進(jìn)一步挖掘基礎(chǔ)模型的潛力,并解決其落地部署所面臨的挑戰(zhàn),推動(dòng)服務(wù)機(jī)器人、工業(yè)機(jī)器人和特種機(jī)器人等領(lǐng)域的發(fā)展,造福人類社會。


          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級應(yīng)用
          掃碼了解詳情?


          點(diǎn)「在看」的人都變好看了哦!
          瀏覽 67
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人一级在线 | 国产精品一二三四 | 亚洲AV导航 | 亚洲第九十七页 | 欧美在线中文字幕 |