<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          無任務(wù)學(xué)習(xí)及在機器人任務(wù)和運動規(guī)劃中的應(yīng)用

          共 11713字,需瀏覽 24分鐘

           ·

          2024-04-19 03:02

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自中國人工智能學(xué)會
          作者:張憲琦,范曉鵬

          摘 要:

          本文提出了無任務(wù)學(xué)習(xí)的方法,闡述了其與現(xiàn)有方法(包括自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、模仿學(xué)習(xí)、強化學(xué)習(xí))的區(qū)別與聯(lián)系;然后,介紹了無任務(wù)學(xué)習(xí)在機器人任務(wù)和運動規(guī)劃領(lǐng)域的應(yīng)用,并分析了無任務(wù)學(xué)習(xí)在該領(lǐng)域的優(yōu)勢和主要研究難點。最后,對無任務(wù)學(xué)習(xí)在機器人領(lǐng)域的發(fā)展,以及在生產(chǎn)生活中的應(yīng)用前景進行了展望。

          關(guān)鍵詞:

          無任務(wù)學(xué)習(xí);任務(wù)和運動規(guī)劃;機器人;人工智能

          引言


          1961 年,第一臺工業(yè)機器人 Unimate 出現(xiàn)在通用汽車的產(chǎn)線上,自此,機器人在工業(yè)生產(chǎn)領(lǐng)域蓬勃發(fā)展。相比之下,家用機器人的發(fā)展卻不盡如人意,1921 年的舞臺劇中為羅素姆服務(wù)的萬能機器人,在 100 年后的今天仍未能實現(xiàn)。相比工業(yè)機器人,家用機器人需要更強的智能,相關(guān)研究也面臨更多的困難,例如意圖識別、工具的使用和構(gòu)造、面向任務(wù)的物體替換、用戶個性化定制等。近年來,智能決策、大語言模型等人工智能技術(shù)飛速發(fā)展,使得實現(xiàn)擁有類人智能的機器人逐漸成為可能。

          目前,用于機器人智能決策的方法,主要可以分為強化學(xué)習(xí)和模仿學(xué)習(xí)兩類。強化學(xué)習(xí)方法需要設(shè)置任務(wù)相關(guān)的獎勵函數(shù),以此引導(dǎo)智能體學(xué)習(xí)如何完成任務(wù)。相比之下,模仿學(xué)習(xí)讓智能體從預(yù)先收集的專家數(shù)據(jù)中學(xué)習(xí)知識,模仿專家的行為(行為克?。?,或根據(jù)專家行為來學(xué)習(xí)一個合理的獎勵函數(shù)(逆強化學(xué)習(xí))。然而,這兩種方法仍存在一些缺點,如設(shè)置任務(wù)相關(guān)的獎勵函數(shù)通常使得模型泛化性能較差,收集專家數(shù)據(jù)成本較高。為此,我們提出一種新的學(xué)習(xí)方法,稱為無任務(wù)學(xué)習(xí)(taskagnostic learning)。

          無任務(wù)學(xué)習(xí)的提出,主要基于人類所學(xué)知識的碎片性和無目的性。知識的碎片性表現(xiàn)在完成具體任務(wù)所需的知識,通常不是連貫且完整學(xué)習(xí)的。一次性學(xué)習(xí)任務(wù)相關(guān)的所有知識后再去完成任務(wù),在生活中并不常見,而是在生活中不斷積累,在面向具體任務(wù)時篩選整合碎片化知識來完成任務(wù)(可能還需要學(xué)習(xí)部分任務(wù)相關(guān)的新知識)。例如,我們很早以前就知道如何打開一扇門和如何擺放一個杯子,那么對于把盤子放進冰箱的任務(wù),只需要遷移并合并這些碎片知識就可以了。而無目的性則表現(xiàn)在很多知識的獲取并沒有具體目標,反而更傾向于在環(huán)境探索過程中的偶然性。例如,我們發(fā)現(xiàn)新買的杯子有點重,或者某個書簽有點割手,這些知識在面向具體任務(wù)時會突然變得很有用,比如可能突然想起來某個杯子可以用來壓住紙條以免它被風(fēng)吹走,又或是意識到某個割手的書簽用來拆快遞也許很合適。受到上述現(xiàn)象的啟發(fā),我們提出無任務(wù)學(xué)習(xí)。另外,相比任務(wù)不敏感學(xué)習(xí)一類的稱呼,我們更傾向于稱為無任務(wù)學(xué)習(xí),因為在知識的學(xué)習(xí)過程中,可能并沒有目的 / 任務(wù)。

          在本文以下的內(nèi)容中,首先給出無任務(wù)學(xué)習(xí)的定義,以及與現(xiàn)有方法的區(qū)別與聯(lián)系;其次,介紹一種基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法,并討論在該研究領(lǐng)域中無任務(wù)學(xué)習(xí)的優(yōu)勢與難點;最后展望無任務(wù)學(xué)習(xí)的發(fā)展和應(yīng)用前景。

          無任務(wù)學(xué)習(xí)


          1.1 基本定義

          如果一個學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù)完全是由與最終目標任務(wù)不直接相關(guān)的方法來收集的,且在解決最終任務(wù)時無需重復(fù)訓(xùn)練模型,我們將這種學(xué)習(xí)方式稱為無任務(wù)學(xué)習(xí)。同時,默認訓(xùn)練數(shù)據(jù)中包含能夠解決最終任務(wù)的碎片化知識。

          具體到機器人相關(guān)的研究領(lǐng)域,如果環(huán)境探索方法與最終任務(wù)不直接相關(guān),例如完全隨機的環(huán)境探索、新奇性引導(dǎo)的環(huán)境探索等,我們稱利用此類探索數(shù)據(jù)來引導(dǎo)智能體學(xué)習(xí)知識的方法為基于無任務(wù)學(xué)習(xí)的智能決策方法。

          1.2 與現(xiàn)有方法的區(qū)別與聯(lián)系

          自監(jiān)督學(xué)習(xí)(self-supervised learning)通常用于特征提取模型的預(yù)訓(xùn)練,通過自行設(shè)置數(shù)據(jù)標簽(即監(jiān)督信號)來完成自監(jiān)督學(xué)習(xí)。例如,用掩碼覆蓋圖像部分區(qū)域訓(xùn)練模型恢復(fù)圖像,或者將圖像切塊打亂后訓(xùn)練模型正確排列圖像塊等。這種方法更側(cè)重于使模型能夠更好地提取特征,可以作為輔助任務(wù)來提升模型性能,或作為預(yù)訓(xùn)練模型并針對下游任務(wù)微調(diào)以提升性能。相比之下,無任務(wù)學(xué)習(xí)更側(cè)重約束訓(xùn)練數(shù)據(jù)與測試任務(wù)的關(guān)系,而不強調(diào)訓(xùn)練數(shù)據(jù)的監(jiān)督信號是如何產(chǎn)生的,可以是由歷史任務(wù)相關(guān)信息來設(shè)置,也可以通過自監(jiān)督方法設(shè)置。

          遷移學(xué)習(xí)(transfer learning)通過將源域?qū)W習(xí)到的知識遷移到目標域中,以減少模型對新任務(wù)(即目標域)的數(shù)據(jù)需求,并使模型在目標域任務(wù)上獲得更好的性能。這通常要求源域與目標域存在較強的關(guān)聯(lián)關(guān)系或相似性。這與無任務(wù)學(xué)習(xí)存在一定的相似性,即需要源域 / 訓(xùn)練數(shù)據(jù)中存在能夠解決目標域 / 目標任務(wù)的知識。但無任務(wù)學(xué)習(xí)更強調(diào)知識的碎片性,即整體訓(xùn)練數(shù)據(jù)中的任務(wù)可能與目標任務(wù)存在較大差別。

          強 化 學(xué) 習(xí)(reinforcement learning,RL)通過設(shè)置獎勵函數(shù)來引導(dǎo)智能體探索環(huán)境和學(xué)習(xí)如何解決任務(wù),近年來在很多領(lǐng)域取得了巨大成功,如AlphaGo。然而,設(shè)置任務(wù)相關(guān)的獎勵函數(shù),通常需要任務(wù)相關(guān)的專業(yè)知識,并且使得智能體泛化性能不佳。一個與無任務(wù)學(xué)習(xí)較為相關(guān)的分支是目標導(dǎo)向的強化學(xué)習(xí),相比傳統(tǒng)強化學(xué)習(xí),額外增加目標作為輸入,使得智能體能夠完成多任務(wù),然而它仍然需要設(shè)置目標相關(guān)的獎勵函數(shù)。此外,近年來有很多學(xué)者提出自監(jiān)督強化學(xué)習(xí),然而這些方法通常是采用自監(jiān)督方法來提取狀態(tài)特征,或?qū)⑵渑c獎勵函數(shù)的設(shè)置相結(jié)合,完全摒棄任務(wù)相關(guān)的獎勵函數(shù),目前仍是十分困難的,使其與無任務(wù)學(xué)習(xí)存在根本差別。

          模仿學(xué)習(xí)(imitation learning,IL)需要收集大量專家數(shù)據(jù)用于智能體訓(xùn)練。智能體可以監(jiān)督學(xué)習(xí)的方式訓(xùn)練智能體模仿專家行為(行為克?。?,或者從專家演示中學(xué)習(xí)一個良好的獎勵函數(shù)(逆強化學(xué)習(xí))。此外,還有很多工作將其與生成對抗的思想相結(jié)合(生成對抗模仿學(xué)習(xí))。然而,專家數(shù)據(jù)通常是對具體任務(wù)的演示,這與無任務(wù)學(xué)習(xí)對訓(xùn)練數(shù)據(jù)的要求是完全不同的。目前,有部分工作利用與目標任務(wù)不直接相關(guān)的數(shù)據(jù)來輔助強化學(xué)習(xí)和模仿學(xué)習(xí)來訓(xùn)練智能體,但仍將該類數(shù)據(jù)作為次要輔助。

          無任務(wù)學(xué)習(xí)在機器人任務(wù)和運動規(guī)劃中的應(yīng)用


          2.1 基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法

          本小節(jié)主要介紹基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法,其主要框架如圖 1 所示。

          圖 1 基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃

          2.1.1 場景重建和理解

          我們選擇真實場景 - 虛擬場景 - 真實場景的架構(gòu)(real to simulation to real,Real2Sim2Real)來進行機器人任務(wù)和運動規(guī)劃(task and motion planning,TAMP),即通過三維重建和場景信息估計等技術(shù)將真實場景信息在虛擬場景(即物理模擬器)中重建,在虛擬場景中完成決策后,在真實場景中執(zhí)行被選擇的動作。為了完成 Real2Sim 的轉(zhuǎn)換,采用基于深度圖的三維重建方法,而物體屬性(大小、材質(zhì)等)則通過相關(guān)的人工智能方法估測。常用機器人和由于構(gòu)建虛擬場景的物理模擬器,如圖 2 所示。

          圖 2 常用機器人和物理模擬器


          2.1.2 環(huán)境探索

          為了使智能體理解不同動作在環(huán)境中與物體交互產(chǎn)生的效果(action effect)、直觀物理(intuitive physics)等信息,需要在環(huán)境中執(zhí)行不同的動作來收集數(shù)據(jù),以便于后期智能體學(xué)習(xí)。環(huán)境探索方法采用與任務(wù)目標不直接相關(guān)的方式進行,以模擬人在日常生活中與環(huán)境的交互方式。探索方法可采用隨機探索、新奇性引導(dǎo)的環(huán)境探索或者其他與任務(wù)不直接相關(guān)的內(nèi)在獎勵(intrinsic reward)驅(qū)動的探索方法。數(shù)據(jù)保存為 […, 狀態(tài) i,動作 i,狀態(tài) i+1,…],包含用于解決下游任務(wù)的碎片化知識。對于機器人動作執(zhí)行,我們默認采用機器人運動學(xué)和動力學(xué)(kinematics and dynamics)解決相關(guān)問題,并且不對控制方法做額外要求(采用運動控制、力控制或混合控制等方式,與具體問題相關(guān))。

          2.1.3 知識學(xué)習(xí)

          對物體屬性和功能的學(xué)習(xí)、對客觀規(guī)律的總結(jié)抽象、對動作執(zhí)行結(jié)果預(yù)判等能力是人類智能的核心,也是人工智能要解決的關(guān)鍵問題。知識可以分類為低層知識和高層知識,其中低層知識與具體環(huán)境相關(guān),主要涉及場景理解(scene understanding)等研究領(lǐng)域,即在當前環(huán)境中,機器人采用不同動作與物體交互時產(chǎn)生的結(jié)果;高層知識僅與物體類別等屬性相關(guān),主要涉及物體功能學(xué)習(xí)(functional and affordance reasoning)、工具的使用(tool use)、物理規(guī)律(physics/ intuitive physics)、因果推理(causality)等研究領(lǐng)域。針對低層知識的學(xué)習(xí),我們將當前場景中物體信息直接作為神經(jīng)網(wǎng)絡(luò)模型的輸入,而針對高層知識,可以提取物體類別、形狀、材質(zhì)等信息作為神經(jīng)網(wǎng)絡(luò)模型的輸入。

          與動作執(zhí)行效果相關(guān)的知識對于后續(xù)任務(wù)和運動規(guī)劃是十分必要的,為了學(xué)習(xí)此類知識,一個簡單的方法是將任務(wù)執(zhí)行前后的物體狀態(tài)與相應(yīng)的動作輸入神經(jīng)網(wǎng)絡(luò)中,將提取的特征信息作為對應(yīng)動作執(zhí)行效果。為了使提取到的動作效果特征更準確,可能還需要額外的約束,例如,相同動作對應(yīng)特征盡可能相似。在某些情況下,動作效果特征與物體特征的結(jié)合,可作為碎片知識,可以通過組合來完成具體任務(wù)。當然,碎片知識的表示也可以采用其他知識表示方式。

          2.1.4 任務(wù)和運動規(guī)劃

          任務(wù)和運動規(guī)劃中,任務(wù)規(guī)劃將一個目標任務(wù)分解為多個子任務(wù),這與人類不斷將復(fù)雜問題簡化為多個簡單子問題來解決的情況相似;而運動規(guī)劃則解決機器人實際運動時從一個開始狀態(tài)到終止狀態(tài)的問題,需要滿足無碰撞、符合具體機器人關(guān)節(jié)力矩和位姿限制等約束條件。由于任務(wù)規(guī)劃只關(guān)注離散的任務(wù)空間,且通常不考慮現(xiàn)實環(huán)境和機器人硬件實現(xiàn),因此可能存在子任務(wù)難以完成的情況。為此,近年來很多學(xué)者將兩者相結(jié)合,利用一個規(guī)劃器來同時考慮任務(wù)和運動規(guī)劃兩部分。

          為了將無任務(wù)學(xué)習(xí)應(yīng)用于任務(wù)和運動規(guī)劃問題,一種任務(wù)分解方法是將當前環(huán)境狀態(tài)和具體任務(wù)信息作為神經(jīng)網(wǎng)絡(luò)輸入,將模型輸出作為子任務(wù),同時,約束子任務(wù)特征可以由某些碎片知識合成。通過子任務(wù)特征和已學(xué)習(xí)的碎片知識特征,篩選合適的碎片知識用于完成任務(wù)。而針對機器人運動規(guī)劃問題,可以利用已保存的探索數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決,類似目標導(dǎo)向的強化學(xué)習(xí)方法,或采用其他傳統(tǒng)方法,如網(wǎng)格方法(grid methods)、虛擬勢場(virtual potential fields)等。

          我們采用真實場景 - 虛擬場景 - 真實場景的框架來模擬人類思考方式,即大腦通過視覺等信息對真實場景進行重建,在大腦中思考并模擬動作結(jié)果后,最終選擇合適的動作在真實場景中執(zhí)行來完成任務(wù)。對應(yīng)的,首先利用深度攝像機獲取的深度圖像在虛擬環(huán)境中對真實場景重建;然后在虛擬場景中進行思考(規(guī)劃);最后將思考結(jié)果(動作)在真實場景中執(zhí)行以獲得新的環(huán)境狀態(tài),迭代思考和執(zhí)行直到任務(wù)完成。由于思考(規(guī)劃)在虛擬環(huán)境中進行,可生成多個思路(即動作序列),篩選最優(yōu)解在真實環(huán)境中執(zhí)行,這與蒙特卡洛樹搜索相似,但其模擬部分不是直接計算(例如圍棋等,可根據(jù)當前棋盤狀態(tài)和動作,直接計算下一個棋盤狀態(tài))或由神經(jīng)網(wǎng)絡(luò)模型估測,而是采用虛擬環(huán)境(物理模擬器)模擬計算的。

          2.2 優(yōu)勢與難點分析

          采用無任務(wù)學(xué)習(xí)極大地降低了相關(guān)人工智能方法的數(shù)據(jù)需求,并促進了類人智能機器人的實現(xiàn)。在數(shù)據(jù)方面,由于無任務(wù)學(xué)習(xí)僅需要與任務(wù)不直接相關(guān)的探索數(shù)據(jù),使得無需收集專家數(shù)據(jù)或設(shè)計可能需要較強領(lǐng)域經(jīng)驗的獎勵函數(shù),極大地降低了數(shù)據(jù)成本。此外,由于與任務(wù)不直接相關(guān)的探索數(shù)據(jù)更容易獲取,使得智能體可以獲得更大規(guī)模的訓(xùn)練數(shù)據(jù)。無任務(wù)學(xué)習(xí)的一個難點是碎片化知識的學(xué)習(xí)和表示方法,以及面向具體任務(wù)時,碎片化知識的檢索和拼接。由于完全沒有專家數(shù)據(jù)或獎勵信息引導(dǎo),使得碎片化知識的表示在面向不同環(huán)境和任務(wù)時,難以取得良好的泛化效果。一個可能的解決方法是將無任務(wù)學(xué)習(xí)與模仿學(xué)習(xí)相結(jié)合,通過少量的專家數(shù)據(jù)引導(dǎo)碎片化知識的提取和拼接,這種取長補短式的組合可能是更為合理的,類似人類的知識學(xué)習(xí)過程,一部分來自自身的探索和思考,另一部分來自父母師長的言傳身教。

          未來展望


          3.1 發(fā)展前景

          下面介紹幾個可能與無任務(wù)學(xué)習(xí)相結(jié)合的研究領(lǐng)域,同時也對應(yīng)智能機器人的幾個亟待解決的問題。

          3.1.1 工具的使用和構(gòu)造

          相比于機器人與物體直接交互,工具使得機器人與物體間接交互。合適的工具可以使任務(wù)更容易完成,例如,使用箱子可以一次搬運多個物體。然而,在生活中,工具的使用和構(gòu)造對于機器人通常是較為困難的問題。

          對于工具的使用,一方面,相同工具在不同任務(wù)中的使用方法不同。例如,直接使用向下的力可以用于切斷偏向剛體的物體,但為了切斷可變形物體,額外施加前后的力來“鋸”也是必不可少的。另一方面,相同工具在同一任務(wù)的不同階段可能存在不同的使用方式。例如,在墻上釘釘子時,初始時可能采用靠前的握持位置和較小的揮動幅度,以將釘子初步固定,在后期采用更靠后的握持位置和更大的揮動幅度,以此用更大的力使釘子沒入墻壁。

          對于工具的構(gòu)造,一方面,物體的某一屬性可以使得物體能夠成為工具。例如,將書本的一個平面當作托盤。另一方面,面向具體任務(wù)時,依據(jù)單一屬性構(gòu)造的工具可能并不能滿足任務(wù)需求。例如,書本可以作為托盤用于運輸水果,但用于運輸盛滿水的茶杯可能并不是好的選擇。

          3.1.2 面向任務(wù)的物體替換

          智能機器人面臨的另一個較大的難題是面向任務(wù)的物體替換,這主要是由于訓(xùn)練數(shù)據(jù)中難以覆蓋千變?nèi)f化的工作環(huán)境。智能體規(guī)劃結(jié)果中涉及的物體在實際工作環(huán)境中可能并不存在,這是極有可能發(fā)生的問題。然而如何判定物體間相似性,并以此選擇替換物品是較為困難的問題。這與當前人工智能中通常采用外形特征判定相似性不同,通常還與具體任務(wù)相關(guān),并且需要滿足一些約定俗成的習(xí)慣。例如,在廚房里,有時候鹽和醬油可以互相替換,有時候醬油又和醋相互替換;但是,即便冰糖和水果糖再相似,后者也很少出現(xiàn)在廚房里作為前者的替代品。

          3.1.3 用戶個性化定制

          用戶的個性化定制,可視為智能體對用戶偏好的自適應(yīng)。在今天,大部分應(yīng)用都包含用戶個性化推薦的功能,對于直接用于滿足用戶需求的智能機器人,智能體決策中考慮用戶偏好,以提升用戶體驗,也是必然的發(fā)展方向。然而,個體的偏好通常是較難學(xué)習(xí)的。一個原因是人類對于偏好的表達較為復(fù)雜,多次的物體交互并不直接表示對于該物體的喜好,還與交互類型和交互意圖相關(guān)。例如,某本書通常用來墊桌角或當桌墊,盡管多次交互,但偏好仍然是負向的,這使得智能體做出將這本書放在書架上,或者用其他的書來作為桌墊都是錯誤的行為,但相同作者的其他書被同樣對待也許是正確的。

          3.2 應(yīng)用前景

          由于無任務(wù)學(xué)習(xí)降低了智能體對數(shù)據(jù)的要求,結(jié)合真實場景 - 虛擬場景 - 真實場景框架,可以利用探索數(shù)據(jù)在虛擬場景中高效學(xué)習(xí),并在真實場景中驗證,利用反饋信息逐步調(diào)整,以實現(xiàn)已學(xué)習(xí)知識與具體工作環(huán)境的適配。在生產(chǎn)方面,可以替代人在危險作業(yè)區(qū)域作業(yè),如煤礦、野外等;在生活方面,可用于家用機器人對居家環(huán)境的探索和物體屬性的學(xué)習(xí),以便于知識遷移完成具體任務(wù)。

          結(jié)束語


          本文提出了無任務(wù)學(xué)習(xí)方法,介紹了無任務(wù)學(xué)習(xí)的定義以及與現(xiàn)有方法的區(qū)別與聯(lián)系,并介紹了其在機器人任務(wù)和運動規(guī)劃中的應(yīng)用,最后,展望了未來可能的發(fā)展方向和實際應(yīng)用前景。期待智能機器人的進一步發(fā)展,早日便捷人們的生活。


          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級應(yīng)用
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          瀏覽 43
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  A∨在线视频 | 亚洲无码家庭乱伦 | 美女高潮水视频 | 九九九九精品在线 | 一区二区三区四区在线 |