免费看片18禁,爱爱免费不卡视频,亚洲精品无码电影,日本和韩国的黄色一级视频,日p视频欧美,蜜臀久久99精品久久久久酒店,91AV短视频,日本免费版网站nba

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自中國人工智能學(xué)會

作者：張憲琦，范曉鵬

摘要：

本文提出了無任務(wù)學(xué)習(xí)的方法，闡述了其與現(xiàn)有方法（包括自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、模仿學(xué)習(xí)、強化學(xué)習(xí)）的區(qū)別與聯(lián)系；然后，介紹了無任務(wù)學(xué)習(xí)在機器人任務(wù)和運動規(guī)劃領(lǐng)域的應(yīng)用，并分析了無任務(wù)學(xué)習(xí)在該領(lǐng)域的優(yōu)勢和主要研究難點。最后，對無任務(wù)學(xué)習(xí)在機器人領(lǐng)域的發(fā)展，以及在生產(chǎn)生活中的應(yīng)用前景進行了展望。

關(guān)鍵詞：

無任務(wù)學(xué)習(xí)；任務(wù)和運動規(guī)劃；機器人；人工智能

引言

1961 年，第一臺工業(yè)機器人 Unimate 出現(xiàn)在通用汽車的產(chǎn)線上，自此，機器人在工業(yè)生產(chǎn)領(lǐng)域蓬勃發(fā)展。相比之下，家用機器人的發(fā)展卻不盡如人意，1921 年的舞臺劇中為羅素姆服務(wù)的萬能機器人，在 100 年后的今天仍未能實現(xiàn)。相比工業(yè)機器人，家用機器人需要更強的智能，相關(guān)研究也面臨更多的困難，例如意圖識別、工具的使用和構(gòu)造、面向任務(wù)的物體替換、用戶個性化定制等。近年來，智能決策、大語言模型等人工智能技術(shù)飛速發(fā)展，使得實現(xiàn)擁有類人智能的機器人逐漸成為可能。

目前，用于機器人智能決策的方法，主要可以分為強化學(xué)習(xí)和模仿學(xué)習(xí)兩類。強化學(xué)習(xí)方法需要設(shè)置任務(wù)相關(guān)的獎勵函數(shù)，以此引導(dǎo)智能體學(xué)習(xí)如何完成任務(wù)。相比之下，模仿學(xué)習(xí)讓智能體從預(yù)先收集的專家數(shù)據(jù)中學(xué)習(xí)知識，模仿專家的行為（行為克?。?，或根據(jù)專家行為來學(xué)習(xí)一個合理的獎勵函數(shù)（逆強化學(xué)習(xí)）。然而，這兩種方法仍存在一些缺點，如設(shè)置任務(wù)相關(guān)的獎勵函數(shù)通常使得模型泛化性能較差，收集專家數(shù)據(jù)成本較高。為此，我們提出一種新的學(xué)習(xí)方法，稱為無任務(wù)學(xué)習(xí)（taskagnostic learning）。

無任務(wù)學(xué)習(xí)的提出，主要基于人類所學(xué)知識的碎片性和無目的性。知識的碎片性表現(xiàn)在完成具體任務(wù)所需的知識，通常不是連貫且完整學(xué)習(xí)的。一次性學(xué)習(xí)任務(wù)相關(guān)的所有知識后再去完成任務(wù)，在生活中并不常見，而是在生活中不斷積累，在面向具體任務(wù)時篩選整合碎片化知識來完成任務(wù)（可能還需要學(xué)習(xí)部分任務(wù)相關(guān)的新知識）。例如，我們很早以前就知道如何打開一扇門和如何擺放一個杯子，那么對于把盤子放進冰箱的任務(wù)，只需要遷移并合并這些碎片知識就可以了。而無目的性則表現(xiàn)在很多知識的獲取并沒有具體目標，反而更傾向于在環(huán)境探索過程中的偶然性。例如，我們發(fā)現(xiàn)新買的杯子有點重，或者某個書簽有點割手，這些知識在面向具體任務(wù)時會突然變得很有用，比如可能突然想起來某個杯子可以用來壓住紙條以免它被風(fēng)吹走，又或是意識到某個割手的書簽用來拆快遞也許很合適。受到上述現(xiàn)象的啟發(fā)，我們提出無任務(wù)學(xué)習(xí)。另外，相比任務(wù)不敏感學(xué)習(xí)一類的稱呼，我們更傾向于稱為無任務(wù)學(xué)習(xí)，因為在知識的學(xué)習(xí)過程中，可能并沒有目的 / 任務(wù)。

在本文以下的內(nèi)容中，首先給出無任務(wù)學(xué)習(xí)的定義，以及與現(xiàn)有方法的區(qū)別與聯(lián)系；其次，介紹一種基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法，并討論在該研究領(lǐng)域中無任務(wù)學(xué)習(xí)的優(yōu)勢與難點；最后展望無任務(wù)學(xué)習(xí)的發(fā)展和應(yīng)用前景。

無任務(wù)學(xué)習(xí)

1.1 基本定義

如果一個學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù)完全是由與最終目標任務(wù)不直接相關(guān)的方法來收集的，且在解決最終任務(wù)時無需重復(fù)訓(xùn)練模型，我們將這種學(xué)習(xí)方式稱為無任務(wù)學(xué)習(xí)。同時，默認訓(xùn)練數(shù)據(jù)中包含能夠解決最終任務(wù)的碎片化知識。

具體到機器人相關(guān)的研究領(lǐng)域，如果環(huán)境探索方法與最終任務(wù)不直接相關(guān)，例如完全隨機的環(huán)境探索、新奇性引導(dǎo)的環(huán)境探索等，我們稱利用此類探索數(shù)據(jù)來引導(dǎo)智能體學(xué)習(xí)知識的方法為基于無任務(wù)學(xué)習(xí)的智能決策方法。

1.2 與現(xiàn)有方法的區(qū)別與聯(lián)系

自監(jiān)督學(xué)習(xí)（self-supervised learning）通常用于特征提取模型的預(yù)訓(xùn)練，通過自行設(shè)置數(shù)據(jù)標簽（即監(jiān)督信號）來完成自監(jiān)督學(xué)習(xí)。例如，用掩碼覆蓋圖像部分區(qū)域訓(xùn)練模型恢復(fù)圖像，或者將圖像切塊打亂后訓(xùn)練模型正確排列圖像塊等。這種方法更側(cè)重于使模型能夠更好地提取特征，可以作為輔助任務(wù)來提升模型性能，或作為預(yù)訓(xùn)練模型并針對下游任務(wù)微調(diào)以提升性能。相比之下，無任務(wù)學(xué)習(xí)更側(cè)重約束訓(xùn)練數(shù)據(jù)與測試任務(wù)的關(guān)系，而不強調(diào)訓(xùn)練數(shù)據(jù)的監(jiān)督信號是如何產(chǎn)生的，可以是由歷史任務(wù)相關(guān)信息來設(shè)置，也可以通過自監(jiān)督方法設(shè)置。

遷移學(xué)習(xí)（transfer learning）通過將源域?qū)W習(xí)到的知識遷移到目標域中，以減少模型對新任務(wù)（即目標域）的數(shù)據(jù)需求，并使模型在目標域任務(wù)上獲得更好的性能。這通常要求源域與目標域存在較強的關(guān)聯(lián)關(guān)系或相似性。這與無任務(wù)學(xué)習(xí)存在一定的相似性，即需要源域 / 訓(xùn)練數(shù)據(jù)中存在能夠解決目標域 / 目標任務(wù)的知識。但無任務(wù)學(xué)習(xí)更強調(diào)知識的碎片性，即整體訓(xùn)練數(shù)據(jù)中的任務(wù)可能與目標任務(wù)存在較大差別。

強化學(xué) 習(xí)（reinforcement learning，RL）通過設(shè)置獎勵函數(shù)來引導(dǎo)智能體探索環(huán)境和學(xué)習(xí)如何解決任務(wù)，近年來在很多領(lǐng)域取得了巨大成功，如AlphaGo。然而，設(shè)置任務(wù)相關(guān)的獎勵函數(shù)，通常需要任務(wù)相關(guān)的專業(yè)知識，并且使得智能體泛化性能不佳。一個與無任務(wù)學(xué)習(xí)較為相關(guān)的分支是目標導(dǎo)向的強化學(xué)習(xí)，相比傳統(tǒng)強化學(xué)習(xí)，額外增加目標作為輸入，使得智能體能夠完成多任務(wù)，然而它仍然需要設(shè)置目標相關(guān)的獎勵函數(shù)。此外，近年來有很多學(xué)者提出自監(jiān)督強化學(xué)習(xí)，然而這些方法通常是采用自監(jiān)督方法來提取狀態(tài)特征，或?qū)⑵渑c獎勵函數(shù)的設(shè)置相結(jié)合，完全摒棄任務(wù)相關(guān)的獎勵函數(shù)，目前仍是十分困難的，使其與無任務(wù)學(xué)習(xí)存在根本差別。

模仿學(xué)習(xí)（imitation learning，IL）需要收集大量專家數(shù)據(jù)用于智能體訓(xùn)練。智能體可以監(jiān)督學(xué)習(xí)的方式訓(xùn)練智能體模仿專家行為（行為克?。?，或者從專家演示中學(xué)習(xí)一個良好的獎勵函數(shù)（逆強化學(xué)習(xí)）。此外，還有很多工作將其與生成對抗的思想相結(jié)合（生成對抗模仿學(xué)習(xí)）。然而，專家數(shù)據(jù)通常是對具體任務(wù)的演示，這與無任務(wù)學(xué)習(xí)對訓(xùn)練數(shù)據(jù)的要求是完全不同的。目前，有部分工作利用與目標任務(wù)不直接相關(guān)的數(shù)據(jù)來輔助強化學(xué)習(xí)和模仿學(xué)習(xí)來訓(xùn)練智能體，但仍將該類數(shù)據(jù)作為次要輔助。

無任務(wù)學(xué)習(xí)在機器人任務(wù)和運動規(guī)劃中的應(yīng)用

2.1 基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法

本小節(jié)主要介紹基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃方法，其主要框架如圖 1 所示。

圖 1 基于無任務(wù)學(xué)習(xí)的機器人任務(wù)和運動規(guī)劃

2.1.1 場景重建和理解

我們選擇真實場景 - 虛擬場景 - 真實場景的架構(gòu)（real to simulation to real，Real2Sim2Real）來進行機器人任務(wù)和運動規(guī)劃（task and motion planning，TAMP），即通過三維重建和場景信息估計等技術(shù)將真實場景信息在虛擬場景（即物理模擬器）中重建，在虛擬場景中完成決策后，在真實場景中執(zhí)行被選擇的動作。為了完成 Real2Sim 的轉(zhuǎn)換，采用基于深度圖的三維重建方法，而物體屬性（大小、材質(zhì)等）則通過相關(guān)的人工智能方法估測。常用機器人和由于構(gòu)建虛擬場景的物理模擬器，如圖 2 所示。

圖 2 常用機器人和物理模擬器

2.1.2 環(huán)境探索

為了使智能體理解不同動作在環(huán)境中與物體交互產(chǎn)生的效果（action effect）、直觀物理（intuitive physics）等信息，需要在環(huán)境中執(zhí)行不同的動作來收集數(shù)據(jù)，以便于后期智能體學(xué)習(xí)。環(huán)境探索方法采用與任務(wù)目標不直接相關(guān)的方式進行，以模擬人在日常生活中與環(huán)境的交互方式。探索方法可采用隨機探索、新奇性引導(dǎo)的環(huán)境探索或者其他與任務(wù)不直接相關(guān)的內(nèi)在獎勵（intrinsic reward）驅(qū)動的探索方法。數(shù)據(jù)保存為 […，狀態(tài) i，動作 i，狀態(tài) i+1，…]，包含用于解決下游任務(wù)的碎片化知識。對于機器人動作執(zhí)行，我們默認采用機器人運動學(xué)和動力學(xué)（kinematics and dynamics）解決相關(guān)問題，并且不對控制方法做額外要求（采用運動控制、力控制或混合控制等方式，與具體問題相關(guān)）。

2.1.3 知識學(xué)習(xí)

對物體屬性和功能的學(xué)習(xí)、對客觀規(guī)律的總結(jié)抽象、對動作執(zhí)行結(jié)果預(yù)判等能力是人類智能的核心，也是人工智能要解決的關(guān)鍵問題。知識可以分類為低層知識和高層知識，其中低層知識與具體環(huán)境相關(guān)，主要涉及場景理解（scene understanding）等研究領(lǐng)域，即在當前環(huán)境中，機器人采用不同動作與物體交互時產(chǎn)生的結(jié)果；高層知識僅與物體類別等屬性相關(guān)，主要涉及物體功能學(xué)習(xí)（functional and affordance reasoning）、工具的使用（tool use）、物理規(guī)律（physics/ intuitive physics）、因果推理（causality）等研究領(lǐng)域。針對低層知識的學(xué)習(xí)，我們將當前場景中物體信息直接作為神經(jīng)網(wǎng)絡(luò)模型的輸入，而針對高層知識，可以提取物體類別、形狀、材質(zhì)等信息作為神經(jīng)網(wǎng)絡(luò)模型的輸入。

與動作執(zhí)行效果相關(guān)的知識對于后續(xù)任務(wù)和運動規(guī)劃是十分必要的，為了學(xué)習(xí)此類知識，一個簡單的方法是將任務(wù)執(zhí)行前后的物體狀態(tài)與相應(yīng)的動作輸入神經(jīng)網(wǎng)絡(luò)中，將提取的特征信息作為對應(yīng)動作執(zhí)行效果。為了使提取到的動作效果特征更準確，可能還需要額外的約束，例如，相同動作對應(yīng)特征盡可能相似。在某些情況下，動作效果特征與物體特征的結(jié)合，可作為碎片知識，可以通過組合來完成具體任務(wù)。當然，碎片知識的表示也可以采用其他知識表示方式。

2.1.4 任務(wù)和運動規(guī)劃

任務(wù)和運動規(guī)劃中，任務(wù)規(guī)劃將一個目標任務(wù)分解為多個子任務(wù)，這與人類不斷將復(fù)雜問題簡化為多個簡單子問題來解決的情況相似；而運動規(guī)劃則解決機器人實際運動時從一個開始狀態(tài)到終止狀態(tài)的問題，需要滿足無碰撞、符合具體機器人關(guān)節(jié)力矩和位姿限制等約束條件。由于任務(wù)規(guī)劃只關(guān)注離散的任務(wù)空間，且通常不考慮現(xiàn)實環(huán)境和機器人硬件實現(xiàn)，因此可能存在子任務(wù)難以完成的情況。為此，近年來很多學(xué)者將兩者相結(jié)合，利用一個規(guī)劃器來同時考慮任務(wù)和運動規(guī)劃兩部分。

為了將無任務(wù)學(xué)習(xí)應(yīng)用于任務(wù)和運動規(guī)劃問題，一種任務(wù)分解方法是將當前環(huán)境狀態(tài)和具體任務(wù)信息作為神經(jīng)網(wǎng)絡(luò)輸入，將模型輸出作為子任務(wù)，同時，約束子任務(wù)特征可以由某些碎片知識合成。通過子任務(wù)特征和已學(xué)習(xí)的碎片知識特征，篩選合適的碎片知識用于完成任務(wù)。而針對機器人運動規(guī)劃問題，可以利用已保存的探索數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決，類似目標導(dǎo)向的強化學(xué)習(xí)方法，或采用其他傳統(tǒng)方法，如網(wǎng)格方法（grid methods）、虛擬勢場（virtual potential fields）等。

我們采用真實場景 - 虛擬場景 - 真實場景的框架來模擬人類思考方式，即大腦通過視覺等信息對真實場景進行重建，在大腦中思考并模擬動作結(jié)果后，最終選擇合適的動作在真實場景中執(zhí)行來完成任務(wù)。對應(yīng)的，首先利用深度攝像機獲取的深度圖像在虛擬環(huán)境中對真實場景重建；然后在虛擬場景中進行思考（規(guī)劃）；最后將思考結(jié)果（動作）在真實場景中執(zhí)行以獲得新的環(huán)境狀態(tài)，迭代思考和執(zhí)行直到任務(wù)完成。由于思考（規(guī)劃）在虛擬環(huán)境中進行，可生成多個思路（即動作序列），篩選最優(yōu)解在真實環(huán)境中執(zhí)行，這與蒙特卡洛樹搜索相似，但其模擬部分不是直接計算（例如圍棋等，可根據(jù)當前棋盤狀態(tài)和動作，直接計算下一個棋盤狀態(tài)）或由神經(jīng)網(wǎng)絡(luò)模型估測，而是采用虛擬環(huán)境（物理模擬器）模擬計算的。

2.2 優(yōu)勢與難點分析

采用無任務(wù)學(xué)習(xí)極大地降低了相關(guān)人工智能方法的數(shù)據(jù)需求，并促進了類人智能機器人的實現(xiàn)。在數(shù)據(jù)方面，由于無任務(wù)學(xué)習(xí)僅需要與任務(wù)不直接相關(guān)的探索數(shù)據(jù)，使得無需收集專家數(shù)據(jù)或設(shè)計可能需要較強領(lǐng)域經(jīng)驗的獎勵函數(shù)，極大地降低了數(shù)據(jù)成本。此外，由于與任務(wù)不直接相關(guān)的探索數(shù)據(jù)更容易獲取，使得智能體可以獲得更大規(guī)模的訓(xùn)練數(shù)據(jù)。無任務(wù)學(xué)習(xí)的一個難點是碎片化知識的學(xué)習(xí)和表示方法，以及面向具體任務(wù)時，碎片化知識的檢索和拼接。由于完全沒有專家數(shù)據(jù)或獎勵信息引導(dǎo)，使得碎片化知識的表示在面向不同環(huán)境和任務(wù)時，難以取得良好的泛化效果。一個可能的解決方法是將無任務(wù)學(xué)習(xí)與模仿學(xué)習(xí)相結(jié)合，通過少量的專家數(shù)據(jù)引導(dǎo)碎片化知識的提取和拼接，這種取長補短式的組合可能是更為合理的，類似人類的知識學(xué)習(xí)過程，一部分來自自身的探索和思考，另一部分來自父母師長的言傳身教。

未來展望

3.1 發(fā)展前景

下面介紹幾個可能與無任務(wù)學(xué)習(xí)相結(jié)合的研究領(lǐng)域，同時也對應(yīng)智能機器人的幾個亟待解決的問題。

3.1.1 工具的使用和構(gòu)造

相比于機器人與物體直接交互，工具使得機器人與物體間接交互。合適的工具可以使任務(wù)更容易完成，例如，使用箱子可以一次搬運多個物體。然而，在生活中，工具的使用和構(gòu)造對于機器人通常是較為困難的問題。

對于工具的使用，一方面，相同工具在不同任務(wù)中的使用方法不同。例如，直接使用向下的力可以用于切斷偏向剛體的物體，但為了切斷可變形物體，額外施加前后的力來“鋸”也是必不可少的。另一方面，相同工具在同一任務(wù)的不同階段可能存在不同的使用方式。例如，在墻上釘釘子時，初始時可能采用靠前的握持位置和較小的揮動幅度，以將釘子初步固定，在后期采用更靠后的握持位置和更大的揮動幅度，以此用更大的力使釘子沒入墻壁。

對于工具的構(gòu)造，一方面，物體的某一屬性可以使得物體能夠成為工具。例如，將書本的一個平面當作托盤。另一方面，面向具體任務(wù)時，依據(jù)單一屬性構(gòu)造的工具可能并不能滿足任務(wù)需求。例如，書本可以作為托盤用于運輸水果，但用于運輸盛滿水的茶杯可能并不是好的選擇。

3.1.2 面向任務(wù)的物體替換

智能機器人面臨的另一個較大的難題是面向任務(wù)的物體替換，這主要是由于訓(xùn)練數(shù)據(jù)中難以覆蓋千變?nèi)f化的工作環(huán)境。智能體規(guī)劃結(jié)果中涉及的物體在實際工作環(huán)境中可能并不存在，這是極有可能發(fā)生的問題。然而如何判定物體間相似性，并以此選擇替換物品是較為困難的問題。這與當前人工智能中通常采用外形特征判定相似性不同，通常還與具體任務(wù)相關(guān)，并且需要滿足一些約定俗成的習(xí)慣。例如，在廚房里，有時候鹽和醬油可以互相替換，有時候醬油又和醋相互替換；但是，即便冰糖和水果糖再相似，后者也很少出現(xiàn)在廚房里作為前者的替代品。

3.1.3 用戶個性化定制

用戶的個性化定制，可視為智能體對用戶偏好的自適應(yīng)。在今天，大部分應(yīng)用都包含用戶個性化推薦的功能，對于直接用于滿足用戶需求的智能機器人，智能體決策中考慮用戶偏好，以提升用戶體驗，也是必然的發(fā)展方向。然而，個體的偏好通常是較難學(xué)習(xí)的。一個原因是人類對于偏好的表達較為復(fù)雜，多次的物體交互并不直接表示對于該物體的喜好，還與交互類型和交互意圖相關(guān)。例如，某本書通常用來墊桌角或當桌墊，盡管多次交互，但偏好仍然是負向的，這使得智能體做出將這本書放在書架上，或者用其他的書來作為桌墊都是錯誤的行為，但相同作者的其他書被同樣對待也許是正確的。

3.2 應(yīng)用前景

由于無任務(wù)學(xué)習(xí)降低了智能體對數(shù)據(jù)的要求，結(jié)合真實場景 - 虛擬場景 - 真實場景框架，可以利用探索數(shù)據(jù)在虛擬場景中高效學(xué)習(xí)，并在真實場景中驗證，利用反饋信息逐步調(diào)整，以實現(xiàn)已學(xué)習(xí)知識與具體工作環(huán)境的適配。在生產(chǎn)方面，可以替代人在危險作業(yè)區(qū)域作業(yè)，如煤礦、野外等；在生活方面，可用于家用機器人對居家環(huán)境的探索和物體屬性的學(xué)習(xí)，以便于知識遷移完成具體任務(wù)。

結(jié)束語

本文提出了無任務(wù)學(xué)習(xí)方法，介紹了無任務(wù)學(xué)習(xí)的定義以及與現(xiàn)有方法的區(qū)別與聯(lián)系，并介紹了其在機器人任務(wù)和運動規(guī)劃中的應(yīng)用，最后，展望了未來可能的發(fā)展方向和實際應(yīng)用前景。期待智能機器人的進一步發(fā)展，早日便捷人們的生活。

租售GPU算力

租：4090/A800/H800/H100

售：現(xiàn)貨H100/H800

特別適合企業(yè)級應(yīng)用

掃碼了解詳情?

點「在看」的人都變好看了哦！

無任務(wù)學(xué)習(xí)及在機器人任務(wù)和運動規(guī)劃中的應(yīng)用