Code as Policies自然語言代碼生成系統(tǒng)
Code as Policies 是一種以機器人為中心的語言模型生成的程序在物理系統(tǒng)上執(zhí)行的表述。CaP 擴展了 PaLM-SayCan,使語言模型能夠通過通用 Python 代碼的完整表達來完成更復(fù)雜的機器人任務(wù)。通過 CaP,Google 建議使用語言模型,通過少量的提示來直接編寫機器人代碼。實驗證明,與直接學(xué)習(xí)機器人任務(wù)和輸出自然語言動作相比,CaP 輸出代碼表現(xiàn)更好。CaP 允許單一系統(tǒng)執(zhí)行各種復(fù)雜多樣的機器人任務(wù),而不需要特定的任務(wù)訓(xùn)練。
用于控制機器人的常見方法是用代碼對其進行編程,以檢測物體、移動執(zhí)行器的排序命令和反饋回路來指定機器人應(yīng)如何執(zhí)行任務(wù)。但為每項新任務(wù)重新編程的可能很耗時,而且需要領(lǐng)域的專業(yè)知識。
如果當(dāng)人們給出指令時,機器人可以自主地編寫自己的代碼與世界互動,那會怎樣?事實證明,最新一代的語言模型,如PaLM,能夠進行復(fù)雜的推理,而且還經(jīng)過了數(shù)百萬行代碼的訓(xùn)練??紤]到自然語言指令,目前的語言模型不僅能高度熟練地編寫通用代碼,而且還能編寫控制機器人動作的代碼。當(dāng)提供幾個示例指令與相應(yīng)的代碼(通過上下文學(xué)習(xí))配對時,語言模型可以接受新的指令,并自主地生成新的代碼,重新組合 API 調(diào)用,合成新的功能,并表達反饋回路,在運行時合成新的行為。更廣泛地說,這提出了一種將機器學(xué)習(xí)用于機器人的替代方法。
評論
圖片
表情
