DeepMind具身智能“足球運動員”登Science Robotics?封面
共 4007字,需瀏覽 9分鐘
·
2024-04-19 03:03
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自機器人大講堂
近日,Google DeepMind發(fā)表了一項突破性的研究成果,該公司利用深度強化學(xué)習(xí)方法,成功訓(xùn)練出了一個能夠在簡化版1v1足球比賽中靈活運動、高效進(jìn)攻防守的 “足球運動員”機器人。這一研究不僅讓雙足機器人在動作技能上有了大幅提升,更為開發(fā)通用智能體邁出了關(guān)鍵一步!相關(guān)研究論文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”為題,以封面文章的形式已發(fā)表在 Science 子刊 Science Robotics 上。
端到端強化學(xué)習(xí),掌握多項運動技能
與傳統(tǒng)的機器人控制方法不同,DeepMind采用了端到端的深度強化學(xué)習(xí)范式來訓(xùn)練機器人。這種方法不需要人工設(shè)計具體的動作指令,而是讓智能體通過不斷與環(huán)境互動、獲得獎勵反饋來自主學(xué)習(xí)最優(yōu)策略。
具體來說,研究人員將訓(xùn)練過程分為兩個階段。第一階段聚焦于基本運動技能的習(xí)得,包括從地面站立起身、在面對未經(jīng)訓(xùn)練的對手時進(jìn)球得分等。第二階段則是在完整的1v1足球賽中綜合運用這些技能,并根據(jù)比賽形勢進(jìn)一步優(yōu)化策略。值得一提的是,第二階段還融入了自我對弈的訓(xùn)練方式,即機器人隨機與自身在此前不同訓(xùn)練階段的狀態(tài)進(jìn)行對抗。這使得機器人學(xué)會了根據(jù)場上形勢調(diào)整策略,預(yù)判和應(yīng)對對手的行為。
通過這樣的分階段訓(xùn)練,機器人最終掌握了行走、轉(zhuǎn)彎、踢球、快速起身等多項不同粒度的運動技能,并能在實戰(zhàn)中靈活切換。當(dāng)快速奔跑時,機器人的步態(tài)與慢走時明顯不同;當(dāng)需要護(hù)球或攔截時,它會采取與射門時不一樣的姿態(tài)。這些豐富的動作變化本質(zhì)上源自端到端范式下智能體對環(huán)境的連續(xù)自適應(yīng)過程。
大幅超越傳統(tǒng)機器人控制方法
為了定量評估學(xué)習(xí)策略的性能,研究人員將其與傳統(tǒng)的腳本化控制器進(jìn)行了橫向比較。他們設(shè)計了行走速度、轉(zhuǎn)彎速度、起身時間、踢球速度等一系列指標(biāo)。結(jié)果顯示,在所有這些指標(biāo)上,學(xué)習(xí)所得的策略都取得了顯著優(yōu)勢:
行走速度:提高181%,達(dá)到腳本化控制器的2.81倍
轉(zhuǎn)彎速度:提高302%,達(dá)到腳本化控制器的4.02倍
起身時間:縮短63%,僅為腳本化控制器的37%
踢球速度:提高34%,為腳本化控制器的1.34倍
這些數(shù)據(jù)有力地證明了端到端強化學(xué)習(xí)范式在機器人運動控制領(lǐng)域的優(yōu)越性。學(xué)習(xí)所得的策略不僅在動作效率上全面超越了傳統(tǒng)方法,而且展現(xiàn)出了更強的靈活性和魯棒性。比如面對突發(fā)的摔倒,學(xué)習(xí)策略能迅速做出保護(hù)和恢復(fù)的應(yīng)急反應(yīng),而不是像腳本控制那樣呆滯地躺在地上。
從模擬到現(xiàn)實的"零次學(xué)習(xí)"遷移
值得一提的是,盡管機器人的訓(xùn)練完全在模擬環(huán)境中進(jìn)行,但學(xué)習(xí)所得的策略可以直接"零次遷移"到真實機器人平臺上,中間無需任何人工調(diào)優(yōu)。這得益于研究人員在模擬訓(xùn)練中采取的一系列領(lǐng)域隨機化和數(shù)據(jù)增強技術(shù),旨在最小化模擬與真實環(huán)境之間的差異。
在真實環(huán)境中的系統(tǒng)測試進(jìn)一步驗證了該方法的有效性。以機器人靜止時用右腳射門為例,在模擬環(huán)境中的成功率為100%,而在真實環(huán)境中依然高達(dá)87.5%。雖然現(xiàn)實世界的復(fù)雜性不可避免地帶來了一定程度的性能損失,但在絕大多數(shù)典型的足球測試場景下,真實機器人的成功率均在70%以上。這充分證實了該學(xué)習(xí)方法的實用潛力,有望在實際應(yīng)用中取得良好的魯棒性和泛化性能。
連貫而靈活地切換不同動作模式
研究人員之所以選擇端到端強化學(xué)習(xí)范式,一個重要原因就是希望學(xué)到一個能連貫而靈活地在不同動作模式間切換的策略。為了直觀展示學(xué)習(xí)策略的這一特性,,他們借鑒了分析動物運動的方法,將機器人的20維關(guān)節(jié)運動在低維空間中可視化。
通過對比學(xué)習(xí)策略與腳本化控制器的嵌入空間軌跡,可以清晰地看到兩者的區(qū)別:腳本化控制往往基于特定頻率的正弦型軌跡,因此在嵌入空間中形成簡單的閉合曲線。學(xué)習(xí)策略的軌跡則呈現(xiàn)出更多變化。不同步態(tài)之間的過渡不再突兀,而是形成了一條連續(xù)的"絲帶"。同時,不同的動作模式(如慢走、快跑、踢球、起身等)在嵌入空間中形成了獨特的簇結(jié)構(gòu)。
當(dāng)在1v1足球賽中長時間運行時,學(xué)習(xí)策略在動作空間中劃出了一個包含多個亞循環(huán)的復(fù)雜軌跡。這表明該策略能根據(jù)復(fù)雜多變的比賽形勢,在各種動作模式間靈活調(diào)度、動態(tài)切換,由此產(chǎn)生了宏觀上的整體協(xié)調(diào)和高度適應(yīng)性。
邁向通用智能體的堅實一步
綜上所述,DeepMind的這一研究工作充分展示了端到端深度強化學(xué)習(xí)在機器人領(lǐng)域的巨大潛力。它不僅在單項運動技能的效率、靈活性上實現(xiàn)了大幅躍升,更為實現(xiàn)多個復(fù)雜技能的流暢整合、策略層面的動態(tài)調(diào)控打開了新的可能性。盡管離參加人機世界杯還有很長的路要走,但這項突破無疑為開發(fā)多任務(wù)、多場景下的高性能通用機器人邁出了關(guān)鍵一步。展望未來,類似"自我蒸餾"式的端到端學(xué)習(xí)范式有望成為通用智能體研發(fā)的有力工具,并在工業(yè)、服務(wù)、救援等領(lǐng)域得到廣泛應(yīng)用,推動人工智能事業(yè)的進(jìn)一步發(fā)展。
對未來機器人和人工智能的展望
DeepMind此次利用強化學(xué)習(xí)成功訓(xùn)練出靈活高效的雙足足球機器人,可以說是向著通用人工智能邁進(jìn)的重要里程碑。它不僅在機器人領(lǐng)域展現(xiàn)了深度學(xué)習(xí)的強大潛力,也為其他需要復(fù)雜序貫決策的智能任務(wù)提供了新的思路。
未來,類似的端到端學(xué)習(xí)范式有望在更多實際場景中得到應(yīng)用。比如在工業(yè)領(lǐng)域,我們可以期待機器人能像人一樣靈活操縱工件、適應(yīng)多變的生產(chǎn)需求;在家庭服務(wù)領(lǐng)域,老人和兒童的陪護(hù)機器人或?qū)⒕邆涓匀坏纳缃换幽芰?;在危險環(huán)境勘察、搜救等任務(wù)中,高度靈活自主的機器人助手將大大提高任務(wù)效率和安全性。
當(dāng)然,當(dāng)前的研究還主要局限在相對單一和結(jié)構(gòu)化的環(huán)境中。未來要實現(xiàn)在開放環(huán)境下多任務(wù)、多場景、長時序的自主學(xué)習(xí),還面臨諸多挑戰(zhàn):
其一,現(xiàn)實世界遠(yuǎn)比實驗環(huán)境復(fù)雜,存在大量的不確定性、稀疏回報等"困難樣本",對學(xué)習(xí)算法的采樣效率和泛化能力提出了更高要求。如何在有限的實際互動中學(xué)到魯棒、高效的策略將是關(guān)鍵研究方向。
其二,要實現(xiàn)多個復(fù)雜技能的流暢整合,可能需要發(fā)展多尺度、多層次的時空抽象機制。這涉及如何平衡局部精細(xì)控制與全局宏觀規(guī)劃,以及如何實現(xiàn)反饋控制、運動規(guī)劃、概念推理等不同認(rèn)知模塊的協(xié)同。
其三,機器人在實際應(yīng)用中還面臨一系列硬件約束,比如能耗、算力、成本等。這就要求學(xué)習(xí)算法能充分利用有限資源,甚至主動探索硬件結(jié)構(gòu)與控制策略的協(xié)同優(yōu)化。
此外,隨著機器人等智能系統(tǒng)走向開放環(huán)境,安全性和倫理問題也日益凸顯。如何建立行為準(zhǔn)則,避免意外傷害、誤用濫用將是一個重要議題。這可能需要從算法層面引入安全防護(hù)和價值引導(dǎo),確保智能體在學(xué)習(xí)過程中始終遵循人類的意圖。
盡管挑戰(zhàn)不少,但人工智能和機器人技術(shù)正在快速發(fā)展。DeepMind的這項工作無疑為通用智能系統(tǒng)的實現(xiàn)開辟了廣闊前景。未來,人形機器人也許真的能成為人類生活和工作中的得力助手,并由此引發(fā)社會范式的深刻變革。我們期待在不遠(yuǎn)的將來,能有更多突破性的進(jìn)展出現(xiàn),共同推動人工智能事業(yè)的蓬勃發(fā)展。
