<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          空中懸停、翻滾轉(zhuǎn)身、成功著陸,我用強(qiáng)化學(xué)習(xí)「回收」了SpaceX的火箭

          共 3612字,需瀏覽 8分鐘

           ·

          2021-11-18 23:15

          視學(xué)算法報(bào)道
          編輯:杜偉、陳萍

          我自己造了個(gè)「火箭」,還把它回收了。


          SpaceX 作為一家太空探索技術(shù)公司是美國(guó)一家民營(yíng)航天制造商和太空運(yùn)輸公司,由伊隆 · 馬斯克于 2002 年創(chuàng)辦,目標(biāo)是降低太空運(yùn)輸?shù)某杀荆⑦M(jìn)行火星探索。SpaceX 成立近 20 年以來(lái),吸引了無(wú)數(shù)的火箭愛好者。

          對(duì)于個(gè)人來(lái)說(shuō),怎樣實(shí)現(xiàn)這個(gè)火箭夢(mèng)呢?據(jù)了解,SpaceX 制造一枚獵鷹 9 號(hào)的費(fèi)用實(shí)際在 3040 萬(wàn)美元左右。對(duì)于個(gè)人來(lái)說(shuō),這個(gè)費(fèi)用簡(jiǎn)直是天方夜譚,更別說(shuō)涉及到的技術(shù)等問題了。

          有困難就要想辦法解決,作為 SpaceX 的超級(jí)粉絲,來(lái)自密歇根大學(xué)安娜堡分校的博士后研究員 Zhengxia Zou 也是個(gè)火箭迷,一直夢(mèng)想擁有自己的火箭。最近,他研究了一個(gè)有趣的問題,即我們是否可以「建造」一個(gè)虛擬火箭,并通過(guò)強(qiáng)化學(xué)習(xí)解決火箭回收這個(gè)具有挑戰(zhàn)性的問題。在實(shí)驗(yàn)中,Zou 嘗試了關(guān)于火箭懸停和降落的兩個(gè)任務(wù)。

          由于這是 Zou 的第一個(gè)強(qiáng)化學(xué)習(xí)項(xiàng)目,包括環(huán)境、火箭動(dòng)力學(xué)、RL 智能體等,Zou 表示盡量從頭開始實(shí)現(xiàn)所有內(nèi)容,并希望通過(guò)這些底層的編碼,能夠?qū)?qiáng)化學(xué)習(xí)有更深入的了解,包括基礎(chǔ)算法,智能體與環(huán)境的交互,以及獎(jiǎng)勵(lì)的設(shè)計(jì)。


          • ?項(xiàng)目主頁(yè):https://jiupinjia.github.io/rocket-recycling/

          • GitHub 地址:https://github.com/jiupinjia/rocket-recycling


          不過(guò)對(duì)于這個(gè)項(xiàng)目,也有網(wǎng)友提出質(zhì)疑:「如果我們能夠用經(jīng)典的控制方法來(lái)完成這項(xiàng)任務(wù),為什么在 SpaceX 之前沒有人做過(guò)呢?」對(duì)于這一質(zhì)疑,有網(wǎng)友表示:「SpaceX 沒有使用強(qiáng)化學(xué)習(xí),他們使用論文《 Lossless Convexification of Nonconvex Control Bound and Pointing Constraints of the Soft Landing Optimal Control Problem 》中的方法來(lái)解決火箭著陸問題,性能優(yōu)于 RL。」


          實(shí)現(xiàn)懸停和降落的智能體以及環(huán)境

          Zou 嘗試了懸停和降落這兩個(gè)任務(wù)。如下圖所示,火箭被簡(jiǎn)化成二維平面上的剛體,并且考慮了基本圓柱體動(dòng)力學(xué)模型,并假設(shè)空氣阻力與速度成正比。火箭底部安裝了一個(gè)推力矢量發(fā)動(dòng)機(jī),該發(fā)動(dòng)機(jī)為火箭提供不同方向的推力值 (0.2g, 1.0g, 2.0g)。噴嘴添加角速度約束,角速度最大旋轉(zhuǎn)速度為 30 度 / 秒。

          通過(guò)上述基本設(shè)置,動(dòng)作空間(action space)被定義為發(fā)動(dòng)機(jī)離散控制信號(hào)的集合,包括噴管的推力加速度和角速度。狀態(tài)空間(state-space)由火箭位置、速度、角度、角速度、噴嘴角度和模擬時(shí)間組成。


          對(duì)于著陸任務(wù),Zou 遵循了 Starship SN10 的 Belly Flop 式降落(腹部朝下的翻轉(zhuǎn)動(dòng)作以實(shí)現(xiàn)空中轉(zhuǎn)身)的基本參數(shù)。初始速度設(shè)置為 - 50m/s,火箭方向設(shè)置為 90 度(水平),著陸 burn height 設(shè)置為離地 500 米。

          ?圖源:https://twitter.com/thejackbeyer/status/1367364251233497095

          獎(jiǎng)勵(lì)函數(shù)非常簡(jiǎn)單。

          對(duì)于懸停任務(wù):基于兩個(gè)規(guī)則給出 step-reward:1)火箭與預(yù)定義目標(biāo)點(diǎn)之間的距離——它們?cè)浇峙涞莫?jiǎng)勵(lì)越大;2)火箭機(jī)身的角度(盡量保持直立)。

          對(duì)于著陸任務(wù):觀察看觸地瞬間的速度和角度——當(dāng)觸地速度小于安全閾值并且角度接近 0 度(直立)時(shí),則認(rèn)為它是成功著陸并獲得豐厚獎(jiǎng)勵(lì)。其余規(guī)則與懸停任務(wù)相同。

          除了進(jìn)行上述任務(wù)外,有網(wǎng)友表示,「希望將燃料的研究也納入進(jìn)來(lái),燃料的有效使用是火箭技術(shù)的主要關(guān)注點(diǎn),因此看到有效著陸?yīng)剟?lì)將是一件好事。開始時(shí)火箭有給定的燃料量,剩余的燃料量成為學(xué)習(xí)者的另一個(gè)信號(hào)——既用于控制也作為獎(jiǎng)勵(lì)。」


          實(shí)現(xiàn)效果

          Zou 實(shí)現(xiàn)了上述環(huán)境,并且訓(xùn)練了一個(gè)基于策略的智能體(actor-critic)來(lái)解決這個(gè)問題。在超過(guò) 20,000 個(gè)訓(xùn)練 episodes 之后,episode 獎(jiǎng)勵(lì)最終收斂地非常好。

          下圖左為懸停任務(wù)上不同訓(xùn)練 episode 數(shù)量時(shí)的獎(jiǎng)勵(lì);圖右為著陸任務(wù)上不同 episode 數(shù)量時(shí)的獎(jiǎng)勵(lì)。


          以下幾個(gè)動(dòng)圖分別展示了經(jīng)過(guò)不同訓(xùn)練 episode 后學(xué)習(xí)到的 RL 行為:

          左:訓(xùn)練 episode 為 0(隨機(jī)智能體),右:訓(xùn)練 episode 為 100。

          左:訓(xùn)練 episode 為 2,000,右:訓(xùn)練 episode 為 10,000。

          20,000 個(gè)訓(xùn)練 episode 之后,左:執(zhí)行懸停任務(wù)的完全訓(xùn)練智能體,右:執(zhí)行著陸任務(wù)的完全訓(xùn)練智能體。

          與 SN10 著陸的動(dòng)效對(duì)比

          盡管環(huán)境和獎(jiǎng)勵(lì)的設(shè)置很簡(jiǎn)單,但經(jīng)過(guò)訓(xùn)練的智能體已經(jīng)很好地學(xué)會(huì)了 Belly Flop 式降落。

          如下動(dòng)圖展示了真實(shí)的 Starship SN10 和從強(qiáng)化學(xué)習(xí)中學(xué)到的智能體在著陸時(shí)的比較:

          ?
          智能體訓(xùn)練與測(cè)試

          訓(xùn)練智能體,需要./example_train.py。

          測(cè)試智能體的流程如下:

          import torchfrom rocket import Rocketfrom policy import ActorCriticimport osimport glob
          # Decide which device we want to run ondevice = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
          if __name__ == '__main__':
          task = 'hover' # 'hover' or 'landing' max_steps = 800????ckpt_dir?=?glob.glob(os.path.join(task+'_ckpt',?'*.pt'))[-1]??#?last?ckpt env = Rocket(task=task, max_steps=max_steps) net = ActorCritic(input_dim=env.state_dims, output_dim=env.action_dims).to(device) if os.path.exists(ckpt_dir): checkpoint = torch.load(ckpt_dir) net.load_state_dict(checkpoint['model_G_state_dict'])
          state = env.reset() for step_id in range(max_steps): action, log_prob, value = net.get_action(state) state, reward, done, _ = env.step(action) env.render(window_name='test') if env.already_crash: break

          作者簡(jiǎn)介

          項(xiàng)目作者 Zhengxia Zou 現(xiàn)為密歇根大學(xué)安娜堡分校的博士后研究員,此前先后于 2013 年和 2018 年取得北京航空航天大學(xué)的學(xué)士和博士學(xué)位。他的主要研究興趣包括計(jì)算機(jī)視覺及其在遙感、自動(dòng)駕駛汽車和電子游戲等領(lǐng)域的相關(guān)應(yīng)用。


          谷歌學(xué)術(shù)主頁(yè):https://scholar.google.com/citations?user=DzwoyZsAAAAJ&hl=en

          Zhengxia Zou 參與撰寫的論文被 AAAI、CVPR、ICCV、IJCAI、ACM MM 等多個(gè)學(xué)術(shù)頂會(huì)接收。他還曾擔(dān)任 NeurIPS、AAAI、ACCV 和 WACV 等多個(gè)學(xué)術(shù)會(huì)議的程序委員,以及 ICLR 會(huì)議及 IEEE Transactions on Image Processing 等多份期刊的審稿人。

          參考鏈接:
          https://www.reddit.com/r/MachineLearning/comments/qt2tws/pr_rocketrecycling_with_reinforcement_learning/

          ??THE END?

          轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)獲得授權(quán)

          投稿或?qū)で髨?bào)道:[email protected]


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 35
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩无码AV电影 | av乱伦网址 | 国产精品一级无码免费播放 | 超碰免费青娱乐 | 亚洲AV蜜桃永久无码精品XXX |