強化學習:10種真實的獎勵與懲罰應用
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

在強化學習(Reinforcement Learning)中,對代理進行獎勵和懲罰機制的培訓。代理的正確行為會得到獎勵,而錯誤的行為會受到懲罰。在這樣做時,代理試圖將錯誤降到最低并將正確率提高。
?在本文中,我們將研究強化學習的一些實際應用。
?
在自動駕駛汽車中的應用
各種論文都提出了“深度強化學習用于自動駕駛”。在自動駕駛汽車中,要考慮很多方面,例如在各個地方的速度限制,可駕駛區(qū)域,避免碰撞。下面僅舉幾例。
可以應用強化學習的一些自動駕駛任務包括軌跡優(yōu)化,運動計劃,動態(tài)路徑,控制器優(yōu)化以及基于場景的高速公路學習策略。
例如,可以通過學習自動停車策略來實現(xiàn)停車。可以使用Q-Learning來實現(xiàn)車道變更,同時可以通過學習超車策略來實現(xiàn)超車,同時避免碰撞并保持穩(wěn)定的速度。
AWS DeepRacer是一款自動駕駛賽車,旨在在物理軌道上測試強化學習。它使用攝像頭將跑道可視化,并使用強化學習模型來控制油門和方向。?
Wayve.ai已成功地將強化學習應用于汽車的日常駕駛培訓。他們使用深度強化學習算法來解決車道跟蹤任務。他們的網(wǎng)絡架構是具有4個卷積層和3個完全連接層的深度網(wǎng)絡。
強化學習的行業(yè)自動化
在行業(yè)增強中,基于學習的機器人用于執(zhí)行各種任務。除了這些機器人比人類更有效的事實外,它們還可以執(zhí)行對人類危險的任務。
一個很好的例子是Deepmind使用AI代理來冷卻Google數(shù)據(jù)中心。這導致能源支出減少了40%。現(xiàn)在,這些中心已由AI系統(tǒng)完全控制,而無需人工干預。顯然,仍然有數(shù)據(jù)中心專家的監(jiān)督。該系統(tǒng)以以下方式工作:
每五分鐘從數(shù)據(jù)中心獲取數(shù)據(jù)快照,并將其提供給深度神經網(wǎng)絡
然后預測不同的組合將如何影響未來的能源消耗
確定將在保持設定的安全標準標準的同時將功耗降至最低的措施
在數(shù)據(jù)中心發(fā)送并執(zhí)行這些操作
?這些動作由本地控制系統(tǒng)驗證。
?

強化學習在貿易和金融中的應用
監(jiān)督時間序列模型可用于預測未來銷售以及預測股票價格。但是,這些模型無法確定要以特定股票價格采取的行動。輸入強化學習(RL)。強化學習代理可以決定執(zhí)行此任務;是否持有,購買或出售。強化學習模型使用市場基準標準進行評估,以確保其表現(xiàn)最佳。
這種自動化為流程帶來了一致性,這與以前的方法不同,以前的方法需要分析師做出每個決定。例如,IBM有一個復雜的基于強化學習的平臺,該平臺具有進行金融交易的能力。它基于每次金融交易的損失或利潤來計算獎勵函數(shù)。
?
NLP(自然語言處理)中的強化學習
在NLP中,僅舉幾例,RL可用于文本摘要,問題解答和機器翻譯。
Eunsol Choi,Daniel Hewlett和Jakob Uszkoreit提出了一種基于強化學習的方法來回答給定的長篇文章。他們的方法是通過首先從文檔中選擇一些與回答問題相關的句子來工作的。然后采用慢RNN來生成所選句子的答案。?
這篇文章將監(jiān)督學習和強化學習相結合,用于抽象概括文本摘要,由Romain Paulus,熊彩明和Richard Socher撰寫。他們的目標是解決在較長文檔中使用基于RNN的Attentional編碼器-解碼器模型時匯總中遇到的問題。此文提出了一種具有新穎的內部注意力的神經網(wǎng)絡,它可以參與輸入并連續(xù)不斷地單獨產生輸出。他們的訓練方法是標準的監(jiān)督單詞預測和強化學習的組合。(論文鏈接:https://arxiv.org/pdf/1705.04304.pdf?ref=hackernoon.com)
在機器翻譯方面,科羅拉多大學和馬里蘭大學的作者提出了一種基于強化學習的同步機器翻譯方法。這項工作的有趣之處在于,它能夠學習何時信任預測的單詞,并使用RL來確定何時等待更多輸入。?(論文鏈接:
http://users.umiacs.umd.edu/~jbg/docs/2014_emnlp_simtrans.pdf?ref=hackernoon.com)
斯坦福大學,俄亥俄州立大學和Microsoft Research的研究人員領先于Deep RL,用于對話生成。深度強化學習可用于在聊天機器人對話中為將來的獎勵建模。使用兩個虛擬代理模擬對話。策略梯度方法用于獎勵包含重要對話屬性(例如,連貫性,信息性和易于回答)的序列。(論文鏈接:https://arxiv.org/pdf/1606.01541.pdf?ref=hackernoon.com)

強化學習在醫(yī)療保健中的應用
在醫(yī)療保健方面,患者可以從強化學習系統(tǒng)學習到的政策中接受治療。強化學習可以使用以前的經驗來找到最佳策略,而無需有關生物系統(tǒng)數(shù)學模型的先前信息。它使該方法比醫(yī)療保健中其他基于控制的系統(tǒng)更適用。
醫(yī)療保健中的強化學習被歸類為慢性疾病或重癥監(jiān)護,自動醫(yī)療診斷和其他一般領域中的動態(tài)治療方案(DTR)。
在DTR中,輸入是對患者的一組臨床觀察和評估。輸出是每個階段的治療選項。這些類似于強化學習中的狀態(tài)。強化學習在DTR中的應用是有利的,因為它能夠確定與時間有關的決定,以便在特定時間為患者提供最佳治療。
在醫(yī)療保健中使用強化學習還可以通過考慮治療的延遲效果來改善長期結果。
強化學習也已用于發(fā)現(xiàn)和生成慢性疾病的最佳DTR。
強化學習在工程中的應用
在工程領域,F(xiàn)acebook開發(fā)了一個開源強化學習平臺Horizon。該平臺使用強化學習來優(yōu)化大規(guī)模生產系統(tǒng)。Facebook內部使用了Horizon:
個性化建議
向用戶傳遞更有意義的通知
優(yōu)化視頻流質量
Horizon還包含以下工作流程:
模擬環(huán)境
用于數(shù)據(jù)預處理的分布式平臺
培訓和導出生產中的模型
視頻顯示中強化學習的經典示例是根據(jù)視頻緩沖區(qū)的狀態(tài)和來自其他機器學習系統(tǒng)的估計,為用戶提供低或高比特率視頻。
Horizon能夠處理類似生產的問題,例如:
大規(guī)模部署
功能歸一化
分布式學習
使用高維數(shù)據(jù)和數(shù)千種要素類型來服務和處理數(shù)據(jù)集
?
新聞推薦中的強化學習
用戶偏好可能會經常變化,因此,基于評論和喜歡的消息向用戶推薦新聞可能很快就會過時。通過強化學習,強化學習系統(tǒng)可以跟蹤讀者的回返行為。
這種系統(tǒng)的構建將涉及獲得新聞特征,閱讀器特征,上下文特征和閱讀器新聞特征。新聞功能包括但不限于內容,標題和發(fā)布者。閱讀器功能是指閱讀器如何與內容(例如點擊和分享)進行交互。上下文功能包括新聞方面,例如新聞的時間安排和新鮮度。然后根據(jù)這些用戶行為定義獎勵。
?
游戲中的強化學習
讓我們看一下游戲前沿中的一個應用程序,特別是AlphaGo Zero。通過強化學習,AlphaGo Zero可以從零開始學習圍棋游戲。它通過與自己對戰(zhàn)來學習。經過40天的自我訓練,Alpha Go Zero戰(zhàn)勝了擊敗世界排名第一的Ke Jie的Alpha Go大師版。它僅使用板上的黑白石頭作為輸入功能和單個神經網(wǎng)絡。依靠單個神經網(wǎng)絡的簡單樹搜索用于評估位置移動和樣本移動,而無需使用任何Monte Carlo展開。
實時出價-marketing營銷和廣告中的強化學習應用程序
在文章(鏈接:
https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com)中,作者提出了采用多主體強化學習的實時出價。使用聚類方法并為每個聚類分配一個戰(zhàn)略投標代理來處理大量廣告商。為了平衡廣告商之間的競爭與合作之間的權衡,提出了分布式協(xié)調多代理競標(DCMAB)。
在營銷中,準確定位個人的能力至關重要。這是因為正確的目標顯然會帶來高投資回報。文章(鏈接:http://taobao.com/?ref=hackernoon.com)基于中國最大的電子商務平臺“淘寶網(wǎng)”。所提出的方法優(yōu)于最新的單主體強化學習方法。
?
機器人操縱中的強化學習
深度學習和強化學習的使用可以訓練具有抓握各種物體能力的機器人,甚至包括那些在訓練中看不見的物體。例如,這可以用于裝配線中的建筑產品。
這是通過將大規(guī)模分布式優(yōu)化與稱為“ QT-Opt”的“深度Q學習”變體相結合來實現(xiàn)的。QT-Opt對連續(xù)動作空間的支持使其適用于機器人問題。首先對模型進行離線訓練,然后在實際的機器人上進行部署和微調。
Google AI將這種方法應用于機器人技術,從而使7個真實世界的機器人在4個月的時間內運行了800個小時。
在此實驗(鏈接:https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com)中,QT-Opt方法成功地完成了700次針對以前看不見的物體的抓取嘗試中的96%的抓取嘗試。Google AI以前的方法成功率為78%。
?
總結
盡管強化學習仍然是一個非常活躍的研究領域,但是在推進該領域并將其應用于現(xiàn)實生活方面已經取得了重大進展。
在本文中,我們幾乎沒有涉及到強化學習的應用領域。希望這激發(fā)了人們的好奇心,驅使您進一步深入該領域
原文:https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way

