點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

作者：莫凡&馬晶敏，上海交通大學(xué)

轉(zhuǎn)載自：Datawhale

深度學(xué)習(xí)不夠智能，強(qiáng)化學(xué)習(xí)又太抽象。深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物，其骨架來自強(qiáng)化學(xué)習(xí)，而靈魂由深度學(xué)習(xí)賦予。深度強(qiáng)化學(xué)習(xí)是一個(gè)值得持續(xù)研究和關(guān)注的新方向。

一、深度學(xué)習(xí)的反思

現(xiàn)在深度學(xué)習(xí)大熱，一點(diǎn)也不輸給現(xiàn)在的室外氣溫，但大熱背后也有隱憂，深度學(xué)習(xí)雖然表面光鮮，但細(xì)看就會發(fā)現(xiàn)：仍然充滿了槽點(diǎn)。

其中一個(gè)可謂是直擊靈魂。現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”，它有一個(gè)特點(diǎn)，就是數(shù)據(jù)必須經(jīng)過標(biāo)識才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標(biāo)識數(shù)據(jù)，且標(biāo)識成本很高。很多研究人員，甚至包括有不少的大牛都在反思，琢磨深度學(xué)習(xí)是不是“錯(cuò)了”。如果說人工智能發(fā)展的正道在于模擬人類智能，那深度學(xué)習(xí)的這套學(xué)習(xí)模式可能走了歪路。

舉一個(gè)例子，就是人類的小嬰兒學(xué)走路。小嬰兒學(xué)走路肯定不是靠先看一大堆的《如何解鎖行走姿勢》或者《人類直立動(dòng)作大全》之類的資料，用行話來說，就是不必依賴外部輸入大量的訓(xùn)練數(shù)據(jù)。那小嬰兒是怎么學(xué)的呢？靠不斷嘗試，也就是我們常說的跌倒了爬起來再走。簡單來說，這一派研究人員認(rèn)為：深度學(xué)習(xí)和人類的學(xué)習(xí)模式是截然不同的，別看現(xiàn)在大紅大紫，早晚是要碰到天花板的。那應(yīng)該怎么辦呢？很多人都指了同一個(gè)地方，就是深度強(qiáng)化學(xué)習(xí)。

二、強(qiáng)化學(xué)習(xí)原理

深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物，這兩套體系本來都是單飛型選手，分別是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，具體來說，深度強(qiáng)化學(xué)習(xí)的骨架來自強(qiáng)化學(xué)習(xí)，而靈魂則是由深度學(xué)習(xí)賦予。所以，要講明白深度強(qiáng)化學(xué)習(xí)，首先來看下強(qiáng)化學(xué)習(xí)。

2.1 AlphaGo進(jìn)化史

AlphaGo打敗柯潔等一眾國際頂尖棋手的事實(shí)讓大家對人工智能技術(shù)信心倍增。當(dāng)年AlphaGo一共迭代了三個(gè)版本，分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master，以及吊打前兩代的三代目AlphaGo Zero。這三代棋藝當(dāng)然是逐代遞增了，技術(shù)上也有一個(gè)明顯的變化趨勢，就是強(qiáng)化學(xué)習(xí)的比重越來越大。

最開始訓(xùn)練AlphaGo的模型，是需要用借助已有棋譜的，也就是需要參考答案，是有監(jiān)督學(xué)習(xí)。而當(dāng)進(jìn)化到了AlphaGo Zero，這哥們兒開始“悟了”，對，是真正意義上的悟了，不再需要任何棋譜，完全自食其力，從零開始自學(xué)成才，所以名字叫Zero。親爹DeepMind喜不自勝，跑到Nature發(fā)了一篇爆款論文，名字叫《Mastering the game of go without human knowledge》，我看中文不妨就翻譯為《圍棋滅霸》，反正意思就是“你們?nèi)祟惗际窃也恍枰私桃材芊Q霸棋壇”。這次是真不用人教，那靠什么自學(xué)呢？就是強(qiáng)化學(xué)習(xí)。AlphaGo Zero的學(xué)習(xí)模式非常類似于人類，而且取得了無可非議的良好效果，確實(shí)讓業(yè)內(nèi)所有人都真真切切地感受到了強(qiáng)化學(xué)習(xí)的驚人潛力。

2.2 強(qiáng)化學(xué)習(xí)基礎(chǔ)概念

說了這么多，那什么是強(qiáng)化學(xué)習(xí)呢？強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種。強(qiáng)化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)都不太一樣，有一個(gè)智能體（Agent）的概念。什么是智能體呢？大家應(yīng)該都玩過任天堂的一款經(jīng)典FC橫版通關(guān)游戲——馬里奧兄弟。在游戲中，玩家通過控制馬里奧頂蘑菇、踩烏龜來取得勝利，如果想用強(qiáng)化學(xué)習(xí)來通關(guān)，那這里的智能體指的就是馬里奧。

智能體是強(qiáng)化學(xué)習(xí)的第一個(gè)重要概念，是主角，但強(qiáng)化學(xué)習(xí)作為一臺好戲，自然不能光有主角，還得有舞臺，這就是強(qiáng)化學(xué)習(xí)的第二個(gè)重要概念，環(huán)境（Environment）。

強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程，就是作為主角的智能體和作為舞臺的環(huán)境不斷交互的過程。這個(gè)過程又包括三個(gè)重要概念，分別是觀察（Observation）、動(dòng)作（Action）和獎(jiǎng)勵(lì)（Reward）。這五個(gè)概念可謂是強(qiáng)化學(xué)習(xí)的五線譜，能夠演奏出無數(shù)美妙動(dòng)人的旋律。

那么，對于剛剛提出的智能體、環(huán)境、觀察、動(dòng)作和獎(jiǎng)勵(lì)這這五個(gè)概念是怎么進(jìn)行演奏呢？

2.3 深入淺出強(qiáng)化學(xué)習(xí)

首先一條就是主線，前面已經(jīng)介紹，強(qiáng)化學(xué)習(xí)的主線就是作為主角智能體，與作為舞臺的環(huán)境所作的各種交互。交互過程衍生了三個(gè)概念，聽起來復(fù)雜，其實(shí)玩馬里奧兄弟游戲非常相像，完全可以一對一比照。

回想一下，游戲里的馬里奧想要通關(guān)，第一步需要干什么呢？前進(jìn)后退還是蹦蹦跳跳？都不對，首先需要觀察。你得先看一下周圍環(huán)境，看看前面到底蘑菇還是烏龜，才能決定接下來的行動(dòng)。觀察環(huán)境，獲取當(dāng)前的狀態(tài)信息了，才決定下一步行動(dòng)對不對？強(qiáng)化學(xué)習(xí)也一樣，主角智能體通過前面介紹的第三個(gè)重要概念“觀察”，來獲得當(dāng)前時(shí)刻的各種狀態(tài)信息，一般記為s(t)。

掌握了狀態(tài)信息，游戲里的馬里奧開始躍躍欲試，準(zhǔn)備做出反應(yīng)了。強(qiáng)化學(xué)習(xí)也一樣，我們將s(t)作為智能體的輸入，智能體會略加思索，接著就能做出“動(dòng)作”。這里的動(dòng)作，就是前面介紹的第四個(gè)重要概念。智能體能做出哪些動(dòng)作呢？這和具體的場景有關(guān)，譬如在馬里奧游戲中，動(dòng)作就是指“頂蘑菇”或者“踩烏龜”，一般記為a(t)。

最后一個(gè)重要概念是“獎(jiǎng)勵(lì)”。這個(gè)好理解，前面我們一再強(qiáng)調(diào)，強(qiáng)化學(xué)習(xí)的主線是智能體與環(huán)境的各種交互，那現(xiàn)在當(dāng)智能體做出某個(gè)動(dòng)作后，環(huán)境當(dāng)然也得有所表示，得有個(gè)反饋信息，這就是獎(jiǎng)勵(lì)。譬如馬里奧游戲中，馬里奧“吃到金幣”后，相應(yīng)的游戲得分就會增加，這就是獎(jiǎng)勵(lì)。需要說明一點(diǎn)，強(qiáng)化學(xué)習(xí)的“獎(jiǎng)勵(lì)”和我們?nèi)粘Ｋ?xí)慣的用法略有不同，強(qiáng)調(diào)的是環(huán)境對智能體的反饋。上面說的得分增加，這是一種好的反饋，當(dāng)然也有壞的反饋，譬如做了什么動(dòng)作被扣分了，但無論是好的反饋，還是壞的反饋，在強(qiáng)化學(xué)習(xí)這里都統(tǒng)一稱為“獎(jiǎng)勵(lì)”。

至此，智能體就完成了一輪強(qiáng)化學(xué)習(xí)。不斷重復(fù)這輪流程，智能體就能順利地與環(huán)境交互下去。聽起來是不是很簡單？不過，魔鬼都藏在細(xì)節(jié)里。

2.4 強(qiáng)化學(xué)習(xí)方向分類

不知道大家在閱讀時(shí)，有沒有注意到強(qiáng)化學(xué)習(xí)的一個(gè)非常重要的問題，上面卻一筆帶過？沒錯(cuò)，就是從獲取s(t)到做出a(t)之間的“略加思索”。作為輸入的狀態(tài)信息，和作為輸出的待選動(dòng)作，都是給定好的，但二者的映射關(guān)系如何，也就是輸入什么樣的狀態(tài)信息該對應(yīng)輸出什么樣的動(dòng)作反應(yīng)，也就是智能體應(yīng)該如何進(jìn)行思考。

這是強(qiáng)化學(xué)習(xí)最核心的問題。有了問題，自然就會產(chǎn)生各種腦洞。我們說強(qiáng)化學(xué)習(xí)的五個(gè)概念像是五線譜，演奏出無數(shù)美妙旋律，這絕對不是藝術(shù)化的比喻，而是實(shí)情。為了解決強(qiáng)化學(xué)習(xí)這個(gè)核心問題，研究人員是真真切切地開了無數(shù)的腦洞，總的來說，主要是朝著兩大方向開腦洞。

第一個(gè)大方向叫基于價(jià)值（Value-Based）的強(qiáng)化學(xué)習(xí)。機(jī)器學(xué)習(xí)都有個(gè)目標(biāo)函數(shù)的概念，而基于價(jià)值的強(qiáng)化學(xué)習(xí)，它的目標(biāo)函數(shù)就是累計(jì)獎(jiǎng)勵(lì)最大化，也就是當(dāng)前哪個(gè)動(dòng)作能讓得分更高就選擇做哪個(gè)動(dòng)作。這很符合我們的直覺認(rèn)知，比較容易理解。那怎么達(dá)到這個(gè)目標(biāo)呢？不同的算法各有不同，基于價(jià)值（Value-Based）的強(qiáng)化學(xué)習(xí)算法中，最有名氣的算法應(yīng)該數(shù)Q-Learning，也有人稱為Q學(xué)習(xí)，通過不斷計(jì)算和更新動(dòng)作價(jià)值函數(shù)Q來實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化。

第二個(gè)大方向叫基于策略（Policy-Based）的強(qiáng)化學(xué)習(xí)。基于價(jià)值雖然符合直覺，但這種走一步看一步，每次都要用價(jià)值函數(shù)量一下才能行動(dòng)的做法，難免讓人有種“無頭蒼蠅瞎轉(zhuǎn)”的無力感，而基于策略的強(qiáng)化學(xué)習(xí)最大的特點(diǎn)就是果斷拋棄了價(jià)值函數(shù)，嘗試找到每個(gè)狀態(tài)對應(yīng)的最佳動(dòng)作，從而形成一套動(dòng)作策略，每走一步策略都能直接給出最佳的下一步動(dòng)作。

當(dāng)然，除了這兩大方向，強(qiáng)化學(xué)習(xí)還有其它的腦洞方向，譬如基于模型（Model-Based）的強(qiáng)化學(xué)習(xí)，不過由于成本和難度較高，用得比較少。而這兩大方向都各自包含了大量的具體實(shí)現(xiàn)算法，即使方向相同，各個(gè)算法在細(xì)節(jié)上仍然有很大差異。

三、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

最后一個(gè)問題是，深度學(xué)習(xí)是怎樣和強(qiáng)化學(xué)習(xí)結(jié)合，成為深度強(qiáng)化學(xué)習(xí)的呢？

前面我們說，深度強(qiáng)化學(xué)習(xí)，強(qiáng)化學(xué)習(xí)是骨架，深度學(xué)習(xí)是靈魂，這是什么意思呢？深度強(qiáng)化學(xué)習(xí)的主要運(yùn)行機(jī)制，其實(shí)與強(qiáng)化學(xué)習(xí)是基本一致的，也都是根據(jù)輸入的s(t)，找到對應(yīng)的輸出a(t)，只不過使用了深度神經(jīng)網(wǎng)絡(luò)來完成這一過程。

更有甚者，有的深度強(qiáng)化學(xué)習(xí)算法，干脆直接在現(xiàn)成的強(qiáng)化學(xué)習(xí)算法上，通過添加深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)一套新的深度強(qiáng)化學(xué)習(xí)算法，非常有名的深度強(qiáng)化學(xué)習(xí)算法DQN就是典型的例子。

前面我們介紹基于價(jià)值的強(qiáng)化學(xué)習(xí)算法中介紹了Q-Learning算法，有一個(gè)重要的步驟是計(jì)算Q值，而傳統(tǒng)的Q-Learning算法是通過Q表來完成計(jì)算的，但表格存在一個(gè)明顯的局限性，狀態(tài)-動(dòng)作空間越大，Q表就越膨脹，而且是大一點(diǎn)就膨脹好幾圈。這樣下去不行的，早晚是要河邊見的……

那怎么改善呢？研究人員一想，現(xiàn)在大熱的深度神經(jīng)網(wǎng)絡(luò)不是最擅長干這事嗎？于是一拍大腿，不再需要?jiǎng)隈{Q表您老人家來記錄Q值了，統(tǒng)統(tǒng)改成了深度神經(jīng)網(wǎng)絡(luò)，這就是DQN。雖然聽起來改動(dòng)不大，但兩者結(jié)合效果很好，能力提升明顯，成就了廣為使用的深度強(qiáng)化學(xué)習(xí)算法。

好消息！
小白學(xué)視覺知識星球
開始面向外開放啦??????



下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程
在「小白學(xué)視覺」公眾號后臺回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺實(shí)戰(zhàn)項(xiàng)目52講
在「小白學(xué)視覺」公眾號后臺回復(fù)：Python視覺實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計(jì)算機(jī)視覺。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講
在「小白學(xué)視覺」公眾號后臺回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群（以后會逐漸細(xì)分），請掃描下面微信號加群，備注：”昵稱+學(xué)校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“。請按照格式備注，否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告，否則會請出群，謝謝理解~

深度學(xué)習(xí)的發(fā)展方向： 深度強(qiáng)化學(xué)習(xí)！

一、深度學(xué)習(xí)的反思

二、強(qiáng)化學(xué)習(xí)原理

三、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

深度學(xué)習(xí)的發(fā)展方向：深度強(qiáng)化學(xué)習(xí)！