又大又粗免费视频,欧美肏逼网,国产伦子伦一级A片在线,中文色色网,久久久视频在线观看,国际亚洲中文字幕最新网址,丁香婷婷五月天亚洲天堂,九九综合国产

↑ 點擊藍字?關(guān)注極市平臺

來源丨專知

編輯丨極市平臺

極市導讀

本文探索XRL的基礎(chǔ)性問題，并對現(xiàn)有工作進行綜述。具體而言，本文首先探討了父問題——人工智能可解釋性，對人工智能可解釋性的已有定義進行了匯總；其次，構(gòu)建了一套可解釋性領(lǐng)域的理論體系，從而描述XRL與人工智能可解釋性的共同問題，包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性；然后，根據(jù)強化學習本身的特征，定義了XRL的三個獨有問題，即環(huán)境解釋、任務(wù)解釋、策略解釋；之后，對現(xiàn)有方法進行了系統(tǒng)的歸類，并對XRL的最新進展進行綜述；最后，展望了XRL領(lǐng)域的潛在研究方向。?>>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

強化學習可解釋性最新綜述論文

強化學習是一種從試錯過程中發(fā)現(xiàn)最優(yōu)行為策略的技術(shù)，已經(jīng)成為解決環(huán)境交互問題的通用方法。然而，作為一類機器學習算法，強化學習也面臨著機器學習領(lǐng)域的公共難題，即難以被人理解。

缺乏可解釋性限制了強化學習在安全敏感領(lǐng)域中的應用，如醫(yī)療、駕駛等，并導致強化學習在環(huán)境仿真、任務(wù)泛化等問題中缺乏普遍適用的解決方案。為了克服強化學習的這一弱點，涌現(xiàn)了大量強化學習可解釋性（ExplainableReinforcementLearning，XRL）的研究。然而，學術(shù)界對XRL尚缺乏一致認識。

因此，本文探索XRL的基礎(chǔ)性問題，并對現(xiàn)有工作進行綜述。具體而言，本文首先探討了父問題——人工智能可解釋性，對人工智能可解釋性的已有定義進行了匯總；其次，構(gòu)建了一套可解釋性領(lǐng)域的理論體系，從而描述XRL與人工智能可解釋性的共同問題，包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性；然后，根據(jù)強化學習本身的特征，定義了XRL的三個獨有問題，即環(huán)境解釋、任務(wù)解釋、策略解釋；之后，對現(xiàn)有方法進行了系統(tǒng)的歸類，并對XRL的最新進展進行綜述；最后，展望了XRL領(lǐng)域的潛在研究方向。

地址：http://www.jos.org.cn/jos/article/abstract/6485

人工智能（ArtificialIntelligence，AI）和機器學習（MachineLearning，ML）在計算機視覺[1]、自然語言處理[2]、智能體策略[3]等研究領(lǐng)域都取得了突破，并逐漸融入人的生活。雖然ML算法對于很多問題具有良好表現(xiàn)，但由于算法缺乏可解釋性，模型實際使用中常受到質(zhì)疑 [4]- [5]，尤其在安全敏感的應用領(lǐng)域，如自動駕駛、醫(yī)療等。缺乏可解釋性的問題已經(jīng)成為機器學習的瓶頸問題之一。

強化學習（ReinforcementLearning，RL）被驗證適用于復雜的環(huán)境交互類問題[6]-[8]，如機器人控制[9]，游戲AI[10]等。但作為機器學習的一類方法，RL同樣面臨著缺乏可解釋性的問題，主要表現(xiàn)在如下4個方面：

（1）安全敏感領(lǐng)域中的應用受限。由于缺乏可解釋性，RL策略難以保證其可靠性，存在安全隱患。這一問題在安全敏感任務(wù)（如醫(yī)療、駕駛等）中難以被忽略。因此，為避免模型不可靠帶來的危險，RL在安全敏感任務(wù)中大多局限于輔助人類的決策，如機器人輔助手術(shù)[11]，輔助駕駛[12]等；

（2）真實世界知識的學習困難。雖然目前RL應用在一些仿真環(huán)境中具有優(yōu)異表現(xiàn)，如OpenAIgym[13]，但這些仿真環(huán)境以簡單游戲為主，與真實世界存在較大差異。另外，RL應用難以避免對環(huán)境的過擬合。當過擬合發(fā)生時，模型學到環(huán)境的背景信息，而非真正的知識。這導致了兩難的問題，一方面，在真實世界中訓練RL模型通常消耗巨大，另一方面，難以確定在虛擬環(huán)境中訓練的模型學到了真實的規(guī)律。

（3）相似任務(wù)的策略泛化困難。RL策略通常與環(huán)境存在強耦合，難以被應用到相似環(huán)境中。甚至在同樣的環(huán)境下，環(huán)境參數(shù)的微小變化也會極大影響模型性能。這一問題影響了模型的泛化能力，難以確定模型在相似任務(wù)中的表現(xiàn)。

（4）對抗攻擊的安全隱患難于應對。對抗攻擊[14]是一種針對模型輸入的攻擊技術(shù)，通過將微小的惡意擾動加入到模型的輸入中生成對抗樣本。對人而言，對抗樣本不影響判斷，甚至難以察覺，然而對于模型而言，對抗樣本會使模型的輸出產(chǎn)生極大的偏差。對抗攻擊從深度學習擴展到RL[15]-[16]，成為RL算法的安全隱患。對抗攻擊的有效性進一步暴露了RL缺乏可解釋性的問題，同時也進一步說明RL模型并未學到真正的知識。

解釋對模型的設(shè)計者和使用者都具有重要的意義。對于模型的設(shè)計者，解釋能體現(xiàn)模型所學的知識，便于通過人的經(jīng)驗驗證模型是否學到魯棒的知識，從而使人高效地參與到模型的設(shè)計和優(yōu)化中；對于特定領(lǐng)域的專家使用者，解釋提供模型的內(nèi)部邏輯，當模型表現(xiàn)優(yōu)于人時，便于從模型中提取知識以指導人在該領(lǐng)域內(nèi)的實踐。對于普通用戶，解釋呈現(xiàn)模型的決策的原因，從而加深用戶對模型的理解，增強用戶對模型的信心。

強化學習可解釋性（ExplainableReinforcementLearning，XRL），或可解釋強化學習，是人工智能可解釋性（ExplainableArtificialIntelligence，XAI）的子問題，用于增強人對模型理解，優(yōu)化模型性能，從而解決上述缺乏可解釋性導致的4類問題。XRL與XAI之間存在共性，同時XRL具備自身的獨特性。

一方面，XRL與XAI存在共性。首先，提供解釋的對象是智能算法而非機械算法。機械算法，如排序、查找等，其特點是完備的輸入，固定的解法以及明確的解。而智能算法因為輸入的不完備以及解法的不確定，導致算法必須在解空間中尋找較優(yōu)的解；其次，人和模型是兩個直接面對的關(guān)鍵實體。與其他技術(shù)不同，可解釋性方法關(guān)注人對模型的理解。由于人對大量條例混亂的數(shù)據(jù)缺乏理解，因此解釋通常對模型內(nèi)在邏輯的抽象，這一過程必然伴隨對模型策略的簡化。其中的難點是，如何在向人提供解釋時，保證該解釋與模型主體邏輯的一致性；最后，解釋的難度是相對的，同時由問題規(guī)模和模型結(jié)構(gòu)兩個因素決定，并且這兩個因素在一定條件下相互轉(zhuǎn)化。例如，結(jié)構(gòu)簡單的模型（如決策樹、貝葉斯網(wǎng)絡(luò)等）在通?？梢灾庇^的展示輸入和輸出之間的邏輯關(guān)系，但面對由大量簡單結(jié)構(gòu)組成的龐大模型，其錯綜復雜的邏輯關(guān)系仍然導致模型的整體不可理解。同時，雖然結(jié)構(gòu)復雜的模型（如神經(jīng)網(wǎng)絡(luò)）通常難以被理解，但當模型被極致約減時（如將神經(jīng)網(wǎng)絡(luò)塌縮為具有少數(shù)變量的復合函數(shù)），模型本身仍然可以被人所理解。

另一方面，XRL也具備自身的獨特性。強化學習問題由環(huán)境、任務(wù)、智能體策略三個關(guān)鍵因素組成，因此，解決XRL問題必須同時考慮這三個關(guān)鍵因素。由于XRL的發(fā)展仍處于初步階段，大部分方法直接從XAI的研究中繼承，導致現(xiàn)有研究集中于對智能體策略的解釋，即解釋智能體行為的動機及行為之間的關(guān)聯(lián)。然而，缺乏對環(huán)境和任務(wù)的認識使得一些關(guān)鍵問題無從解決：缺乏對環(huán)境的認識使人在面臨復雜任務(wù)時，缺乏對環(huán)境內(nèi)部規(guī)律的理解，導致對環(huán)境狀態(tài)進行抽象時忽略有利信息，使智能體難以學到真實的規(guī)律；缺乏對任務(wù)的解釋使任務(wù)目標與過程狀態(tài)序列之間的關(guān)聯(lián)不明確，不利于智能體策略與環(huán)境的解耦合，影響強化學習智能體策略在相似任務(wù)或動態(tài)環(huán)境中的泛化能力。因此，對環(huán)境、任務(wù)和策略的解釋存在強關(guān)聯(lián)，是實現(xiàn)強化學習解釋必然面臨的問題。

目前，XRL已經(jīng)成為AI領(lǐng)域的重要議題，雖然研究者們?yōu)樘岣邚娀瘜W習模型的可解釋性做出了大量工作，但學術(shù)界對XRL尚且缺乏一致的認識，導致所提方法也難以類比。為了解決這一問題，本文探索XRL的基礎(chǔ)性問題，并對現(xiàn)有工作進行總結(jié)。首先，本文從XAI出發(fā)，對其通用觀點進行總結(jié)，作為分析XRL問題的基礎(chǔ)；然后，分析XRL與XAI的共同問題，構(gòu)建出一套可解釋性領(lǐng)域的理論體系，包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分解釋的直觀性；其次，探討XRL問題的獨特性，提出包括環(huán)境解釋、任務(wù)解釋和策略解釋的三個XRL領(lǐng)域的獨有問題；隨后，對現(xiàn)有XRL領(lǐng)域的研究進展進行總結(jié)。以技術(shù)類別和解釋效果為依據(jù)將對現(xiàn)有方法進行分類，對于每個分類，根據(jù)獲取解釋的時間、解釋的范圍、解釋的程度和XRL的獨有問題，確定每類方法的屬性；最后，展望了XRL領(lǐng)域的潛在研究方向，重點對環(huán)境和任務(wù)的解釋、統(tǒng)一的評估標準兩個方向進行展開。

1 人工智能可解釋性的觀點總結(jié)

對XRL的研究不能脫離XAI的基礎(chǔ)。一方面，XRL是XAI的子領(lǐng)域，其方法和定義密切相關(guān)，因此XRL的現(xiàn)有研究廣泛借鑒了XAI在其他方向（如視覺）的成果；另一方面，XRL目前仍處于起步階段，對其針對性的討論較少，而對于XAI，研究者們長期以來進行了廣泛的研究和討論[17]-[24]，具有深刻的借鑒意義?；谏鲜鲈?，本文從XAI的角度探討可解釋性問題，整理出學術(shù)界對XAI的共識，以此作為XRL的研究基礎(chǔ)。

雖然學者們從不同角度對XAI的定義在特定情況下指導著一類研究。然而，缺乏精確而統(tǒng)一的定義使得學術(shù)界對XAI的認識存在一定差異。本文對XAI相關(guān)的定義進行總結(jié)，并將其分為形而上的概念描述、形而下的概念描述兩類。

形而上的概念描述使用抽象概念對可解釋性進行定義[25]-[28]。這些文獻使用抽象的詞描述可解釋性算法，例如可信性（trustworthy），可靠性（reliability）等。其中可信性意味著人以較強的信心相信模型所做的決定，而可靠性意味著模型不同場景下總是能保持其性能。雖然這樣抽象的概念不夠精確，只能產(chǎn)生直觀的解釋，但仍然可以使人準確了解可解釋性的目標、對象和作用，建立對可解釋性的直覺認知。這些概念表明，可解釋性算法具備兩個關(guān)鍵實體，即人和模型。換而言之，可解釋性是一項以模型為對象，以人為目標的技術(shù)。

形而下的概念描述從哲學、數(shù)學等的觀點出發(fā)，基于解釋的現(xiàn)實意義對其進行定義。如Páez等人[17]從哲學角度出發(fā)，認為解釋所產(chǎn)生的理解并不完全等同于知識，同時理解的過程也不一定建立在真實的基礎(chǔ)上。我們認為，解釋作為媒介存在，這個媒介通過呈現(xiàn)模型的真實知識或構(gòu)建虛擬邏輯的方式，增強人對模型的理解。同時，人對模型的理解不必建立在完全掌握模型的基礎(chǔ)上，只要求掌握模型的主要邏輯，并能對結(jié)果進行符合認知的預測。Doran等人[29]認為，可解釋性系統(tǒng)使人們不僅能看到，更能研究和理解模型輸入和輸出之間的數(shù)學映射。一般而言，AI算法的本質(zhì)是一組由輸入到輸出的數(shù)學映射，而解釋則是將這樣的數(shù)學映射以人類可理解和研究的方式展現(xiàn)出來。雖然數(shù)學映射也是人們?yōu)槊枋鍪澜缍鴦?chuàng)造的一種方式，但對于復雜的數(shù)學映射（如用于表示神經(jīng)網(wǎng)絡(luò)的高維多層嵌套函數(shù)），人們卻無法將其與生活中的直觀邏輯相聯(lián)系。Tjoa等人[19]認為，可解釋性是用于解釋算法做出的決策，揭示算法運作機制中的模式以及為系統(tǒng)提供連貫的數(shù)學模型或推導。這一解釋也基于數(shù)學表達，反映出人們更多地通過模型的決策模式來理解模型，而非數(shù)學上的可重現(xiàn)性。

一些觀點與上述文獻存在微小出入，但仍具有借鑒意義。例如，Arrieta等人[21]認為可解釋性是模型的被動特征，指示模型被人類觀察者理解的程度。這個觀點將模型的可解釋性視為被動特征，忽略了模型為了更強的可解釋性而主動提出解釋的可能。Das等人[23]認為，解釋是一種用于驗證AI智能體或AI算法的方式。這一觀點傾向于關(guān)注模型的結(jié)果，其目的是為了確保模型一貫的性能。然而該描述忽略了一個事實，即模型本身意味著知識，可解釋性不僅是對模型結(jié)果的驗證，同時也有助于從模型中提取人們尚未掌握的知識，促進人類實踐的發(fā)展。雖存在較小出入，但上述觀點也提出了獨特的角度，例如，可以將模型的可解釋性視為模型的一個特性，而評估模型的性能是解釋的重要功能。

雖然對XAI的定義眾多，但就整體而言，學術(shù)界對XAI的基本概念仍然是一致的。本文嘗試提取其中的共性作為研究XRL問題的理論基礎(chǔ)。通過對以上文獻的分析，我們總結(jié)出學術(shù)界對XAI的共識：

（1）人與模型是可解釋性直接面對的兩個關(guān)鍵的實體，可解釋性是一項以模型為對象，以人為目標的技術(shù)；

（2）解釋作為理解的媒介存在，該媒介可以是真實存在的事物，也可以是理想構(gòu)建的邏輯，亦或是二者并舉，達到讓人能夠理解模型的目的；

（3）人的對模型的理解不需要建立在完全掌握模型的基礎(chǔ)上；

（4）可準確重現(xiàn)的數(shù)學推導不可取代可解釋性，人對模型的理解包括感性和理性的認知；

（5）可解釋性是模型的特性，這一特性可用于驗證模型的性能。

2 強化學習可解釋性與人工智能可解釋性的共同問題

在對XAI定義進行總結(jié)的基礎(chǔ)上，本節(jié)討論XRL與XAI面臨的共同問題。由于XRL與XAI之間存在強耦合，因此本節(jié)內(nèi)容既適用于XAI，同時也是XRL的基礎(chǔ)問題。

2.1 智能算法和機械算法界定

可解釋性的對象是智能算法而非機械算法。傳統(tǒng)認知中的機械算法，如排序、查找等，面對確定的任務(wù)目標，同時具有固定的算法程序。強化學習作為一種智能算法，在與環(huán)境動態(tài)交互的過程中尋找最優(yōu)的策略，最大化獲得的獎賞。界定智能算法和機械算法可用于確定被解釋的對象，進而回答“什么需要被解釋”的問題。一方面，智能算法與機械算法存在差異，而解釋只在面向智能算法時存在必要性；另一方面，即使對于強化學習，也無需對其所有過程產(chǎn)生解釋，而應針對其具有智能算法特性的部分進行解釋，如動作生成、環(huán)境狀態(tài)轉(zhuǎn)移等。因此，在討論可解釋性問題前，有必要區(qū)分智能算法和機械算法。

本文根據(jù)算法對已知條件的獲取程度和建模的完整性，定義“完全知識”和“完全建?！保?/p>

完全知識：已知足夠任務(wù)相關(guān)的有效知識，具備以機械過程獲得最優(yōu)解的條件；

完全建模：進行完整的問題建模，具備完成任務(wù)所需的計算能力；

完全知識是以機械方法確定最優(yōu)解的前提。例如，求解系數(shù)矩陣的秩為的線性方程組，完全知識表示其增廣矩陣的秩大于等于系數(shù)矩陣的秩，此時可以根據(jù)當前知識，獲得確定的解或者確定其無解；完全建模意味著對現(xiàn)有知識的充分利用，換言之，完全建模從建模者的角度出發(fā)，表示在解決任務(wù)的過程中有能力（包括程序設(shè)計者的設(shè)計能力和硬件的算力）利用所有的知識。例如，在19×19圍棋游戲中，存在理論上的最優(yōu)解法，但目前尚不具備足夠的計算能力在有限時間內(nèi)獲取最優(yōu)解。

根據(jù)上述對完全知識和完全建模的定義，本文進一步提出“任務(wù)完全”的概念來確定機械算法與智能算法之間的邊界：

任務(wù)完全：對特定任務(wù)，具備完全知識并進行完全建模。

任務(wù)完全必須在完全知識的前提下進行完全建模。滿足任務(wù)完全的條件后，算法的優(yōu)劣取僅決于建模方式和使用者的實際需求。任務(wù)完全的定義考慮了知識和建模兩方面因素（圖1）。

任務(wù)完全的概念可以用來區(qū)分機械算法和智能算法。機械算法是任務(wù)完全的，具體來說，算法已知足夠的知識，并進行了無簡化的建模。此時，算法具備獲取最優(yōu)解的條件，因此算法的過程是確定的，獲得的解也是可預期的。例如，經(jīng)典排序算法、傳統(tǒng)數(shù)據(jù)查詢、3×3井字棋游戲算法等都屬于機械算法。智能算法是任務(wù)不完全的，這意味著算法不具備足夠的知識，或者采取了簡化的建模方式。智能算法無法直接獲取最優(yōu)解，通常在解空間中尋找較優(yōu)的解。如基于貪心策略的算法，線性回歸方法，19×19傳統(tǒng)圍棋策略，機器學習類算法等。

導致任務(wù)不完全的可能有二，即知識不完全和建模不完全。在知識不完全的情況下，算法無法直接確定最優(yōu)解，因此只能在解空間中逼近最優(yōu)解。此時，智能算法的實際作用是在解空間中進行解的選擇。導致知識不完全的因素通常是客觀的，如環(huán)境狀態(tài)無法被完全觀測，任務(wù)目標不可預知，任務(wù)評價指標的不可知，任務(wù)始終點不可知等等；在建模不完全的情況下，算法通常忽略某些知識，導致算法過程沒有充分利用知識，從而無法獲得最優(yōu)解。建模不完全的原因有客觀和主觀兩方面，客觀原因如建模偏差，不完全建模等，主觀原因包括降低硬件需求，模型提速等。在強化學習中，并非所有過程具備任務(wù)不完全的特點，因此只有部分需要進行解釋，如策略生成、環(huán)境狀態(tài)轉(zhuǎn)移等。

2.2 對“解釋”的定義

在漢語詞典中，解釋有“分析、闡明”的含義。這不僅符合生活中對該詞的理解，同時也與可解釋性研究中“解釋”的含義相近。然而，具體到可解釋性的研究中，這一含義顯得寬泛。我們希望結(jié)合對可解釋性的理解，細化“解釋”的含義，使之具有更強的指導意義。以強化學習模型為例，模型學習使獎勵最大化的策略，其中包含著環(huán)境、獎勵和智能體之間的隱式知識，而XRL算法則是將這些隱式知識顯式地表現(xiàn)出來。本文將多個知識視為集合，稱為知識體系，從知識體系相互之間關(guān)系的角度，對“解釋”做出如下定義：

解釋：知識體系之間的簡潔映射。簡潔映射是在不引入新知識的條件下對目標知識進行表達；

具體來說，解釋是將基于原知識體系的表達轉(zhuǎn)換為目標知識體系表達的過程，這個過程僅使用目標知識體系的知識，而不引入新的知識。而XRL算法的目的在于產(chǎn)生解釋，從而使原知識體系能夠被目標知識體系簡潔的表達出來。在XRL中，原知識體系通常指代強化學習模型，而目標知識體系通常指人的認知，模型和人是可解釋性的兩個關(guān)鍵實體。本文將原知識體系看作由多個元知識及其推論構(gòu)成的集合。以表示元知識，表示知識體系，則假設(shè)智能體習得的知識屬于知識體系，而人類能夠理解的知識屬于知識體系，則解釋是將知識體系轉(zhuǎn)換為知識體系表達的過程。對于解釋而言，簡潔映射是必要的，非簡潔的映射可能提升解釋本身的被理解難度，進而導致解釋本身讓人無法理解（見2.3）。

在對知識進行轉(zhuǎn)換表達的過程中，待解釋的知識可能無法完全通過目標知識體系進行描述，這時只有部分知識可以被解釋。本文使用“完全解釋”和“部分解釋”的概念描述這一情況：

完全解釋：待解釋的知識完全被目標知識體系表達。其中，被解釋的知識屬于目標知識體系是其必要條件；

部分解釋：待解釋的知識的部分被目標知識體系表達。

具體來說，完全解釋和部分解釋描述的是知識體系之間的包含情況（圖2）。只有當待解釋的知識體系完全被目標知識體系所包含時，才可能進行完全解釋，否則只能進行部分解釋。在XRL中，完全解釋通常是不必要的。

一方面，待解釋知識體系和目標知識體系的邊界難以確定，導致完全解釋難度高且耗費巨大；另一方面，實現(xiàn)對模型的解釋通常不需要建立在對模型完全掌握的基礎(chǔ)上。因此，部分解釋是大部分可解釋性研究中采用的方法，即只描述算法的主要決策邏輯。

2.3 可解釋性的影響因素

一個觀點認為，傳統(tǒng)ML（RL為其子集）方法是易于解釋的，而深度學習的引入使得可解釋性產(chǎn)生了短板，導致ML難于解釋，因此ML解釋的本質(zhì)是對深度學習的解釋[21]。這與可解釋性領(lǐng)域的認知相悖[28]。這一觀點只關(guān)注模型而忽略了人在可解釋性中的地位。對于人而言，即使是理論上可被理解的模型，當規(guī)模擴張到一定程度時，仍然會導致整體的不可理解。本文對可解釋性的影響因素進行如下定義：

透明度：待解釋模型結(jié)構(gòu)的簡潔程度；

模型規(guī)模：待解釋模型包含的知識量和知識組合多樣化程度；

本文認為，可解釋性是對模型組件透明度和模型規(guī)模的綜合描述。透明度和模型規(guī)模是影響可解釋性的兩個主要因素。具體來說，可解釋性強意味著同時具備高透明度和低復雜度，而單一因素，如復雜度高或透明度低將導致模型的弱可解釋性（圖3）。

在不同語境下，“透明”一詞具有不同的含義。例如，在軟件結(jié)構(gòu)中，透明指的是對底層過程的抽象程度，意味著上層程序無需關(guān)注底層的實現(xiàn)。類似的，透明度在可解釋性領(lǐng)域也存在不同的含義，如文獻[26]-[27]認為透明度是模型可以被理解的程度，將透明度與可解釋性等價。以強化學習為例，基于值表的強化學習算法在規(guī)模一定時通常具有更強的可解釋性，而使用深度學習擬合值表則可解釋性更弱，這是因為通過查詢值表而產(chǎn)生策略的過程符合人的直觀理解，但神經(jīng)網(wǎng)絡(luò)傳播過程僅在數(shù)學上可被準確描述，于人而言透明度更低。然而，這一思考將構(gòu)建模型的基礎(chǔ)結(jié)構(gòu)作為可解釋性的重點，而忽略了模型規(guī)模對解釋帶來的難度，并忽略了解釋的目標——人。因此，為突出模型規(guī)模對解釋的影響，我們僅將透明度狹義理解為待解釋模型的結(jié)構(gòu)的簡潔程度。

模型規(guī)模從人理解能力的角度衡量解釋的難度。具體來說，假設(shè)模型中的知識由一系列元知識構(gòu)成，則模型規(guī)模表示元知識總量和知識之間組合的多樣化程度，而解釋的難度一定程度上取決于模型規(guī)模，當模型規(guī)模超過特定范圍（人的理解能力）時模型將無法被理解。例如，線性加性模型、決策樹模型、貝葉斯模型，由于計算過程簡潔，使我們能夠輕易了解模型基于何因素得到何種結(jié)果，因此被認為是易于理解的。然而，當模型規(guī)模逐漸龐大時，各因素之間的邏輯不可避免地相互交織，變得錯綜復雜，使我們最終無法抓住其主從關(guān)系。對于以簡潔結(jié)構(gòu)（如決策樹分支）構(gòu)成的大規(guī)模模型，雖然所有結(jié)果在理論上有跡可循，但當模型規(guī)模已超越人類的理解能力，導致系統(tǒng)整體將仍然不具備可解釋性。

2.4 可解釋性的程度劃分

人的學習過程與強化學習過程存在一定的相似性，因此，如果將人腦看作目前最先進的智能模型，則人對模型的理解不僅僅是人對模型的直觀感受，也是一個先進的智能體對強化學習模型的綜合評估。然而，一個無法理解的模型不可能被有效評估，因此對模型的解釋成為人理解模型的媒介。作為人和模型之間媒介，可解釋性算法不同程度的具備兩個相互平衡特點：接近模型和接近人的感知。具體來說，不同的解釋有的更注重準確的描述模型，而另一些更注重與人的感知一致。基于這一概念，本文將可解釋性分為如下三個層次：

（1）數(shù)學表達：通過理想化的數(shù)學推導解釋模型。數(shù)學表達是使用數(shù)學語言簡化模型的表達。由于強化學習模型建立在數(shù)學理論的基礎(chǔ)上，因此通過數(shù)學表達可以準確地描述和重構(gòu)模型。雖然數(shù)學理論體系是人描述世界的一種重要方式，但其與人的普遍直覺之間存在較大差異。以深度學習為例，雖然存在大量文章論證了其在數(shù)學上的合理性，但深度學習方法仍然被認為是不可解釋的。因此，數(shù)學的表達能夠在微觀（參數(shù)）層面對模型進行描述，但難以遷移至人類知識體系；

（2）邏輯表達：通過將模型轉(zhuǎn)換為顯性的邏輯規(guī)律解釋模型。邏輯表達是對模型中主體策略的提取，即忽略其細微分支，凸顯主體邏輯。一方面，邏輯表達保留了模型的主體策略，因此與模型真實決策結(jié)果相近，解釋本身可以部分重現(xiàn)模型的決策；另一方面，邏輯表達簡化了模型，符合人的認知。邏輯表達是較為直觀的解釋，但需要人具備特定領(lǐng)域的知識，是面對人類專家的解釋，而對一般用戶尚不夠直觀；

（3）感知表達：通過提供符合人類直覺感知的規(guī)律解釋模型。感知表達基于模型生成符合人類感知的解釋，由于不需要人具備特定領(lǐng)域的知識，因此易于理解。例如，可視化關(guān)鍵輸入、示例對比等解釋形式都屬于感知表達的范疇。然而，感知表達通常是對模型策略的極大精簡，因為無法重現(xiàn)模型的決策，導致其只解釋決策的合理性。

在可解釋性的三個層次中，數(shù)學表達作為第一個層次，也是構(gòu)建強化學習算法的理論基礎(chǔ)。在已知模型所有參數(shù)的情況下，數(shù)學表達通?？梢暂^為準確的推斷出模型的結(jié)果，然而，數(shù)學上的合理性不意味著能被人所理解；邏輯表達介于數(shù)學表達和感知表達之間，是對模型策略的近似，但邏輯表達方法產(chǎn)生的解釋通常要求用戶具備特定領(lǐng)域的專業(yè)知識；感知表達對模型決策的重要因素進行篩選，并使用清晰、簡潔的形式進行呈現(xiàn)，雖然結(jié)果易于理解，但已經(jīng)不具備重構(gòu)策略的能力。總而言之，不同的解釋在接近模型和接近人類感知之間存在著平衡，難以兼顧。

3 強化學習可解釋性的獨有問題

與其他ML方法不同，RL問題由環(huán)境、任務(wù)、智能體三個關(guān)鍵因素組成。其中，環(huán)境為給定的具有一定內(nèi)部規(guī)律的黑盒系統(tǒng)；任務(wù)為智能體為最大化其平均獎賞的而擬合的目標函數(shù)；策略是智能體行為的依據(jù)和一系列行為之間的關(guān)聯(lián)。根據(jù)強化學習的三個關(guān)鍵組成因素，本文歸納出XRL的三個獨有問題，即環(huán)境解釋，任務(wù)解釋，策略解釋。三個獨有問題之間存在著密切的關(guān)聯(lián)，與整個強化學習過程密不可分，是實現(xiàn)強化學習解釋直接面臨的問題。

4 強化學習可解釋性研究現(xiàn)狀

由于XRL涉及的領(lǐng)域廣泛，學者從各領(lǐng)域的角度出發(fā)，導致所提出的方法具有較大差異。因此，本節(jié)分兩步對相關(guān)方法進行總結(jié)。首先，根據(jù)技術(shù)類別和解釋的展現(xiàn)形式，將現(xiàn)有方法分為視覺和語言輔助解釋、策略模仿、可解釋模型、邏輯關(guān)系提取和策略分解五個類別。然后，在通用分類方法（即獲取解釋的時間、解釋的范圍）的基礎(chǔ)上，結(jié)合本文所提出的分類依據(jù)（即解釋的程度，面對的關(guān)鍵科學問題），確定不同類別方法的屬性。

在可解釋性領(lǐng)域中，分類通?；讷@取解釋的時間和解釋的范圍兩個因素[31]。具體而言，根據(jù)獲取解釋的時間，可解釋性方法被分為固有（intrinsic）解釋和事后（post-hoc）解釋。固有解釋通過限制模型的表達，使模型在運行時生成具備可解釋性的輸出。例如，基于較強可解釋性的原理和組件（決策樹、線性模型等）構(gòu)造模型，或者通過增加特定過程使模型生成可解釋性的輸出；事后解釋是通過對模型行為的分析，總結(jié)模型的行為模式，從而達到解釋的目的。通常而言，固有解釋是策略產(chǎn)生過程中的解釋，特定于某個模型，而事后解釋是策略產(chǎn)生后的解釋，與模型無關(guān)。根據(jù)解釋的范圍，可解釋性方法被分為全局（global）解釋和局部（local）解釋，全局解釋忽略模型的微觀結(jié)構(gòu)（如參數(shù)、層數(shù)等因素），從宏觀層面提供對模型的解釋，局部解釋從微觀入手，通過分析模型的微觀結(jié)構(gòu)獲得對模型的解釋。

除上述可解釋性的通用分類之外，本文基于解釋與模型和人類感知的符合程度，將可解釋性方法分為數(shù)學表達、邏輯表達和感知表達三類（見2.4）。這三類可解釋性方法體現(xiàn)出可解釋性算法在解釋的形式、解釋與模型結(jié)果的近似程度和解釋的直觀度等方面的區(qū)別。前文（見3）分析了XRL面臨的3個關(guān)鍵問題，即環(huán)境解釋，任務(wù)解釋和策略解釋。目前，單個XRL方法難以同時解決三類問題，因此，我們也以此為依據(jù)，對當前XRL方法所著眼的問題進行區(qū)分。

綜上所述，本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關(guān)鍵問題”為依據(jù)，對XRL方法進行分類（見表1）。由于算法多樣，表1僅顯示大類別算法的特點，部分算法可能不完全符合

總結(jié)

本文以XRL的問題為中心，討論了該領(lǐng)域的基礎(chǔ)問題，并對現(xiàn)有方法進行總結(jié)。由于目前在XRL領(lǐng)域，乃至整個XAI領(lǐng)域尚未形成完整、統(tǒng)一的共識，導致不同研究的基礎(chǔ)觀點存在較大差異，難于類比。本文針對該領(lǐng)域缺乏一致認知的問題，進行了較為深入的研究工作。首先，本文參考XRL領(lǐng)域的父問題——XAI，收集XAI領(lǐng)域的現(xiàn)有觀點，并整理出XAI領(lǐng)域較為通用的認識；其次，以XAI領(lǐng)域的定義為基礎(chǔ)，討論XAI與XRL面臨的共同問題；然后，結(jié)合強化學習自身的特點，提出XRL面臨的獨有問題；最后，總結(jié)了相關(guān)的研究方法，并對相關(guān)方法進行分類。分類中包括作者明確指出為XRL的方法，也包括作者雖未著重強調(diào)，但實際對XRL有重要意義的方法。XRL目前尚處于初步階段，因此存在大量亟待解決的問題。本文重點提出環(huán)境和任務(wù)的解釋、統(tǒng)一的評估標準兩類問題。本文認為這兩類問題是為類XRL領(lǐng)域的基石，是值得重視的研究領(lǐng)域。

如果覺得有用，就請分享到朋友圈吧！

△點擊卡片關(guān)注極市平臺，獲取最新CV干貨

公眾號后臺回復“transformer”獲取最新Transformer綜述論文下載～

極市干貨

課程/比賽：珠港澳人工智能算法大賽｜保姆級零基礎(chǔ)人工智能教程

算法trick：目標檢測比賽中的tricks集錦｜從39個kaggle競賽中總結(jié)出來的圖像分割的Tips和Tricks

技術(shù)綜述：一文弄懂各種loss function｜工業(yè)圖像異常檢測最新研究總結(jié)（2019-2020）