5篇關(guān)于強(qiáng)化學(xué)習(xí)在金融領(lǐng)域中應(yīng)用的論文推薦

來源:DeepHub IMBA 本文約1500字,建議閱讀5分鐘
本文推薦了5篇關(guān)于強(qiáng)化學(xué)習(xí)在金融領(lǐng)域中應(yīng)用的論文。
近年來機(jī)器學(xué)習(xí)在各個(gè)金融領(lǐng)域各個(gè)方面均有應(yīng)用,其實(shí)金融領(lǐng)域的場(chǎng)景是很適合強(qiáng)化學(xué)習(xí)應(yīng)用的,但是由于金融領(lǐng)域真金白銀的,以目前強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率估計(jì)愿意嘗試的人不多,但是并不妨礙我們學(xué)習(xí)和了解這方面的知識(shí)。

Reinforcement learning in market games(arxiv 0710.0114)
Edward W. Piotrowski, Jan Sladkowski, Anna Szczypinska
金融市場(chǎng)投資就像許多的多人游戲一樣——必須與其他代理人互動(dòng)以實(shí)現(xiàn)自己目標(biāo)。其中就包括與在市場(chǎng)上的活動(dòng)直接相關(guān)的因素,和影響人類決策及其作為投資者表現(xiàn)的其他方面。如果區(qū)分所有子博弈通常是超出希望和資源消耗的。在這篇論文中研究了投資者如何面對(duì)許多不同的選擇、收集信息并在不了解游戲的完整結(jié)構(gòu)的情況下做出決策。論文將強(qiáng)化學(xué)習(xí)方法應(yīng)用于市場(chǎng)信息理論模型 (ITMM)。嘗試區(qū)分第 i 個(gè)代理的一類博弈和可能的動(dòng)作(策略)。任何代理都將整個(gè)游戲類劃分為她/他認(rèn)為子類,因此對(duì)給定的子類采用相同的策略。劃分標(biāo)準(zhǔn)基于利潤(rùn)和成本分析。類比類和策略通過學(xué)習(xí)過程在各個(gè)階段更新。
Dreaming machine learning: Lipschitz extensions for reinforcement learning on financial markets(arXiv 1909.03278)
J. M. Calabuig, H. Falciani, E. A. Sánchez-Pérez
論文考慮了一種用于在金融市場(chǎng)框架內(nèi)構(gòu)建新的強(qiáng)化學(xué)習(xí)模型的準(zhǔn)度量拓?fù)浣Y(jié)構(gòu)。它基于在度量空間中定義的獎(jiǎng)勵(lì)函數(shù)的 Lipschitz 型擴(kuò)展。具體來說,McShane 和 Whitney 被用于獎(jiǎng)勵(lì)函數(shù),該函數(shù)由給定時(shí)間投資決策產(chǎn)生的收益的總評(píng)估定義。將度量定義為歐幾里得距離和角度度量分量的線性組合。從時(shí)間間隔開始的所有關(guān)于系統(tǒng)演化的信息都被用來支持獎(jiǎng)勵(lì)函數(shù)的擴(kuò)展,并且通過添加一些人為產(chǎn)生的狀態(tài)來豐富這個(gè)數(shù)據(jù)集。論文中說到,這種方法的主要新穎之處在于產(chǎn)生了更多狀態(tài)(論文中稱之為“dreams”)以豐富學(xué)習(xí)的方式。使用代表金融市場(chǎng)演變的動(dòng)態(tài)系統(tǒng)的一些已知狀態(tài),使用現(xiàn)有的技術(shù)可以通過插入真實(shí)狀態(tài)和引入一些隨機(jī)變量來模擬新狀態(tài)。這些新狀態(tài)用于為學(xué)習(xí)算法提供訓(xùn)練數(shù)據(jù),該算法的目的是通過遵循典型的強(qiáng)化學(xué)習(xí)方案來改進(jìn)投資策略。
Automatic Financial Trading Agent for Low-risk Portfolio Management using Deep Reinforcement Learning(arXiv 1909.03278)
自主交易代理是人工智能解決資本市場(chǎng)投資組合管理問題最活躍的研究領(lǐng)域之一。投資組合管理問題的兩個(gè)主要目標(biāo)是最大化利潤(rùn)和抑制風(fēng)險(xiǎn)。大多數(shù)解決這個(gè)問題的方法只考慮最大化回報(bào)。但是這篇論文提出了一種基于深度強(qiáng)化學(xué)習(xí)的交易代理,它在管理投資組合時(shí),不僅考慮利潤(rùn)最大化,還考慮風(fēng)險(xiǎn)約束。論文中還提出了一個(gè)新的目標(biāo)策略,讓交易代理學(xué)會(huì)更偏向低風(fēng)險(xiǎn)的行動(dòng)。這個(gè)新的目標(biāo)策略可以通過超參數(shù)來調(diào)整最優(yōu)行為的貪心程度來降低行動(dòng)的風(fēng)險(xiǎn)。論文所提出的交易代理通過加密貨幣市場(chǎng)的數(shù)據(jù)來驗(yàn)證性能,因?yàn)榧用茇泿攀袌?chǎng)是測(cè)試交易代理的最佳試驗(yàn)場(chǎng),因?yàn)槊糠昼姺e累的數(shù)據(jù)量巨大,市場(chǎng)波動(dòng)性極大。作為實(shí)驗(yàn)結(jié)果,在測(cè)試期間,代理實(shí)現(xiàn)了 1800% 的回報(bào),并提供了現(xiàn)有方法中風(fēng)險(xiǎn)最小的投資策略。并且在另一個(gè)實(shí)驗(yàn)表明,即使市場(chǎng)波動(dòng)很大或訓(xùn)練周期很短,交易的代理也能保持穩(wěn)健的泛化性能。
Application of deep reinforcement learning for Indian stock trading automation(arXiv 2106.16088)
Author : Supriya Bajpai
在股票交易中,特征提取和交易策略設(shè)計(jì)是利用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)長(zhǎng)期收益的兩項(xiàng)重要任務(wù)。通過獲取交易信號(hào)來設(shè)計(jì)交易策略可以實(shí)現(xiàn)交易收益最大化。論文中將深度強(qiáng)化學(xué)習(xí)理論應(yīng)用于印度市場(chǎng)的股票交易策略和投資決策。利用三個(gè)經(jīng)典的深度強(qiáng)化學(xué)習(xí)模型Deep Q-Network、Double Deep Q-Network和Dueling Double Deep Q-Network對(duì)10個(gè)印度股票數(shù)據(jù)集進(jìn)行了系統(tǒng)的實(shí)驗(yàn)。并對(duì)模型的性能進(jìn)行了評(píng)價(jià)和比較。
Robo-Advising: Enhancing Investment with Inverse Optimization and Deep ReinforcementLearning(arXiv 2105.09264)
Author : Haoran Wang, Shi Yu
機(jī)器學(xué)習(xí)(ML)已被金融行業(yè)視為一種強(qiáng)大的工具,在投資管理等各個(gè)領(lǐng)域都有顯著的應(yīng)用。論文提出了一個(gè)全周期數(shù)據(jù)驅(qū)動(dòng)的投資機(jī)器人咨詢框架,由兩個(gè)ML代理組成。第一代理是一種逆投資組合優(yōu)化代理,它利用在線逆優(yōu)化方法直接從投資者的歷史配置數(shù)據(jù)中推斷投資者的風(fēng)險(xiǎn)偏好和預(yù)期收益。第二個(gè)是深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, RL)代理,它將所推斷的預(yù)期收益序列聚合在一起,形成一個(gè)新的多周期均值-方差投資組合優(yōu)化問題,這樣就可以使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行求解。論文中的投資計(jì)劃應(yīng)用于2016年4月1日至2021年2月1日的實(shí)際市場(chǎng)數(shù)據(jù),表現(xiàn)持續(xù)優(yōu)于代表總體市場(chǎng)最優(yōu)配置的標(biāo)準(zhǔn)普爾500基準(zhǔn)投資組合。這種優(yōu)異表現(xiàn)可能歸因于多周期規(guī)劃(相對(duì)于單周期規(guī)劃)和數(shù)據(jù)驅(qū)動(dòng)的RL方法(相對(duì)于經(jīng)典估計(jì)方法)。
