<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)在股市的應(yīng)用概述

          共 11407字,需瀏覽 23分鐘

           ·

          2024-04-11 09:12

          【導(dǎo)讀】大家好,我是泳魚。一個(gè)樂于探索和分享AI知識(shí)的碼農(nóng)!

          股票市場預(yù)測由于其非線性、高度波動(dòng)性和復(fù)雜性,一直是個(gè)復(fù)雜的問題。近年來,深度學(xué)習(xí)在許多領(lǐng)域占據(jù)了主導(dǎo)地位,在股市預(yù)測方面取得了巨大的 成功 和普及。 本文以深度學(xué)習(xí)技術(shù)為重點(diǎn),對(duì)其應(yīng)用于股市預(yù)測研究進(jìn)行結(jié)構(gòu)化和全面的概述,介紹了股市預(yù)測的四個(gè)子任務(wù)及股市預(yù)測主流模型 ,并分享了一些關(guān)于股市預(yù)測的新觀點(diǎn)及未來的幾個(gè)方向

          對(duì)量化投資、程序化交易有興趣的同學(xué),可添加Ai_Algorithms開通量化~


          1  股市預(yù)測任務(wù)

          股市預(yù)測任務(wù)圍繞股票市場預(yù)測的過程展開的,包括股票走勢預(yù)測、股票價(jià)格預(yù)測、投資組合管理、交易策略。

          313450f403c1ef82c7d26e2d98c73d64.webp

          1.1 股價(jià)預(yù)測

          根據(jù)時(shí)間序列數(shù)據(jù)預(yù)測股票價(jià)格,以揭示未來市場價(jià)值,并實(shí)現(xiàn)投資收益最大化。在預(yù)測過程中,各種因素,包括心理因素以及理性和非理性行為,都會(huì)對(duì)結(jié)果產(chǎn)生影響。這些因素共同作用,使得股票價(jià)格具有高度動(dòng)態(tài)和波動(dòng)性。 擴(kuò)展閱讀: 一文詳解RNN及股票預(yù)測實(shí)戰(zhàn)(Python)!

          1.2 股票趨勢預(yù)測

          股票趨勢預(yù)測通常將股票走勢分為上漲、下跌和橫盤。該任務(wù)通過分析股票在特定交易日期間調(diào)整后收盤價(jià)之間的差異來形式化。

          bb2fdf86fde8855803a89f970a5877f0.webp

          1.3 投資組合管理

          投資組合管理涉及對(duì)一系列投資的戰(zhàn)略選擇和監(jiān)督,以實(shí)現(xiàn)財(cái)務(wù)目標(biāo)。投資組合管理的目標(biāo)是以最大化回報(bào)同時(shí)最小化風(fēng)險(xiǎn)的方式分配資源。

          1.4 交易策略

          交易策略是一套預(yù)先確定的準(zhǔn)則和標(biāo)準(zhǔn),用于做出交易決策,是買賣股票的系統(tǒng)方法。該策略可能簡單或復(fù)雜,涉及投資風(fēng)格(例如,價(jià)值&增長)、市值、技術(shù)指標(biāo)、基本面分析、投資組合多樣化水平、風(fēng)險(xiǎn)承受能力和杠桿等因素。

          在利用深度學(xué)習(xí)的股市預(yù)測任務(wù)中,常見的交易策略主要包括事件驅(qū)動(dòng)、交易數(shù)據(jù)驅(qū)動(dòng)和策略優(yōu)化。

          adc17f625d1312a3154f3fd28424465f.webp

          圖1 處理框架

          圖1顯示了基于深度學(xué)習(xí)的方法進(jìn)行股票市場預(yù)測的過程。首先是處理輸入數(shù)據(jù),包括股票數(shù)據(jù)、圖表和文本;然后提取股票特征;后續(xù)將提取的特征輸入到深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練;最后分析訓(xùn)練得到的模型效果。

          股市預(yù)測主流 模型

          股票市場預(yù)測常用模型 包括基于RNN的模型、基于GNN的模型,基于CNN的模型、強(qiáng)化學(xué)習(xí)模型、基于Transformer的模型以及一些其他創(chuàng)新方法(如圖2)。圖3展示了用于股票市場預(yù)測的主流深度學(xué)習(xí)模型的概況。

          4dba88ee436bc745ed156206ac4ac139.webp

          圖2 股市預(yù)測主流深度學(xué)習(xí)模型分類

          67c81b987173e7b27431d61b46bf741e.webp

          圖3 股市預(yù)測主流深度學(xué)習(xí)模型概況

          2.1 基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的模型

          RNN(圖2a) 是一種有效的深度學(xué)習(xí)模型,適用于處理序列數(shù)據(jù),如股票市場數(shù)據(jù)。然而,RNN存在梯度消失的問題,因此開發(fā)了LSTM、GRU和Bi-LSTM等變體。這些變體通過改進(jìn)RNN的結(jié)構(gòu),控制短期和長期記憶,提高了對(duì)長期數(shù)據(jù)的處理能力。在股市預(yù)測方面,這些變體取得了顯著進(jìn)展。

          遞歸神經(jīng)網(wǎng)絡(luò)(RNN) RNN是一種成熟的深度學(xué)習(xí)模型,已應(yīng)用于股票預(yù)測。 研究人員通過結(jié)合RNN、指數(shù)平滑和自回歸移動(dòng)平均模型,提出了一種混合預(yù)測模型-魯棒混合預(yù)測模型(HPM),并通過遺傳算法優(yōu)化模型權(quán)重,提高了預(yù)測準(zhǔn)確性。還有一種方法是基于RNN的狀態(tài)頻率記憶,能夠捕捉股票價(jià)格背后的多頻率交易模式。

          長短期記憶(LSTM) LSTM是 一種能夠有效地處理文本和時(shí)間序列數(shù)據(jù)的模型,適用于股票市場預(yù)測。 LSTM通過使用梯度方法解決了在較長時(shí)間間隔內(nèi)保留信息的問題,是對(duì)RNN模型的改進(jìn) 。

          門控循環(huán)單元(GRU) GRU是LSTM的變體,用于股票市場預(yù)測,可提高訓(xùn)練速度并解決梯度消失問題。雙階段RNN基于注意力機(jī)制進(jìn)行時(shí)間序列預(yù)測,GRU網(wǎng)絡(luò)使用雙級(jí)注意力機(jī)制進(jìn)行股票價(jià)格預(yù)測,根據(jù)金融新聞標(biāo)題分配不同的權(quán)重。MI-LSTM模型使用注意力區(qū)分主要和輔助因素,為輸入分配不同的權(quán)重,以防止無關(guān)因素影響最終結(jié)果。

          2.2 基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型

          CNN(圖2b)是一種深度學(xué)習(xí)模型,已被廣泛應(yīng)用于計(jì)算機(jī)視覺和自然語言處理任務(wù),其模型由幾個(gè)卷積層和池化層組成,用于特征提取。傳統(tǒng)的卷積層使用二維濾波器處理圖像特征,而時(shí)間序列用的CNN使用一維濾波器在時(shí)間序列上滑動(dòng)。CNN結(jié)合知識(shí)圖和LSTM可以進(jìn)一步提高時(shí)間序列預(yù)測的性能。

          其中一種模型是Knowledge-Driven Temporal Convolutional Network(KDTCN),該模型利用Open IE提取與知識(shí)圖相關(guān)的活動(dòng),并進(jìn)行可解釋的股票預(yù)測。CNN-LSTM模型可以從歷史數(shù)據(jù)中提取特征并預(yù)測股票收盤價(jià),其中CNN組件從10天的歷史數(shù)據(jù)時(shí)間序列中提取特征,LSTM組件進(jìn)行價(jià)格預(yù)測。 近期一些研究探索了將知識(shí)圖、LSTM和CNN集成用于股票預(yù)測,比如使用由期權(quán)圖像、未來圖像和歷史圖像組成的組合圖像的基于圖的CNN-LSTM模型。此外,Chandar開發(fā)了一個(gè)穩(wěn)健的股票交易模型,該模型使用10個(gè)技術(shù)指標(biāo)作為特征向量,從歷史股票數(shù)據(jù)中提取,并通過CNN模型獲得標(biāo)記的賣出點(diǎn)、買入點(diǎn)和持有點(diǎn)。

          2.3 基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的模型

          GNN 是一種人工神經(jīng)網(wǎng)絡(luò),它以圖的形式處理數(shù)據(jù),在股票市場預(yù)測中發(fā)揮著至關(guān)重要的作用,因?yàn)樗鼈兡軌驅(qū)Σ灰?guī)則結(jié)構(gòu)化數(shù)據(jù)進(jìn)行操作,這與專為歐幾里德結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)的 CNN 不同。GNN 的結(jié)構(gòu)由節(jié)點(diǎn)和邊組成,這使得它能夠?qū)?shí)體之間的關(guān)系進(jìn)行建模。在股票市場預(yù)測的背景下,節(jié)點(diǎn)通常代表公司或股票,邊代表它們之間的關(guān)系。例如,關(guān)聯(lián)公司的股價(jià)往往會(huì)同時(shí)波動(dòng),比如當(dāng)一則好消息發(fā)布時(shí),相應(yīng)的股票就會(huì)立即飆升。這凸顯了在進(jìn)行預(yù)測時(shí)考慮關(guān)系的重要性。本章將探討四種主要的基于圖的模型:GNN、圖卷積網(wǎng)絡(luò)(GCN)[58]和圖注意網(wǎng)絡(luò)(GAT)。

          圖神經(jīng)網(wǎng)絡(luò)(GNN)GNN是一種用于預(yù)測股票表現(xiàn)的手段,通過整合知識(shí)圖來表達(dá)公司實(shí)體之間的聯(lián)系。不同文章提出了不同的模型,如滾動(dòng)窗口分析和回溯方法、知識(shí)圖神經(jīng)張量網(wǎng)絡(luò)(NTN)、分層圖神經(jīng)網(wǎng)絡(luò)(HGNN)等。這些模型考慮了各種市場狀態(tài)屬性,如節(jié)點(diǎn)、關(guān)系和圖形視圖,并使用多源異構(gòu)數(shù)據(jù)進(jìn)行預(yù)測。此外,Ang和Lim的模型利用圖形編碼和注意力模塊來捕捉全局和局部信息,表現(xiàn)非常穩(wěn)健。

          圖卷積網(wǎng)絡(luò)(GCN) GCN是一種專門設(shè)計(jì)用于處理圖數(shù)據(jù)的深度學(xué)習(xí)模型,通過圖卷積層從圖中提取特征,并根據(jù)節(jié)點(diǎn)之間的關(guān)系進(jìn)行預(yù)測。GCN可以與其他深度學(xué)習(xí)模型結(jié)合使用,例如Chen和Wei提出了一個(gè)管道預(yù)測模型,通過使用GCN模型整合公司之間的關(guān)系,每個(gè)公司表示為圖中的一個(gè)節(jié)點(diǎn),邊表示公司之間的關(guān)系,邊的權(quán)重表示持股比例。類似地,Li等人提出了一個(gè)LSTM關(guān)系圖卷積網(wǎng)絡(luò)(LSTM-RGCN)模型,處理股票之間的正相關(guān)性和負(fù)相關(guān)性。Wang等人使用GCN來分析指數(shù)之間的相關(guān)性,介紹了基于多圖卷積神經(jīng)網(wǎng)絡(luò)的MG-Conv模型,并利用指數(shù)之間的靜態(tài)圖構(gòu)建了指數(shù)數(shù)據(jù),同時(shí)基于具有不同投資組合策略的索引之間的趨勢相關(guān)性創(chuàng)建了動(dòng)態(tài)圖。

          圖注意網(wǎng)絡(luò)(GAT) GAT結(jié)合了GNN和注意力層,通過注意力機(jī)制提高性能,減小噪聲影響,增強(qiáng)與任務(wù)相關(guān)的信息。Kim等人提出使用層次注意力網(wǎng)絡(luò)(HATs)預(yù)測股票價(jià)格和市場指數(shù)走勢,Sawhney等人提出用于股票預(yù)測的多管齊下的注意力網(wǎng)絡(luò)(MAN-SF),Cheng和Li引入了屬性驅(qū)動(dòng)的圖注意力網(wǎng)絡(luò)(AD-GAT)來捕捉屬性驅(qū)動(dòng)的動(dòng)量溢出。這些模型在實(shí)驗(yàn)中均優(yōu)于GCN、eLSTM和TGC。

          2.4 Transformer

          Transformer(圖5d)是一個(gè)基于self-attention機(jī)制的深度學(xué)習(xí)模型,旨在解決序列到序列的任務(wù),同時(shí)處理長期依賴關(guān)系。 CNN 通過創(chuàng)建二維信息的內(nèi)部表示來擅長處理空間數(shù)據(jù)。此外,RNN 更適合涉及時(shí)間或順序數(shù)據(jù)的任務(wù),例如財(cái)經(jīng)新聞、推文和股票價(jià)格時(shí)間序列。然而,RNN 可能難以處理長序列,因?yàn)槟P涂赡軙?huì)忘記遠(yuǎn)處位置的內(nèi)容或混淆附近位置的內(nèi)容。Transformer 通過利用自注意力機(jī)制和位置嵌入來處理句子來解決這個(gè)問題。因此,Transformer 模型在各種股市預(yù)測任務(wù)中都顯示出了可喜的結(jié)果。

          基于Transformer的模型  許多研究使用Transformer模型進(jìn)行股票預(yù)測,通過捕捉長期依賴性。其中,Multi-Transformer、層次多尺度高斯Transformer和TEANet等被廣泛應(yīng)用。此外,利用文本信息作為輸入進(jìn)行金融新聞情緒分析,預(yù)測市場對(duì)文本中潛在信息的反應(yīng)。收集社交平臺(tái)和財(cái)經(jīng)新聞文章的數(shù)據(jù),然后輸入張量Transformer進(jìn)行模型訓(xùn)練。還有研究提出基于Transformer Encoder的Capsule網(wǎng)絡(luò)和基于分層Transformer的多任務(wù)模型等解決方案,用于預(yù)測短期和長期資產(chǎn)波動(dòng)性,其中HTML模型還使用了音頻數(shù)據(jù)進(jìn)行預(yù)測。Chen等人引入了門控三塔式Transformer作為提取和整合多元股票時(shí)間序列的解決方案,通過實(shí)施移位窗口塔式編碼器和具有多時(shí)間聚合的移位窗口塔式編碼器,以及采用普通的Transformer編碼器作為文本塔式編碼器,來實(shí)現(xiàn)復(fù)雜的文本特征提取。

          預(yù)訓(xùn)練語言模型  BERT是一種基于Transformer架構(gòu)的語言模型,通過兩種獨(dú)特的訓(xùn)練方法(掩碼語言建模和下一句預(yù)測)來理解單詞之間的關(guān)系和句子之間的長期依賴關(guān)系。BERT的預(yù)訓(xùn)練模型可以針對(duì)特定用例進(jìn)行微調(diào)。財(cái)務(wù)新聞被認(rèn)為是股票市場分析的重要信息來源,對(duì)股票回報(bào)的影響已被充分證明。一些研究人員提出,除了僅依靠文本中的情感來進(jìn)行股票市場預(yù)測之外,新聞評(píng)論還可以影響投資者的情緒,并最終影響他們對(duì)市場趨勢和投資決策的估計(jì)。BERT在股市中的用途不僅限于預(yù)測價(jià)格或走勢,還可以用于檢測預(yù)定義的交易事件等。此外,還有一些研究使用了BERT來進(jìn)行投資者評(píng)論的評(píng)估和分類,以及股票預(yù)測。

          2.5 強(qiáng)化學(xué)習(xí)模型

           RL(圖5e)是一個(gè)允許通過與環(huán)境交互進(jìn)行學(xué)習(xí)的框架,如圖6所示。在股票市場中,強(qiáng)化學(xué)習(xí)用于設(shè)計(jì)交易策略和管理投資組合。RL 中的關(guān)鍵概念包括馬爾可夫決策過程 (MDP) 、代理、環(huán)境和獎(jiǎng)勵(lì)信號(hào)。強(qiáng)化學(xué)習(xí)問題可以表述如下:智能體通過與環(huán)境的交互來優(yōu)化其策略。具體來說,代理由狀態(tài)和策略組成,在時(shí)間 t 時(shí)由 ???? 和 ?? 表示。當(dāng)智能體與環(huán)境交互時(shí),會(huì)收到獎(jiǎng)勵(lì)??,并且智能體的狀態(tài)會(huì)更新為????+1。如果下一個(gè)狀態(tài)僅依賴于當(dāng)前狀態(tài),則決策過程被視為馬爾可夫。

          cd3f0e5613371b952530c87ec7ea7c40.webp

          圖6. 在金融交易領(lǐng)域,主體(交易者)與環(huán)境(金融市場)之間的互動(dòng)至關(guān)重要。強(qiáng)化學(xué)習(xí)算法通過將金融市場和交易者分別視為環(huán)境和代理來利用這種交互作用。在代理內(nèi),不同的RL算法可能會(huì)結(jié)合使用策略網(wǎng)絡(luò)和 Q 網(wǎng)絡(luò)。金融中的財(cái)務(wù)數(shù)據(jù)和回報(bào)可以被視為強(qiáng)化學(xué)習(xí)中的狀態(tài)??和獎(jiǎng)勵(lì)??,而交易交易可以被視為強(qiáng)化學(xué)習(xí)中的動(dòng)作??。

          2.5.1 模型無關(guān)強(qiáng)化學(xué)習(xí)。 模型無關(guān)強(qiáng)化學(xué)習(xí)算法是近幾十年來發(fā)展起來的一個(gè)分支, 它允許智能體在不需要了解環(huán)境模型的情況下學(xué)習(xí)。這種學(xué)習(xí)方法使得智能體能夠通過直接與環(huán)境互動(dòng)來學(xué)習(xí)如何做出決策,從而實(shí)現(xiàn)自我優(yōu)化。在模型無關(guān)的設(shè)置中,策略梯度、Q-learning和混合算法在金融市場上得到了廣泛應(yīng)用。

          策略梯度。 策略梯度(Policy Gradient)通過直接優(yōu)化策略來求解強(qiáng)化學(xué)習(xí)問題。與基于值函數(shù)的傳統(tǒng)強(qiáng)化學(xué)習(xí)算法不同,策略梯度算法通過采樣經(jīng)驗(yàn)來估計(jì)每個(gè)動(dòng)作的期望回報(bào),并計(jì)算策略梯度的估計(jì)值,然后使用梯度上升方法來更新策略的參數(shù)。在機(jī)器人控制、游戲智能等領(lǐng)域得到了廣泛應(yīng)用。 策略梯度算法可以處理連續(xù)動(dòng)作空間、可以直接優(yōu)化期望回報(bào)等。然而,它難以選擇合適的策略參數(shù)化形式、難以處理高維度狀態(tài)空間等。

          Q-learning。 Q-learning通過學(xué)習(xí)一個(gè)動(dòng)作的價(jià)值函數(shù)(或Q函數(shù))來選擇最優(yōu)的動(dòng)作。這個(gè)價(jià)值函數(shù),用于衡量在特定狀態(tài)下采取特定動(dòng)作的期望收益。 Q-learning算法基于一種名為馬爾可夫決策過程的理論,其基本原理是“最大未來折扣回報(bào)”。在實(shí)踐中,Q-learning已經(jīng)被應(yīng)用于各種領(lǐng)域,例如游戲、機(jī)器人學(xué)、自然語言處理等。它具有很強(qiáng)的適應(yīng)性,可以處理不同類型的問題,并且不需要環(huán)境模型的先驗(yàn)知識(shí)。然而,Q-learning其學(xué)習(xí)過程可能需要大量的時(shí)間和實(shí)驗(yàn),并且在某些情況下可能會(huì)出現(xiàn)探索與利用的權(quán)衡問題。 混合算法。 混合算法是一種結(jié)合了多種不同算法的算法,旨在綜合利用各種算法的優(yōu)點(diǎn),達(dá)到更好的效果?;旌纤惴ㄍǔ0S機(jī)算法、啟發(fā)式算法、貪心算法和動(dòng)態(tài)規(guī)劃等?;旌纤惴ㄔ谇蠼鈴?fù)雜問題時(shí)通常能夠取得更好的效果,因?yàn)樗梢猿浞掷酶鞣N算法的優(yōu)點(diǎn),從而更好地適應(yīng)不同的問題場景。 混合算法可以應(yīng)用于求解圖的最短路徑問題、機(jī)器學(xué)習(xí)、優(yōu)化問題、組合優(yōu)化等。

          2.5.2 基于模型的強(qiáng)化學(xué)習(xí)近年來,基于模型的強(qiáng)化學(xué)習(xí)算法在RL領(lǐng)域越來越受歡迎。這些算法使用參數(shù)化的近似器來模擬MDP的動(dòng)力學(xué),從而可以根據(jù)特定狀態(tài)和動(dòng)作獲得獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)。相比基于模型的RL算法,它們具有幾個(gè)優(yōu)點(diǎn),包括提高數(shù)據(jù)效率、有趣的探索策略、結(jié)合本地和全局學(xué)習(xí)以及在轉(zhuǎn)移學(xué)習(xí)場景中的實(shí)用性?;谀P偷腞L已被用于開發(fā)幾種交易算法,例如高斯逆RL方法納入投資者情緒,以及使用動(dòng)力學(xué)轉(zhuǎn)換模型進(jìn)行訓(xùn)練并轉(zhuǎn)移到真實(shí)環(huán)境的交易策略。此外,基于模型的RL還應(yīng)用于投資組合管理任務(wù),顯示出盈利性和魯棒性。Briola等人也通過構(gòu)建使用PPO算法的端到端DRL代理采用基于模型的方法,利用有限的訂單簿數(shù)據(jù)實(shí)現(xiàn)了長期回報(bào)。

          2.6 其他深度學(xué)習(xí)方法

          在事件驅(qū)動(dòng)的股票預(yù)測領(lǐng)域,使用指標(biāo)數(shù)據(jù)源存在兩個(gè)關(guān)鍵問題:(1)單個(gè)數(shù)據(jù)源的可靠性低;(2)缺乏對(duì)多個(gè)數(shù)據(jù)源之間相互作用和相關(guān)性的理解。

          為了解決這些問題,Zhang等人開發(fā)了一種耦合矩陣和張量分解方法,通過創(chuàng)建定量特征矩陣、構(gòu)建矩陣、提取事件和情感,并應(yīng)用耦合矩陣和張量分解,能夠有效地填充稀疏張量中的缺失值,從而進(jìn)行準(zhǔn)確的預(yù)測。Xu和Cohen提出了Stocknet模型,利用Twitter數(shù)據(jù)和前五天價(jià)格數(shù)據(jù)的文本和價(jià)格信號(hào)來預(yù)測第六天的股票走勢。Wang等人引入了基于copula的對(duì)偶性對(duì)比性預(yù)測編碼(Co-CPC)方法,考慮股票類別、行業(yè)和相關(guān)宏觀經(jīng)濟(jì)變量之間的依賴關(guān)系,通過最小化數(shù)據(jù)和模型的不確定性來捕獲耦合。Duan等人提出了一種目標(biāo)特定的抽象指導(dǎo)新聞文檔表示模型,用于提取最具信息性的內(nèi)容。FactorVAE將動(dòng)態(tài)因子模型與使用變分自動(dòng)編碼器進(jìn)行噪聲建模相結(jié)合,通過將因子后驗(yàn)因子模型近似為未來信息,可以有效地指導(dǎo)學(xué)習(xí)過程。

          3  數(shù)據(jù)集和模型輸入

          3.1 數(shù)據(jù)集

          在股票預(yù)測領(lǐng)域,機(jī)器學(xué)習(xí)模型使用的數(shù)據(jù)集因不同股票市場的視角而不太。預(yù)測股票價(jià)格和價(jià)格走勢兩個(gè)任務(wù)最受關(guān)注。大多數(shù)使用強(qiáng)化學(xué)習(xí)(RL)的研究圍繞開發(fā)交易策略展開。數(shù)據(jù)集可分為內(nèi)在數(shù)據(jù)和外在數(shù)據(jù),內(nèi)在數(shù)據(jù)主要包括歷史股票價(jià)格、財(cái)務(wù)指數(shù)和技術(shù)分析數(shù)據(jù)等,外在數(shù)據(jù)則包括文本、基礎(chǔ)數(shù)據(jù)和工業(yè)知識(shí)圖譜等。該領(lǐng)域研究使用的數(shù)據(jù)集涵蓋的時(shí)間范圍很廣,從幾個(gè)月到十年或更長時(shí)間不等,且來自不同地區(qū),以美國市場為基礎(chǔ),但也包括中國、日本和印度等市場的數(shù)據(jù)。表1列出了包含國家信息的常用股票市場縮寫。

          (1)股票價(jià)格。股票價(jià)格被認(rèn)為是股票市場表現(xiàn)的直接反映,并常被用作各種模型中的輸入特征和預(yù)測目標(biāo)。在本調(diào)查中,使用股票價(jià)格很普遍,但根據(jù)模型設(shè)計(jì)的不同,它以開盤價(jià)、最高價(jià)、最低價(jià)和收盤價(jià)等多種形式被使用。

          (2)技術(shù)分析工具。技術(shù)分析工具在傳統(tǒng)的股票分析中很常用,常常通過MACD、RSI等指標(biāo)來進(jìn)行股票趨勢的分析。

          (3)宏觀經(jīng)濟(jì)數(shù)據(jù)。宏觀經(jīng)濟(jì)數(shù)據(jù)反映了特定地區(qū)的經(jīng)濟(jì)狀況。與股票市場相關(guān)的兩個(gè)常用指標(biāo)是消費(fèi)者價(jià)格指數(shù)(CPI)和國內(nèi)生產(chǎn)總值(GDP)。這些指標(biāo)可以洞察當(dāng)前市場狀況,并表明股票市場是處于增長還是衰退階段。

          (4)基本面數(shù)據(jù)。基本面數(shù)據(jù)是指關(guān)于一個(gè)經(jīng)濟(jì)實(shí)體的綜合信息,包括財(cái)務(wù)狀況、公司結(jié)構(gòu)以及與股東共享的其他任何信息。然而,在深度學(xué)習(xí)模型中使用這種數(shù)據(jù)時(shí),由于報(bào)告頻率低、文本信息結(jié)構(gòu)化不足等限制,只能利用一小部分?jǐn)?shù)據(jù)。

          (5)知識(shí)圖譜。不同行業(yè)之間可能存在內(nèi)在聯(lián)系,例如,同一供應(yīng)鏈上的企業(yè)會(huì)受到相同新聞的影響。最近的實(shí)驗(yàn)表明,將來自開放源碼的知識(shí)圖譜與傳統(tǒng)的股票數(shù)據(jù)相結(jié)合,可以改善模型的表現(xiàn)。

          (6)文本信息。文本信息包括廣泛的來源,包括但不限于新聞文章、報(bào)告、社交媒體帖子和用戶評(píng)論。由于大多數(shù)信息是非結(jié)構(gòu)化的,因此情感分析是一種廣泛使用的技術(shù),通過深度機(jī)器學(xué)習(xí)來提取見解??梢詫?shù)據(jù)分類為各種類別,例如正面、中性或負(fù)面,以進(jìn)行進(jìn)一步的分析和利用。

          表1 股票市場的簡略說明

          22b494f048d5d7eec9d5b10cb02a317d.webp

          3.2 輸入特征

          基于預(yù)測目標(biāo)和數(shù)據(jù)集構(gòu)成對(duì)輸入特征進(jìn)行提取和組織,大致可分為四組:時(shí)間序列、文本、知識(shí)圖等。

          (1)時(shí)間序列。由于許多模型都依賴于隨時(shí)間建模股票價(jià)格,因此時(shí)間序列數(shù)據(jù)是股票預(yù)測中普遍存在的輸入。預(yù)測的具體時(shí)間范圍,例如日內(nèi)或跨日,可以確定所使用數(shù)據(jù)的粒度,范圍從分鐘級(jí)到天級(jí)別。此外,在強(qiáng)化學(xué)習(xí)的背景下,可以將時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為環(huán)境,其中特征可以用于創(chuàng)建狀態(tài)和獎(jiǎng)勵(lì)。這使得代理能夠與環(huán)境互動(dòng)并不斷提高其決策策略。 (2)文本。文本信息包括多種信息源,如新聞和文章。人們認(rèn)為這種類型的信息會(huì)對(duì)投資者的情緒產(chǎn)生連鎖反應(yīng)。不過,在用于模型之前,文本信息必須經(jīng)過預(yù)處理和結(jié)構(gòu)化,因?yàn)槲谋拘畔⒖赡軄碓从诓煌恼Z言和來源。 (3)圖。行業(yè)知識(shí)圖譜是最常用的圖,不僅可以展示合作者間的直接聯(lián)系,也用來挖掘其內(nèi)部關(guān)系,如上下游供應(yīng)鏈。

          (4)其他。在股票預(yù)測任務(wù)中使用了不同的數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都提供了獨(dú)特的視角,包括圖像數(shù)據(jù)和音頻數(shù)據(jù)。這些數(shù)據(jù)被用作補(bǔ)充信息,例如,聲音特征,如語調(diào),可以表明說話人的情感。

          4  模型評(píng)估

          評(píng)估指標(biāo)在評(píng)估股票市場預(yù)測模型性能方面具有至關(guān)重要的作用,它們被用于比較不同模型所做的預(yù)測與實(shí)際值。在本文中,我們將現(xiàn)有的評(píng)估指標(biāo)分為三類:基于準(zhǔn)確的、基于誤差的和基于回報(bào)的。對(duì)于分類模型,常用的評(píng)估指標(biāo)包括基于準(zhǔn)確率的指標(biāo);對(duì)于回歸模型,常用的評(píng)估指標(biāo)包括基于誤差的指標(biāo),如平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)?;跍?zhǔn)確性和基于回報(bào)的指標(biāo)值越大,股票市場預(yù)測的效果越好;而基于誤差的指標(biāo)值越小,性能越好。

          表 3 典型論文采用的三種評(píng)估方法

          05a3f68714c8fc2f32d27c77e68e07b3.webp

          4.1 基于準(zhǔn)確的評(píng)估指標(biāo)

          基于準(zhǔn)確性的評(píng)估指標(biāo)用于衡量分類器的性能。然而,僅僅使用準(zhǔn)確性作為唯一的評(píng)估指標(biāo)有時(shí)是不夠的,因?yàn)樗鼰o法反映分類器在不同類別上的性能差異。因此,為了更全面地評(píng)估分類器的性能,我們可以使用其他評(píng)估指標(biāo),例如精確率、召回率和F1得分。

          準(zhǔn)確率(Accuracy)。 準(zhǔn)確率是最基本的評(píng)估指標(biāo),用于評(píng)估分類器的整體準(zhǔn)確性。準(zhǔn)確率指的是分類器正確分類的樣本數(shù)與總樣本數(shù)的比值 。公式如下:

          8485fd973b9a155c412f5d2ef55b0959.webpTP(True Positive)表示實(shí)際類別和模型預(yù)測都是正類的情況。 TN(True Negative)表示實(shí)際類別和模型預(yù)測都是負(fù)類的情況。 FP(False Positive)表示模型預(yù)測為正類,但實(shí)際類別是負(fù)類的情況。

          FN(False Negative)表示實(shí)際類別為正類,但模型預(yù)測為負(fù)類的情況。

          精確率(Precision)。 精確率是指分類器預(yù)測為正樣本的樣本中真正為正樣本的比例,反映了分類器對(duì)于正樣本的識(shí)別能力。公式如下: 0b54246bc2342fefff0c11ea35075cb3.webp

          召回率(Recall)。 召回率是指真正為正樣本的樣本中被分類器預(yù)測為正樣本的比例,反映了分類器對(duì)于所有實(shí)際正樣本的覆蓋程度。公式如下:

          e130b897ef2bd323aeed2854082affb5.webp


          F1分?jǐn)?shù)(F1 Score)。 F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均值,用于綜合考慮精確率和召回率的表現(xiàn),可以更全面地評(píng)估分類器的性能。公式如下:

          dfe0d1feed9a79b95630d6922d355e7e.webp

          馬修斯相關(guān)系數(shù)(MCC)。 是一種測量兩個(gè)變量之間相關(guān)性的統(tǒng)計(jì)量,特別適用于非線性關(guān)系。MCC的值在-1到1之間,1表示完全正相關(guān),0表示無關(guān),-1表示完全負(fù)相關(guān)。它被廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域。公式如下:
          3639c3eaf935090c61be65c1668c5bf1.webp

          此外,還有一些其他的評(píng)估指標(biāo),如AUC-ROC(ROC曲線下的面積)、基尼指數(shù), 還可以采用交叉驗(yàn)證、混淆矩陣、特征選擇等技術(shù)來進(jìn)一步提高分類算法的性能。 這些評(píng)估指標(biāo)各有優(yōu)缺點(diǎn),應(yīng)根據(jù)具體的應(yīng)用場景選擇合適的評(píng)估指標(biāo)。

          4.2 基于誤差的評(píng)估指標(biāo)

          基于誤差的評(píng)估指標(biāo)是指通過計(jì)算預(yù)測值與真實(shí)值之間的差異來評(píng)估模型預(yù)測準(zhǔn)確性的指標(biāo),其中誤差越小表示結(jié)果越好。常見的基于誤差的評(píng)估指標(biāo)包括平均絕對(duì)誤差(MAE)、均方誤差(MSE)、均方根偏差(RMSE)以及平均絕對(duì)百分比誤差(MAPE)等。這些指標(biāo)可用于評(píng)估模型在不同數(shù)據(jù)集上的預(yù)測效果,并根據(jù)誤差大小來優(yōu)化模型參數(shù)或調(diào)整模型結(jié)構(gòu)。

          平均絕對(duì)誤差(MAE)。 MAE 用于計(jì)算預(yù)測值與實(shí)際值之間的平均絕對(duì)差值。MAE的優(yōu)勢在于它可以直觀地反映出誤差的大小,并且對(duì)于不同的數(shù)值范圍具有一致的敏感性。然而,MAE對(duì)于離散程度較大的數(shù)據(jù)分布可能不夠穩(wěn)健,而且無法提供關(guān)于數(shù)據(jù)分布的更多信息。公式如下:

          608a3d35ee8c6a5569a57cfb448d9fdd.webp

          均方誤差(MSE)。 MSE是衡量預(yù)測模型擬合效果的一種常用指標(biāo),它計(jì)算的是實(shí)際值與預(yù)測值之間的平均平方誤差,MSE越小,模型的擬合效果越好。公式如下: de04be89762580ea2167aeb8de7bea66.webp
          均方根偏差(RMSE)。 RMSE是一種常用的誤差度量方法,用于評(píng)估預(yù)測或測量數(shù)據(jù)的準(zhǔn)確性。它計(jì)算的是實(shí)際值與估計(jì)值之間的平均平方根差,可以提供一種量化誤差的方法。RMSE的值越小,說明預(yù)測或測量數(shù)據(jù)的準(zhǔn)確性越高。公式如下: 894e8047c0b433a2daebe6a20fc30611.webp
          平均絕對(duì)百分比誤差(MAPE)。 MAPE是一種用于衡量預(yù)測或估計(jì)模型準(zhǔn)確性的指標(biāo),它計(jì)算預(yù)測值與實(shí)際值之間的絕對(duì)百分比誤差的平均值。MAPE可以用于比較不同模型或不同數(shù)據(jù)集的預(yù)測效果,通常越小表示模型越準(zhǔn)確。然而,MAPE有一些局限性,例如對(duì)異常值敏感,不能處理負(fù)數(shù)等。公式如下:

          498f0af8e79c91f688014c425cfa8bd1.webp

          4.3 基于回報(bào)的評(píng)估指標(biāo)

          使用基于回報(bào)的評(píng)估指標(biāo)有效地評(píng)估股票市場預(yù)測的準(zhǔn)確性。金融中用于評(píng)估收益的兩個(gè)常用指標(biāo)是投資回報(bào)率(IRR)和夏普比率(Sharpe Ratio)。這些指標(biāo)的值越高,預(yù)測效果越好。

          投資回報(bào)率(IRR)。 IRR是一種用于衡量投資績效的度量標(biāo)準(zhǔn),它計(jì)算當(dāng)前時(shí)間(pt)資產(chǎn)價(jià)值與上一時(shí)間(pt-1)資產(chǎn)價(jià)值之間的百分比差異,再除以上一時(shí)間(pt-1)的資產(chǎn)價(jià)值。公式如下:

          38858dd58cfcc08e594583a3a7b4a8d1.webp

          夏普比率(Sharpe Ratio,SR)。 SR是一種用于衡量投資回報(bào)與風(fēng)險(xiǎn)之間關(guān)系的度量標(biāo)準(zhǔn),它計(jì)算投資回報(bào)與無風(fēng)險(xiǎn)利率之間的差異與投資回報(bào)的標(biāo)準(zhǔn)差之間的比率。公式如下:

          f4d3e4cc2f348334c20c2d8aae26af8c.webp

          其中,????表示回報(bào),????表示無風(fēng)險(xiǎn)利率,??表示回報(bào)的標(biāo)準(zhǔn)差。

          平均年度回報(bào)率(AAR)。 ARR是一種用于衡量共同基金的歷史平均回報(bào)率的度量指標(biāo)。與內(nèi)部收益率(IRR)不同,AAR以年度為基礎(chǔ)計(jì)算回報(bào)率,適用于評(píng)估長期投資的表現(xiàn)。 AAR的計(jì)算通常涉及將投資期內(nèi)總回報(bào)除以投資期內(nèi)的平均本金,并乘以投資年數(shù)。

          5  總結(jié)展望

          股市預(yù)測任務(wù)極大地促進(jìn)了機(jī)器學(xué)習(xí)的進(jìn)步,特別是在自然語言處理(NLP)和強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域。然而,為了進(jìn)一步完善和發(fā)展該領(lǐng)域,仍然存在一些潛在的研究方向和懸而未決的問題需要解決。

          1. 高股市預(yù)測 的泛化能力。 機(jī)器學(xué)習(xí)模型的泛化能力是指在未見過的數(shù)據(jù)上進(jìn)行準(zhǔn)確分類或預(yù)測的能力。在股市預(yù)測中,深度學(xué)習(xí)模型需 要具 備高度時(shí)不變性和強(qiáng)大的泛化能力。傳統(tǒng)方法難以泛化到真實(shí)交易場景或在某些未見過的數(shù)據(jù)子集上表現(xiàn)不佳。最近的研究表明,將自監(jiān)督學(xué)習(xí)任務(wù)納入分類任務(wù)可以改善泛化能力。在股市預(yù)測領(lǐng)域,探索現(xiàn)有或開發(fā)新的自監(jiān)督學(xué)習(xí)方法來增強(qiáng)泛化能力是一個(gè)充滿前景的方向。

          2. 將深度學(xué)習(xí)技術(shù)與在線學(xué)習(xí)方法相結(jié)合。 在線學(xué)習(xí)是一種利用在線培訓(xùn)結(jié)果反饋來優(yōu)化模型的培訓(xùn)方法,特別適用于減輕股票市場波動(dòng)性、不確定性和高噪音因素的影響。它能夠自動(dòng)更新模型并控制預(yù)測結(jié)果與期望值之間的差異,對(duì)于股票市場投資策略具有很高的價(jià)值。此外,在線學(xué)習(xí)還可以應(yīng)用于處理突然變化的時(shí)間序列,如檢測道瓊斯工業(yè)平均指數(shù)的每日結(jié)果變化。整合在線學(xué)習(xí)和機(jī)器學(xué)習(xí)對(duì)于股票市場預(yù)測具有巨大的潛力。
          3. 改進(jìn)股市預(yù)測的評(píng)估和數(shù)據(jù)集。 目前許多股市預(yù)測模型僅評(píng)估中間績效指標(biāo),缺乏對(duì)實(shí)際交易系統(tǒng)的支持,且缺乏統(tǒng) 一的盈利能力評(píng)估標(biāo)準(zhǔn)。新模型應(yīng)該評(píng)估與財(cái)務(wù)相關(guān)的指標(biāo),包括利潤標(biāo)準(zhǔn)、風(fēng)險(xiǎn)標(biāo)準(zhǔn)和風(fēng)險(xiǎn)利潤標(biāo)準(zhǔn)。此外,股市預(yù)測任務(wù)缺乏統(tǒng)一的基準(zhǔn)數(shù)據(jù)集和清晰的任務(wù)描述,這阻礙了該領(lǐng)域的進(jìn)步。
          4. 改進(jìn)股市預(yù)測的時(shí)間序列異常檢測。 在金融市場不穩(wěn)定的情況下,從數(shù)千只股票中快速識(shí)別表現(xiàn)不佳的股票是一個(gè)實(shí)用的問題。常見的股市預(yù)測模型未能考慮異常值,因此需要時(shí)間異常檢測來捕獲最佳交易點(diǎn),降低投資風(fēng)險(xiǎn)。該模型還可用于多個(gè)金融時(shí)間序列數(shù)據(jù)集的建模和異常檢測。因此,設(shè)計(jì)一種基于時(shí)間序列異常檢測任務(wù)的更好機(jī)制是未來重要的研究方向,以便在現(xiàn)實(shí)世界交易中捕獲預(yù)測任務(wù)的最佳交易點(diǎn)。
          5. 股市預(yù)測的多任務(wù)持續(xù)學(xué)習(xí)。 持續(xù)學(xué)習(xí)是一種允許神經(jīng)網(wǎng)絡(luò)在連續(xù)的任務(wù)中積累知識(shí) 減輕災(zāi)難性遺忘的 技術(shù) 。在股票預(yù)測任務(wù)中,持續(xù)學(xué)習(xí)模型可以自主獲取新技能、適應(yīng)新情況、完成新任務(wù),以應(yīng)對(duì)股市環(huán)境的劇烈波動(dòng)。現(xiàn)有的股票市場預(yù)測任務(wù)在單個(gè)數(shù)據(jù)集上評(píng)估單個(gè)任務(wù),持續(xù)學(xué)習(xí)方法有助于同一個(gè)模型輸出多個(gè)任務(wù),同時(shí)對(duì)多個(gè)任務(wù)進(jìn)行評(píng)估,提高了準(zhǔn)確性。
          6. 利用分布式強(qiáng)化學(xué)習(xí)進(jìn)行股票交易。 金融市場的波動(dòng)性和噪音使得量化交易算法在平衡利潤和風(fēng)險(xiǎn)方面具有挑戰(zhàn)性。分布式強(qiáng)化學(xué)習(xí)是一種可能的解決方案,通過使用定義的隨機(jī)變量形成分布式貝爾曼等式,超越了傳統(tǒng)的方法。分布式強(qiáng)化學(xué)習(xí)可以提供更多關(guān)于收益分布的信息,降低風(fēng)險(xiǎn)或提高穩(wěn)健性,并且在Atari游戲中的算法得分高于人類玩家。然而,在金融交易中的應(yīng)用仍需進(jìn)一步探索,因此值得探討其在這一領(lǐng)域的潛力。
          7. 將股票交易視為部分可觀察的馬爾可夫決策過程。 強(qiáng)化學(xué)習(xí)算法在金融交易中廣泛應(yīng)用,其中包括無模型方法。然而,這些方法不能準(zhǔn)確反映金融市場的開放和不斷變化的性質(zhì)。未來的研究有兩種解決方案,一是收集所有交易以充分觀察動(dòng)態(tài),這需要大量的存儲(chǔ)和計(jì)算資源;二是使用基于模型的強(qiáng)化學(xué)習(xí)方法來近似動(dòng)力學(xué),這種方法具有相當(dāng)大的潛力,值得探索。使用過渡動(dòng)態(tài)模型可以進(jìn)行更長期的規(guī)劃。

          更多精彩內(nèi)容請(qǐng)點(diǎn)擊:機(jī)器學(xué)習(xí)文章精選!

          關(guān)注??公眾號(hào),回復(fù)【SDGP】可下載原文獻(xiàn)

          0f831b83dc46156531235157b27e639e.webp
          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本操逼网站 | 乱伦色网站 | 国产大片无码内射 | 国产内射在线观看 | 欧美成人一区二区 |