<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          時間序列+Transformer!

          共 5969字,需瀏覽 12分鐘

           ·

          2024-04-12 04:01

             

          本文約3500字,建議閱讀10分鐘

          本文帶你了解iTransformer,更好地利用注意力機(jī)制進(jìn)行多變量關(guān)聯(lián)。


          1  介紹
          Transformer在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)優(yōu)秀,但在時間序列預(yù)測方面不如線性模型。
          將多個變量嵌入不可區(qū)分的通道并應(yīng)用注意力時,性能和效率不如簡單線性層,Transformer難以捕獲多元相關(guān)性(圖1),而線性模型可以更好地模擬多元相關(guān)性以實(shí)現(xiàn)準(zhǔn)確的預(yù)測。研究人員提出iTransformer,將每個變量的整個時間序列獨(dú)立地嵌入到一個token中,以擴(kuò)大局部感受野,更好地利用注意力機(jī)制進(jìn)行多變量關(guān)聯(lián)。

          圖1 普通Transformer(上)和提出的iTransformer(下)之間的比較。Transformer嵌入了時間標(biāo)記,其中包含每個時間步的多變量表示。iTransformer將每個序列獨(dú)立地嵌入到變量標(biāo)記中,這樣注意力模塊就可以描述多變量相關(guān)性,前饋網(wǎng)絡(luò)可以對序列表示進(jìn)行編碼。


          iTransformer是重新審視Transformer結(jié)構(gòu)后提出的時間序列預(yù)測基礎(chǔ),采用注意力機(jī)制進(jìn)行多元相關(guān)性分析,并采用前饋網(wǎng)絡(luò)進(jìn)行序列表示。實(shí)驗(yàn)表明,iTransformer在真實(shí)世界預(yù)測基準(zhǔn)上取得了最先進(jìn)的性能,解決了基于Transformer的預(yù)測器的難點(diǎn)。

          Transformer變體被提出用于時間序列預(yù)測,超越了同期TCN和基于RNN的預(yù)測。

          現(xiàn)有的變體可分為四類:是否修改組件和架構(gòu),如圖2所示。

          第一類主要涉及組件調(diào)整,如注意力模塊和長序列的復(fù)雜性優(yōu)化。

          第二類充分利用Transformer,關(guān)注時間序列的內(nèi)在處理。

          第三類在組件和架構(gòu)兩方面翻新Transformer,以捕捉跨時間和跨變量的依賴性。

          與之前的工作不同,iTransformer沒有修改Transformer的任何原生組件,而是采用反向維度上的組件,并改變其架構(gòu)。

          圖2 基于 Transformer 的預(yù)測器按組件和架構(gòu)修改進(jìn)行分類

          2  iTransformer

          多元時間序列預(yù)測涉及歷史觀測值X和預(yù)測未來值Y。給定T個時間步長和N個變量,預(yù)測未來S個時間步長。數(shù)據(jù)集中變量可能存在系統(tǒng)時間滯后,且變量在物理測量和統(tǒng)計(jì)分布上可能不同。

          2.1  結(jié)構(gòu)概述

          我們提出的iTransformer采用了Transformer的編碼器架構(gòu),包括嵌入、投影和Transformer塊,如圖3所示。

          圖3 iTransformer的整體結(jié)構(gòu),與Transformer的編碼器具有相同的模塊化結(jié)構(gòu)。(a)不同變量的原始序列被獨(dú)立地嵌入為標(biāo)記。(b)將自注意力應(yīng)用于嵌入的變量標(biāo)記,增強(qiáng)了可解釋性,揭示了多變量相關(guān)性。(c)通過共享的前饋網(wǎng)絡(luò)提取每個標(biāo)記的序列表示。(d)采用層歸一化來減少變量之間的差異。

          將整個序列作為標(biāo)記。在iTransformer中,基于回望序列X:,n預(yù)測每個特定變量?Y:,n的未來序列的過程簡單地表示如下:




          其中H={h1, · · · , hN }∈RN×D包含N個維度為D的嵌入表征,上標(biāo)表示層索引。嵌入:RT7→ RD 和投影:RD7→ RS 均由多層感知器(MLP)實(shí)現(xiàn)。變量表征通過自注意力交互,并在每個TrmBlock中由共享的前饋網(wǎng)絡(luò)獨(dú)立處理,不再需要位置嵌入。

          iTransformers。該架構(gòu)靈活地使用注意力機(jī)制,允許多元相關(guān)性,并可降低復(fù)雜性。一系列高效的注意力機(jī)制可以作為插件,令牌數(shù)量可在訓(xùn)練和推理之間變化,模型可在任意數(shù)量的變量上進(jìn)行訓(xùn)練。反向Transformer,命名為iTransformers,在時間序列預(yù)測方面具有優(yōu)勢。

          2.2  倒置Transformer模塊分析 

          我們組織了由層歸一化、前饋網(wǎng)絡(luò)和自注意力模塊組成的 L 塊的堆棧。

          層歸一化(Layer normalization)

          層歸一化最初用于提高深度網(wǎng)絡(luò)收斂性和穩(wěn)定性,在Transformer預(yù)測器中,對同一時間戳的多變量表示進(jìn)行歸一化。反向版本中,歸一化應(yīng)用于單個變量的序列表示(如公式2),有效處理非平穩(wěn)問題。所有序列標(biāo)記歸一化為高斯分布,減少不一致測量導(dǎo)致的差異。之前的架構(gòu)中,時間步的不同標(biāo)記將被歸一化,導(dǎo)致時間序列過度平滑。

          前饋網(wǎng)絡(luò)(Feed-forward network)

          Transformer 使用前饋網(wǎng)絡(luò) (FFN) 作為編碼標(biāo)記表示的基本構(gòu)建塊,對每個標(biāo)記應(yīng)用相同的前饋網(wǎng)絡(luò)。在反向版本中,F(xiàn)FN 用于每個變量標(biāo)記的序列表示,通過堆疊反向塊,它們致力于編碼觀測到的時序,并使用密集的非線性連接解碼未來序列的表示。堆疊反向塊可以提取復(fù)雜的表示來描述時間序列,并使用密集的非線性連接解碼未來序列的表示。實(shí)驗(yàn)表明,分工有助于享受線性層在性能和泛化能力方面的好處。

          自注意力(Self-attention)

          逆模型將時間序列視為獨(dú)立過程,通過自注意力模塊全面提取時間序列表示,采用線性投影獲取查詢、鍵和值,計(jì)算前Softmax分?jǐn)?shù),揭示變量之間的相關(guān)性,為多元序列預(yù)測提供更自然和可解釋的機(jī)制。

          3  實(shí)驗(yàn)

          我們?nèi)嬖u估了iTransformer在時間序列預(yù)測應(yīng)用中的性能,驗(yàn)證了其通用性,并探討了Transformer組件在時間序列反向維度的應(yīng)用效果。

          在實(shí)驗(yàn)中,我們使用了7個真實(shí)數(shù)據(jù)集,包括ECL、ETT、Exchange、Traffic、Weather、太陽能和PEMS,以及Market數(shù)據(jù)集。我們始終優(yōu)于其他基線。附錄A.1提供了詳細(xì)的數(shù)據(jù)集描述。

          3.1  預(yù)測結(jié)果

          本文進(jìn)行了廣泛的實(shí)驗(yàn),評估提出的模型與先進(jìn)深度預(yù)測器的預(yù)測性能。選擇10個廣為人知的預(yù)測模型作為基準(zhǔn),包括基于Transformer、線性和TCN的方法。

          表1 預(yù)測長度S ∈ {12, 24, 36, 48}的PEMS和S ∈ {96, 192, 336, 720}的其他預(yù)測的多元預(yù)測結(jié)果,固定回溯長度T = 96。結(jié)果來自所有預(yù)測長度的平均值。Avg表示進(jìn)一步按子集平均。完整結(jié)果列于附錄F.4

          結(jié)果顯示,iTransformer模型在預(yù)測高維時間序列方面表現(xiàn)最佳,優(yōu)于其他預(yù)測器。PatchTST在某些情況下失敗,可能是因?yàn)槠湫扪a(bǔ)機(jī)制無法處理快速波動。相比之下,iTransformer將整個序列變化聚合為序列表示,可以更好地應(yīng)對這種情況。Crossformer的性能仍然低于iTransformer,表明來自不同多元的時間不一致的補(bǔ)丁的相互作用會給預(yù)測帶來不必要的噪聲。因此,原生的Transformer組件能夠勝任時間建模和多元相關(guān),而提出的反向架構(gòu)可以有效地處理現(xiàn)實(shí)世界的時間序列預(yù)測場景。

          3.2  iTransformer框架通用性

          本節(jié)應(yīng)用框架評估了Transformer變體,如Reformer、Informer、Flowformer和FlashAttention,以提高預(yù)測器性能,提高效率,泛化未知變量,更好地利用歷史觀測。

          可以提升預(yù)測效果!

          該框架在Transformer上實(shí)現(xiàn)了平均38.9%的提升,在Reformer上實(shí)現(xiàn)了36.1%的提升,在Informer上實(shí)現(xiàn)了28.5%的提升,在Flowformer上實(shí)現(xiàn)了16.8%的提升,在Flashformer上實(shí)現(xiàn)了32.2%的提升。由于引入了高效的線性復(fù)雜度注意力,iTransformer解決了大量變量導(dǎo)致的計(jì)算問題。因此,iTransformer的思想可以在基于Transformer的預(yù)測器上廣泛實(shí)踐。

          表2 我們的倒置框架所獲得的性能提升。Flashformer是指配備硬件加速FlashAttention的Transformer。我們報(bào)告了平均性能和相對MSE降低(提升)。完整結(jié)果見附錄F.2


          能泛化未知變量!

          iTransformer模型通過反轉(zhuǎn)常規(guī)變換器,在不可見變量上具有泛化能力。輸入標(biāo)記數(shù)量靈活,變量通道數(shù)量不受限制。前饋網(wǎng)絡(luò)獨(dú)立應(yīng)用于變量標(biāo)記,學(xué)習(xí)共享和轉(zhuǎn)移的時間序列模式。與通道獨(dú)立性策略相比,iTransformer直接預(yù)測所有變量,性能通常較小,表明FFN能夠?qū)W習(xí)可轉(zhuǎn)移的時間序列表示,如圖4所示。這為在iTransformer的基礎(chǔ)上構(gòu)建基礎(chǔ)模型提供了潛在方向。

          圖4 在不可見變量上的泛化性能。我們將每個數(shù)據(jù)集的變量分為五個文件夾,用20%的變量訓(xùn)練模型,并使用部分訓(xùn)練的模型預(yù)測所有變量。iTransformers可以高效地訓(xùn)練并具有良好的泛化能力。

          可以使用更長的歷史觀測!

          預(yù)測性能不一定隨Transformers回溯長度增加而提高,可能是因?yàn)樽⒁饬Ψ稚ⅰH欢€性預(yù)測理論上得到了統(tǒng)計(jì)方法的支持,并利用了擴(kuò)大的歷史信息。我們在圖5中評估了Transformers和iTransformer在增加回溯長度情況下的性能,發(fā)現(xiàn)利用MLP在時間維度上更合理,使得Transformers可以從擴(kuò)展的回溯窗口中受益,進(jìn)行更精確的預(yù)測。

          圖5 在回溯長度T ∈ {48, 96, 192, 336, 720}和固定預(yù)測長度S = 96的情況下預(yù)測性能。雖然基于Transformer的預(yù)測器的性能不一定受益于增加的回溯長度,但反向框架使普通Transformer及其變體在擴(kuò)大的回溯窗口上具有更高的性能。

          3.3 模型分析

          消融研究。為驗(yàn)證Transformers組件的合理性,進(jìn)行了消融實(shí)驗(yàn),包括更換組件(Replace)和移除組件(w/o)實(shí)驗(yàn)。結(jié)果如表3顯示,iTransformer性能最佳,普通Transformer性能最差,揭示了傳統(tǒng)架構(gòu)的潛在風(fēng)險(xiǎn)。

          表3 在iTransformer上進(jìn)行消融。除了刪除組件外,我們還替換各個維度上的不同組件,以學(xué)習(xí)多元相關(guān)性(變量)和序列表示(時間)。此處列出了所有預(yù)測長度的平均結(jié)果。


          分析序列表示。為驗(yàn)證前饋網(wǎng)絡(luò)有利于提取序列表示,我們根據(jù)CKA相似性進(jìn)行了表示分析。結(jié)果顯示,iTransformers通過反轉(zhuǎn)維度學(xué)習(xí)到更合適的序列表示,實(shí)現(xiàn)了更準(zhǔn)確的預(yù)測,如圖6。這表明反轉(zhuǎn)Transformer值得對預(yù)測主干進(jìn)行根本性改造。

          圖6 系列表示和多元相關(guān)性的分析。左圖:比較Transformer和iTransformer之間的表示的均方誤差(MSE)和CKA相似性。較高的CKA相似性表明更有利于準(zhǔn)確預(yù)測的表示。右圖:原始時間序列和倒轉(zhuǎn)自我關(guān)注學(xué)習(xí)得出的分?jǐn)?shù)映射的多元相關(guān)性的實(shí)例可視化。

          多元相關(guān)性分析。通過分配多元相關(guān)性責(zé)任給注意力機(jī)制,學(xué)習(xí)到的映射具有增強(qiáng)的可解釋性。如圖6太陽能案例中,淺層注意力層與原始輸入序列相關(guān)性相似,深層則與未來序列相關(guān)性相似,驗(yàn)證了反向操作可提供可解釋的注意力。

          高效的訓(xùn)練策略。本文提出了一種新的訓(xùn)練策略,通過利用先前證明的變量生成能力來訓(xùn)練高維多元序列。具體來說,在每個批中隨機(jī)選擇部分變量,只使用選定的變量訓(xùn)練模型。由于我們的反演,變量通道的數(shù)量是靈活的,因此模型可以預(yù)測所有變量進(jìn)行預(yù)測。如圖7所示,我們提出的策略的性能仍然與全變量訓(xùn)練相當(dāng),同時內(nèi)存占用可以顯著減少。

          圖7 高效訓(xùn)練策略分析。雖然性能(左)在每批不同采樣比的部分訓(xùn)練變量上保持穩(wěn)定,但內(nèi)存占用(右)可以大大減少。附錄D中提供了全面的模型效率分析。

          參考資料:《 ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING》
          代碼:http://github.com/thuml/iTransformer

          編輯:黃繼彥

          瀏覽 79
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久精品观看 | 少妇太爽一区二区三区 | 伊人成人中文字 | 亚洲欧美视频一区 | 青春草无码视频 |