青青青青青操爽,黄片福利视频,青青草色视频,日韩色图视频,成人永久免费,国产aaa,麻豆精品秘国产视频,美女自慰网站免费看

   
    
     
      
       
        本文約3500字，建議閱讀10分鐘
        本文帶你了解iTransformer，更好地利用注意力機(jī)制進(jìn)行多變量關(guān)聯(lián)。

1 介紹

Transformer在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)優(yōu)秀，但在時間序列預(yù)測方面不如線性模型。

將多個變量嵌入不可區(qū)分的通道并應(yīng)用注意力時，性能和效率不如簡單線性層，Transformer難以捕獲多元相關(guān)性（圖1），而線性模型可以更好地模擬多元相關(guān)性以實(shí)現(xiàn)準(zhǔn)確的預(yù)測。研究人員提出iTransformer，將每個變量的整個時間序列獨(dú)立地嵌入到一個token中，以擴(kuò)大局部感受野，更好地利用注意力機(jī)制進(jìn)行多變量關(guān)聯(lián)。

圖1 普通Transformer（上）和提出的iTransformer（下）之間的比較。Transformer嵌入了時間標(biāo)記，其中包含每個時間步的多變量表示。iTransformer將每個序列獨(dú)立地嵌入到變量標(biāo)記中，這樣注意力模塊就可以描述多變量相關(guān)性，前饋網(wǎng)絡(luò)可以對序列表示進(jìn)行編碼。

iTransformer是重新審視Transformer結(jié)構(gòu)后提出的時間序列預(yù)測基礎(chǔ)，采用注意力機(jī)制進(jìn)行多元相關(guān)性分析，并采用前饋網(wǎng)絡(luò)進(jìn)行序列表示。實(shí)驗(yàn)表明，iTransformer在真實(shí)世界預(yù)測基準(zhǔn)上取得了最先進(jìn)的性能，解決了基于Transformer的預(yù)測器的難點(diǎn)。

Transformer變體被提出用于時間序列預(yù)測，超越了同期TCN和基于RNN的預(yù)測。

現(xiàn)有的變體可分為四類：是否修改組件和架構(gòu)，如圖2所示。

第一類主要涉及組件調(diào)整，如注意力模塊和長序列的復(fù)雜性優(yōu)化。

第二類充分利用Transformer，關(guān)注時間序列的內(nèi)在處理。

第三類在組件和架構(gòu)兩方面翻新Transformer，以捕捉跨時間和跨變量的依賴性。

與之前的工作不同，iTransformer沒有修改Transformer的任何原生組件，而是采用反向維度上的組件，并改變其架構(gòu)。

圖2 基于 Transformer 的預(yù)測器按組件和架構(gòu)修改進(jìn)行分類

2 iTransformer

多元時間序列預(yù)測涉及歷史觀測值X和預(yù)測未來值Y。給定T個時間步長和N個變量，預(yù)測未來S個時間步長。數(shù)據(jù)集中變量可能存在系統(tǒng)時間滯后，且變量在物理測量和統(tǒng)計(jì)分布上可能不同。

2.1 結(jié)構(gòu)概述

我們提出的iTransformer采用了Transformer的編碼器架構(gòu)，包括嵌入、投影和Transformer塊，如圖3所示。

圖3 iTransformer的整體結(jié)構(gòu)，與Transformer的編碼器具有相同的模塊化結(jié)構(gòu)。(a)不同變量的原始序列被獨(dú)立地嵌入為標(biāo)記。(b)將自注意力應(yīng)用于嵌入的變量標(biāo)記，增強(qiáng)了可解釋性，揭示了多變量相關(guān)性。(c)通過共享的前饋網(wǎng)絡(luò)提取每個標(biāo)記的序列表示。(d)采用層歸一化來減少變量之間的差異。

將整個序列作為標(biāo)記。在iTransformer中，基于回望序列X:，n預(yù)測每個特定變量?Y:，n的未來序列的過程簡單地表示如下：

其中H={h1, · · · , hN }∈RN×D包含N個維度為D的嵌入表征，上標(biāo)表示層索引。嵌入：RT7→ RD 和投影：RD7→ RS 均由多層感知器（MLP）實(shí)現(xiàn)。變量表征通過自注意力交互，并在每個TrmBlock中由共享的前饋網(wǎng)絡(luò)獨(dú)立處理，不再需要位置嵌入。

iTransformers。該架構(gòu)靈活地使用注意力機(jī)制，允許多元相關(guān)性，并可降低復(fù)雜性。一系列高效的注意力機(jī)制可以作為插件，令牌數(shù)量可在訓(xùn)練和推理之間變化，模型可在任意數(shù)量的變量上進(jìn)行訓(xùn)練。反向Transformer，命名為iTransformers，在時間序列預(yù)測方面具有優(yōu)勢。

2.2 倒置Transformer模塊分析

我們組織了由層歸一化、前饋網(wǎng)絡(luò)和自注意力模塊組成的 L 塊的堆棧。

層歸一化（Layer normalization）

層歸一化最初用于提高深度網(wǎng)絡(luò)收斂性和穩(wěn)定性，在Transformer預(yù)測器中，對同一時間戳的多變量表示進(jìn)行歸一化。反向版本中，歸一化應(yīng)用于單個變量的序列表示（如公式2），有效處理非平穩(wěn)問題。所有序列標(biāo)記歸一化為高斯分布，減少不一致測量導(dǎo)致的差異。之前的架構(gòu)中，時間步的不同標(biāo)記將被歸一化，導(dǎo)致時間序列過度平滑。

前饋網(wǎng)絡(luò)（Feed-forward network）

Transformer 使用前饋網(wǎng)絡(luò) (FFN) 作為編碼標(biāo)記表示的基本構(gòu)建塊，對每個標(biāo)記應(yīng)用相同的前饋網(wǎng)絡(luò)。在反向版本中，F(xiàn)FN 用于每個變量標(biāo)記的序列表示，通過堆疊反向塊，它們致力于編碼觀測到的時序，并使用密集的非線性連接解碼未來序列的表示。堆疊反向塊可以提取復(fù)雜的表示來描述時間序列，并使用密集的非線性連接解碼未來序列的表示。實(shí)驗(yàn)表明，分工有助于享受線性層在性能和泛化能力方面的好處。

自注意力（Self-attention）

逆模型將時間序列視為獨(dú)立過程，通過自注意力模塊全面提取時間序列表示，采用線性投影獲取查詢、鍵和值，計(jì)算前Softmax分?jǐn)?shù)，揭示變量之間的相關(guān)性，為多元序列預(yù)測提供更自然和可解釋的機(jī)制。

3 實(shí)驗(yàn)

我們?nèi)嬖u估了iTransformer在時間序列預(yù)測應(yīng)用中的性能，驗(yàn)證了其通用性，并探討了Transformer組件在時間序列反向維度的應(yīng)用效果。

在實(shí)驗(yàn)中，我們使用了7個真實(shí)數(shù)據(jù)集，包括ECL、ETT、Exchange、Traffic、Weather、太陽能和PEMS，以及Market數(shù)據(jù)集。我們始終優(yōu)于其他基線。附錄A.1提供了詳細(xì)的數(shù)據(jù)集描述。

3.1 預(yù)測結(jié)果

本文進(jìn)行了廣泛的實(shí)驗(yàn)，評估提出的模型與先進(jìn)深度預(yù)測器的預(yù)測性能。選擇10個廣為人知的預(yù)測模型作為基準(zhǔn)，包括基于Transformer、線性和TCN的方法。

表1 預(yù)測長度S ∈ {12, 24, 36, 48}的PEMS和S ∈ {96, 192, 336, 720}的其他預(yù)測的多元預(yù)測結(jié)果，固定回溯長度T = 96。結(jié)果來自所有預(yù)測長度的平均值。Avg表示進(jìn)一步按子集平均。完整結(jié)果列于附錄F.4

結(jié)果顯示，iTransformer模型在預(yù)測高維時間序列方面表現(xiàn)最佳，優(yōu)于其他預(yù)測器。PatchTST在某些情況下失敗，可能是因?yàn)槠湫扪a(bǔ)機(jī)制無法處理快速波動。相比之下，iTransformer將整個序列變化聚合為序列表示，可以更好地應(yīng)對這種情況。Crossformer的性能仍然低于iTransformer，表明來自不同多元的時間不一致的補(bǔ)丁的相互作用會給預(yù)測帶來不必要的噪聲。因此，原生的Transformer組件能夠勝任時間建模和多元相關(guān)，而提出的反向架構(gòu)可以有效地處理現(xiàn)實(shí)世界的時間序列預(yù)測場景。

3.2 iTransformer框架通用性

本節(jié)應(yīng)用框架評估了Transformer變體，如Reformer、Informer、Flowformer和FlashAttention，以提高預(yù)測器性能，提高效率，泛化未知變量，更好地利用歷史觀測。

可以提升預(yù)測效果！

該框架在Transformer上實(shí)現(xiàn)了平均38.9%的提升，在Reformer上實(shí)現(xiàn)了36.1%的提升，在Informer上實(shí)現(xiàn)了28.5%的提升，在Flowformer上實(shí)現(xiàn)了16.8%的提升，在Flashformer上實(shí)現(xiàn)了32.2%的提升。由于引入了高效的線性復(fù)雜度注意力，iTransformer解決了大量變量導(dǎo)致的計(jì)算問題。因此，iTransformer的思想可以在基于Transformer的預(yù)測器上廣泛實(shí)踐。

表2 我們的倒置框架所獲得的性能提升。Flashformer是指配備硬件加速FlashAttention的Transformer。我們報(bào)告了平均性能和相對MSE降低（提升）。完整結(jié)果見附錄F.2

能泛化未知變量！

iTransformer模型通過反轉(zhuǎn)常規(guī)變換器，在不可見變量上具有泛化能力。輸入標(biāo)記數(shù)量靈活，變量通道數(shù)量不受限制。前饋網(wǎng)絡(luò)獨(dú)立應(yīng)用于變量標(biāo)記，學(xué)習(xí)共享和轉(zhuǎn)移的時間序列模式。與通道獨(dú)立性策略相比，iTransformer直接預(yù)測所有變量，性能通常較小，表明FFN能夠?qū)W習(xí)可轉(zhuǎn)移的時間序列表示，如圖4所示。這為在iTransformer的基礎(chǔ)上構(gòu)建基礎(chǔ)模型提供了潛在方向。

圖4 在不可見變量上的泛化性能。我們將每個數(shù)據(jù)集的變量分為五個文件夾，用20%的變量訓(xùn)練模型，并使用部分訓(xùn)練的模型預(yù)測所有變量。iTransformers可以高效地訓(xùn)練并具有良好的泛化能力。

可以使用更長的歷史觀測！

預(yù)測性能不一定隨Transformers回溯長度增加而提高，可能是因?yàn)樽⒁饬Ψ稚ⅰＨ欢€性預(yù)測理論上得到了統(tǒng)計(jì)方法的支持，并利用了擴(kuò)大的歷史信息。我們在圖5中評估了Transformers和iTransformer在增加回溯長度情況下的性能，發(fā)現(xiàn)利用MLP在時間維度上更合理，使得Transformers可以從擴(kuò)展的回溯窗口中受益，進(jìn)行更精確的預(yù)測。

圖5 在回溯長度T ∈ {48, 96, 192, 336, 720}和固定預(yù)測長度S = 96的情況下預(yù)測性能。雖然基于Transformer的預(yù)測器的性能不一定受益于增加的回溯長度，但反向框架使普通Transformer及其變體在擴(kuò)大的回溯窗口上具有更高的性能。

3.3 模型分析

消融研究。為驗(yàn)證Transformers組件的合理性，進(jìn)行了消融實(shí)驗(yàn)，包括更換組件（Replace）和移除組件（w/o）實(shí)驗(yàn)。結(jié)果如表3顯示，iTransformer性能最佳，普通Transformer性能最差，揭示了傳統(tǒng)架構(gòu)的潛在風(fēng)險(xiǎn)。

表3 在iTransformer上進(jìn)行消融。除了刪除組件外，我們還替換各個維度上的不同組件，以學(xué)習(xí)多元相關(guān)性（變量）和序列表示（時間）。此處列出了所有預(yù)測長度的平均結(jié)果。

分析序列表示。為驗(yàn)證前饋網(wǎng)絡(luò)有利于提取序列表示，我們根據(jù)CKA相似性進(jìn)行了表示分析。結(jié)果顯示，iTransformers通過反轉(zhuǎn)維度學(xué)習(xí)到更合適的序列表示，實(shí)現(xiàn)了更準(zhǔn)確的預(yù)測，如圖6。這表明反轉(zhuǎn)Transformer值得對預(yù)測主干進(jìn)行根本性改造。

圖6 系列表示和多元相關(guān)性的分析。左圖：比較Transformer和iTransformer之間的表示的均方誤差（MSE）和CKA相似性。較高的CKA相似性表明更有利于準(zhǔn)確預(yù)測的表示。右圖：原始時間序列和倒轉(zhuǎn)自我關(guān)注學(xué)習(xí)得出的分?jǐn)?shù)映射的多元相關(guān)性的實(shí)例可視化。

多元相關(guān)性分析。通過分配多元相關(guān)性責(zé)任給注意力機(jī)制，學(xué)習(xí)到的映射具有增強(qiáng)的可解釋性。如圖6太陽能案例中，淺層注意力層與原始輸入序列相關(guān)性相似，深層則與未來序列相關(guān)性相似，驗(yàn)證了反向操作可提供可解釋的注意力。

高效的訓(xùn)練策略。本文提出了一種新的訓(xùn)練策略，通過利用先前證明的變量生成能力來訓(xùn)練高維多元序列。具體來說，在每個批中隨機(jī)選擇部分變量，只使用選定的變量訓(xùn)練模型。由于我們的反演，變量通道的數(shù)量是靈活的，因此模型可以預(yù)測所有變量進(jìn)行預(yù)測。如圖7所示，我們提出的策略的性能仍然與全變量訓(xùn)練相當(dāng)，同時內(nèi)存占用可以顯著減少。

圖7 高效訓(xùn)練策略分析。雖然性能（左）在每批不同采樣比的部分訓(xùn)練變量上保持穩(wěn)定，但內(nèi)存占用（右）可以大大減少。附錄D中提供了全面的模型效率分析。

參考資料：《 ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING》

代碼：http://github.com/thuml/iTransformer

編輯：黃繼彥

時間序列+Transformer！