<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【論文解讀】AAAI21最佳論文Informer:效果遠超Transformer的長序列預測神器!

          共 4320字,需瀏覽 9分鐘

           ·

          2021-02-12 04:10

          ?煉丹筆記干貨?
          作者:一元,四品煉丹師

          Informer:最強最快的序列預測神器


          01

          簡介

          在很多實際應(yīng)用問題中,我們需要對長序列時間序列進行預測,例如用電使用規(guī)劃。長序列時間序列預測(LSTF)要求模型具有很高的預測能力,即能夠有效地捕捉輸出和輸入之間精確的長程相關(guān)性耦合。最近的研究表明,Transformer具有提高預測能力的潛力。

          然而,Transformer存在一些嚴重的問題,如:

          • 二次時間復雜度、高內(nèi)存使用率以及encoder-decoder體系結(jié)構(gòu)的固有限制

          為了解決這些問題,我們設(shè)計了一個有效的基于變換器的LSTF模型Informer,它具有三個顯著的特點:

          • ProbSparse Self-Attention,在時間復雜度和內(nèi)存使用率上達到了,在序列的依賴對齊上具有相當?shù)男阅堋?/span>
          • self-attention 提取通過將級聯(lián)層輸入減半來突出控制注意,并有效地處理超長的輸入序列。
          • 產(chǎn)生式decoder雖然概念上簡單,但在一個正向操作中預測長時間序列,而不是一步一步地進行,這大大提高了長序列預測的推理速度。

          在四個大規(guī)模數(shù)據(jù)集上的大量實驗表明,Informer的性能明顯優(yōu)于現(xiàn)有的方法,為LSTF問題提供了一種新的解決方案。

          02

          背景


          ?

          Intuition:Transformer是否可以提高計算、內(nèi)存和架構(gòu)效率,以及保持更高的預測能力?

          原始Transformer的問題


          • self-attention的二次計算復雜度,self-attention機制的操作,會導致我們模型的時間復雜度為;
          • 長輸入的stacking層的內(nèi)存瓶頸:J個encoder/decoder的stack會導致內(nèi)存的使用為;
          • 預測長輸出的速度驟降:動態(tài)的decoding會導致step-by-step的inference非常慢。

          本文的重大貢獻


          本文提出的方案同時解決了上面的三個問題,我們研究了在self-attention機制中的稀疏性問題,本文的貢獻有如下幾點:

          • 我們提出Informer來成功地提高LSTF問題的預測能力,這驗證了類Transformer模型的潛在價值,以捕捉長序列時間序列輸出和輸入之間的單個的長期依賴性;
          • 我們提出了ProbSparse self-attention機制來高效的替換常規(guī)的self-attention并且獲得了的時間復雜度以及的內(nèi)存使用率
          • 我們提出了self-attention distilling操作全縣,它大幅降低了所需的總空間復雜度;
          • 我們提出了生成式的Decoder來獲取長序列的輸出,這只需要一步,避免了在inference階段的累計誤差傳播;

          問題定義


          在固定size的窗口下的rolling預測中,我們在時刻的輸入為,我們需要預測對應(yīng)的輸出序列,LSTF問題鼓勵輸出一個更長的輸出,特征維度不再依賴于univariate例子().

          • Encoder-decoder框架:許多流行的模型被設(shè)計對輸入表示進行編碼,將編碼為一個隱藏狀態(tài)表示并且將輸出的表示解碼.在推理的過程中設(shè)計到step-by-step的過程(dynamic decoding),decoder從前一個狀態(tài)計算一個新的隱藏狀態(tài)以及第步的輸出,然后對個序列進行預測

          • 輸入表示:為了增強時間序列輸入的全局位置上下文和局部時間上下文,給出了統(tǒng)一的輸入表示。

          03

          方法


          現(xiàn)有時序方案預測可以被大致分為兩類:

          高效的Self-Attention機制


          傳統(tǒng)的self-attention主要由(query,key,value)組成,,其中;第個attention被定義為核平滑的概率形式:

          self-attention需要的內(nèi)存以及二次的點積計算代價,這是預測能力的主要缺點。

          我們首先對典型自我注意的學習注意模式進行定性評估?!跋∈栊浴?self-attention得分形成長尾分布,即少數(shù)點積對主要注意有貢獻,其他點積對可以忽略。那么,下一個問題是如何區(qū)分它們?

          Query Sparsity評估


          我們定義第個query sparsity第評估為:

          第一項是在所有keys的Log-Sum-Exp(LSE),第二項是arithmetic均值。

          ProbSparse Self-attention

          其中是和q相同size的稀疏矩陣,它僅包含稀疏評估下下Top-u的queries,由采樣factor 所控制,我們令, 這么做self-attention對于每個query-key lookup就只需要計算的內(nèi)積,內(nèi)存的使用包含,但是我們計算的時候需要計算沒對的dot-product,即,,同時LSE還會帶來潛在的數(shù)值問題,受此影響,本文提出了query sparsity 評估的近似,即:

          這么做可以將時間和空間復雜度控制到

          04

          方法Encoder + Decoder

          1. Encoder: Allowing for processing longer sequential inputs under the memory usage limitation

          encoder被設(shè)計用來抽取魯棒的長序列輸入的long-range依賴,在第個序列輸入被轉(zhuǎn)為矩陣

          Self-attention Distilling

          作為ProbSparse Self-attention的自然結(jié)果,encoder的特征映射會帶來值的冗余組合,利用distilling對具有支配特征的優(yōu)勢特征進行特權(quán)化,并在下一層生成focus self-attention特征映射。

          它對輸入的時間維度進行了銳利的修剪,如上圖所示,n個頭部權(quán)重矩陣(重疊的紅色方塊)。受擴展卷積的啟發(fā),我們的“distilling”過程從第j層往推進:

          其中包含Multi-Head ProbSparse self-attention以及重要的attention block的操作。

          為了增強distilling操作的魯棒性,我們構(gòu)建了halving replicas,并通過一次刪除一層(如上圖)來逐步減少自關(guān)注提取層的數(shù)量,從而使它們的輸出維度對齊。因此,我們將所有堆棧的輸出串聯(lián)起來,并得到encoder的最終隱藏表示。

          2. Decoder: Generating long sequential outputs through one forward procedure

          此處使用標準的decoder結(jié)構(gòu),由2個一樣的multihead attention層,但是,生成的inference被用來緩解速度瓶頸,我們使用下面的向量喂入decoder:

          其中,是start tocken, ~~是一個placeholder,將Masked multi-head attention應(yīng)用于ProbSparse self-attention,將mask的點積設(shè)置為。它可以防止每個位置都關(guān)注未來的位置,從而避免了自回歸。一個完全連接的層獲得最終的輸出,它的超大小取決于我們是在執(zhí)行單變量預測還是在執(zhí)行多變量預測。

          Generative Inference

          我們從長序列中采樣一個,這是在輸出序列之前的slice。

          以圖中預測168個點為例(7天溫度預測),我們將目標序列已知的前5天的值作為“start token”,并將輸入生成式推理解碼器。

          包含目標序列的時間戳,即目標周的上下文。注意,我們提出的decoder通過一個前向過程預測所有輸出,并且不存在耗時的“dynamic decoding”。

          Loss Function

          此處選用MSE 損失函數(shù)作為最終的Loss。

          05

          實驗

          1. 實驗效果

          從上表中,我們發(fā)現(xiàn):

          • 所提出的模型Informer極大地提高了所有數(shù)據(jù)集的推理效果(最后一列的獲勝計數(shù)),并且在不斷增長的預測范圍內(nèi),它們的預測誤差平穩(wěn)而緩慢地上升。
          • query sparsity假設(shè)在很多數(shù)據(jù)集上是成立的;
          • Informer在很多數(shù)據(jù)集上遠好于LSTM和ERNN

          2. 參數(shù)敏感性

          從上圖中,我們發(fā)現(xiàn):

          • Input Length:當預測短序列(如48)時,最初增加編碼器/解碼器的輸入長度會降低性能,但進一步增加會導致MSE下降,因為它會帶來重復的短期模式。然而,在預測中,輸入時間越長,平均誤差越低:信息者的參數(shù)敏感性。長序列(如168)。因為較長的編碼器輸入可能包含更多的依賴項;
          • Sampling Factor:我們驗證了冗余點積的查詢稀疏性假設(shè);實踐中,我們把sample factor設(shè)置為5即可,即;
          • Number of Layer Stacking:Longer stack對輸入更敏感,部分原因是接收到的長期信息較多

          3. 解耦實驗

          從上表中我們發(fā)現(xiàn),

          • ProbSparse self-attention機制的效果:ProbSparse self-attention的效果更好,而且可以節(jié)省很多內(nèi)存消耗;
          • self-attention distilling:是值得使用的,尤其是對長序列進行預測的時候;
          • generative stype decoderL:它證明了decoder能夠捕獲任意輸出之間的長依賴關(guān)系,避免了誤差的積累;

          4. 計算高效性

          • 在訓練階段,在基于Transformer的方法中,Informer獲得了最佳的訓練效率。
          • 在測試階段,我們的方法比其他生成式decoder方法要快得多。

          06

          小結(jié)

          本文研究了長序列時間序列預測問題,提出了長序列預測的Informer方法。具體地:

          • 設(shè)計了ProbSparse self-attention和提取操作來處理vanilla Transformer中二次時間復雜度和二次內(nèi)存使用的挑戰(zhàn)。
          • generative decoder緩解了傳統(tǒng)編解碼結(jié)構(gòu)的局限性。
          • 通過對真實數(shù)據(jù)的實驗,驗證了Informer對提高預測能力的有效性
          參考文獻
          1. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting:https://arxiv.org/pdf/2012.07436.pdf

          往期精彩回顧





          1. 適合初學者入門人工智能的路線及資料下載

          2. 機器學習及深度學習筆記等資料打印

          3. 機器學習在線手冊

          4. 深度學習筆記專輯

          5. 《統(tǒng)計學習方法》的代碼復現(xiàn)專輯

          6. AI基礎(chǔ)下載

          7. 機器學習的數(shù)學基礎(chǔ)專輯

          本站qq群704220115,加入微信群請掃碼:

          瀏覽 68
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久热青草视频 | 久草天堂 | 亚洲AV无码成人精品一区 | 国产一级国产一级毛片 | 日韩少夫毛片 |