長時間預測模型DLinear、NLinear模型

向AI轉(zhuǎn)型的程序員都關注了這個號??????
今年發(fā)布8月份發(fā)布的一篇有關長時間序列預測(SOTA)的文章,DLinear、NLinear在常用9大數(shù)據(jù)集(包括ETTh1、ETTh2、ETTm1、ETTm2、Traffic等)上MSE最低,模型單變量、多變量實驗數(shù)據(jù):


在計算資源與效率上,DLinear模型時間復雜度為O(L),且模型非常小巧,下面為其他Transformer時間預測模型計算資源與效率:

論文下載:Are Transformers Effective for Time Forecasting,代碼以及使用說明GitHub項目地址
https://github.com/cure-lab/ltsf-linear
這是我第一次做論文解讀,建議大家去認真讀一讀原文,這篇文章寫作很棒,也很值得學習,作者對于Transformer模型在長時間序列問題上效用做了非常詳細的分析。
??基于Transformer的長時間序列預測模型不斷涌現(xiàn),并且性能在過去幾年力不斷提高,但Transformer是否對長時間序列問題有效?
??具體來說,Transformer是提取長序列中各元素間語義關聯(lián)最成功的模型,但是在時間序列模型中,我們需要在一個有序的連續(xù)點集合中提取時間關系。雖然采用位置編碼和使用tokens嵌入子序列有利于保留一些排序信息,但變化無常的自注意力機制不可避免的導致部分時間信息丟失。所以為了驗證我們的想法,我們引入了一組名為LTSF-Linear的簡單單層線性模型,實驗結(jié)果表明LTSF-Linear在所有數(shù)據(jù)集上都出乎意料的優(yōu)于現(xiàn)有基于Transformer的復雜LSTF模型,而且往往有很大優(yōu)勢。
??此外我們還進行了全面的驗證實驗,探討LTSF模型各種設計元素對時間關系提取能力的影響,我們也主張在未來重新檢查Transformer對其他時間序列分析任務的有效性。
簡介
??在當今數(shù)據(jù)驅(qū)動的世界中,時間序列無處不在。考慮到歷史數(shù)據(jù),時間序列預測(TSF)是一項長期的任務,具有廣泛的應用,包括但不限于交通流量估計、能源管理、金融投資。在過去十幾年里,(TSF)解決方案經(jīng)歷了從傳統(tǒng)的統(tǒng)計方法(如ARIMA)和機器學習技術(如GBRT)到基于深度學習的解決方案,如循環(huán)神經(jīng)網(wǎng)絡(RNN)和時間卷積網(wǎng)絡(TCN)的發(fā)展。
??Transformer可以以說是最成功的序列模型架構(gòu)。在自然語言處理(NLP)、語音識別和計算機視覺等各種方面有著非常顯著的優(yōu)勢。最近,基于Transformer的時間序列預測模型也在不斷涌現(xiàn),最值得注意的是專注于解決長期時間序列預測(LTSF)問題的模型,包括LogTrans(NeurIPS2019),Informer(AAAI2021最佳論文)。Autoformer(NeurIPS 2021),Pyraformer(ICLR2022 Oral),Triformer(IJCAI 2022)和FED-former(ICML 2022)。
??Transformer主要依賴多頭注意力機制工作,它具有提取長序列中各元素(如文本中的單詞或圖像中的塊)之間語義關聯(lián)顯著的能力。然而自注意力機制在某種程度上是無序的(特征之間沒有空間位置關系)。雖然使用各種類型的位置編碼技術可以保留一些排序信息,但在這些技術之上應用自注意力機制后,仍然不可避免會有部分信息損失。這對于NLP等語義豐富的應用來說,通常不是一個嚴重的問題,例如,即使我們對句子中的一些詞重新排序,句子的語義也基本保留下來。但是,在分析時間序列數(shù)據(jù)時,數(shù)值型數(shù)據(jù)缺乏語義,而我們主要對連續(xù)點間趨勢變化進行建模,也就是說順序本身起著最關鍵的作用,因此,我們提出以下耐人尋味的問題。Transformer對長時間序列預測真的有效嗎?
??此外,雖然現(xiàn)有基于Transformer的LTSF模型顯示出比傳統(tǒng)方法更好的結(jié)果,在所有實驗中,被比較的(非Transformer)基線都形成了自回歸或多步驟迭代預測(IMS),這些方法在LTSF問題上有顯著的誤差積累效應。因此在這項工作中,我們用多步驟直接預測(DWS)策略與基于Transformer的模型進行對比,以驗證其實際性能。
??并非所有的時間序列都是可預測的,更不用說長期預測了(例如對于混亂的系統(tǒng)而言)。我們假設,長期預測只對那些具有相對明確趨勢和周期性的時間序列可行。由于線性模型已經(jīng)可以提取這樣的信息,我們引入一組名為LTSF-Liner的簡單線性模型作為新的比較基線。LTSF-Liner用單層線性模型對歷史時間序列進行回歸,以直接預測未來的時間序列。我們在9個廣泛使用的基準數(shù)據(jù)集上進行了廣泛的實驗,這些數(shù)據(jù)集包含了各種現(xiàn)實生活中的應用交通、能源、經(jīng)濟、天氣和疾病。令人驚訝的是,我們的結(jié)果顯示,LTSF-Liner線性模型在所有情況下都優(yōu)于現(xiàn)有基于Transformer的復雜模型,而且往往有很大的優(yōu)勢(20%~50%)。此外,我們發(fā)現(xiàn),與現(xiàn)有Transformer模型中的主旨相比,大部分Transformer模型都未能提取出長序列時間上的關系,也就是說,預測誤差并沒有隨著回視窗口大小的增加而減少(有時甚至增加)。最后我們對現(xiàn)有基于Transformer模型進行了各種分析研究,以研究其中各種設計元素的影響,總而言之,這項工作包括:
這是一項挑戰(zhàn)Transformer模型對長期時間序列預測任務的有效性工作
根據(jù)LTSF-Liner在9個基準數(shù)據(jù)集上的表現(xiàn),LTSF-Liner可以成為LSTF問題的一個新基線
對現(xiàn)有基于Transformer模型各個方面進行全面實證研究,包括對長輸入的建模能力,對時間序列順序的敏感性,位置編碼和子序列嵌入的影響,模型復雜度比較
??綜上所述,我們認為,至少對于LTSF-Liner來說,基于Transformer的模型對長時間序列預測任務的有效性被嚴重夸大了。同時,雖然LTSF-Liner取得了較好的準確率,但它只是作為未來研究TSF問題的一個簡單基線,我們也主張在未來重新審視基于Transformer的模型在其他時間序列分析任務中的有效性。

基于Transformer的LSTF解決方案
??基于Transformer的模型在自然語言處理和計算機視覺等許多長期人工智能任務中取得了較好的表現(xiàn),這都要歸功于多頭注意力機制的有效性。同時也引發(fā)了人們對基于Transformer的時間序列建模的大量研究。特別是大量的研究工作致力于LTSF任務。考慮到Transformer模型擅長捕捉長距離依賴關系的能力,他們中的大多數(shù)都集中在探索較少數(shù)據(jù)的長期預測問題上(T > > 1 )

時間序列分解
??對于數(shù)據(jù)的預處理,在LSF中常見的是zero-mean方法。此外,Autoformer首次在每個神經(jīng)塊后面應用季節(jié)性趨勢分解,這是時間序列分析中的一種標準方法,可以使原始數(shù)據(jù)更加可預測。具體來說,該模型使用移動平均核(moving average kernel)來提取時間序列的趨勢周期成分。原始序列與趨勢成分間差值被視為季節(jié)性成分。在Autoformer模型分解方案的基礎上,F(xiàn)EDformer進一步提出了專家混合策略,以融合不同移動平均核所提取的趨勢成分。
輸入embedding策略
??Transformer架構(gòu)中自我注意力層無法保留時間序列的位置信息,然而局部位置信息(即時間序列的順序)是很重要的。此外,全局時間信息,如分層時間戳(周、月、年)和不可知的時間戳(假期和事件),也是有信息量的。為了增強時間序列輸入的時間背景,在基于SOTATransformer的方法中,一個實用的設計是將7種方法嵌入模型,如固定位置編碼、通道投影嵌入和可學習時間模塊。此外,還引入了帶有時間卷積層的嵌入層或可學習時間戳。

解碼器(Decoder)
??vanilla Tranformer解碼器以自回歸方式輸出序列,導致了緩慢的輸入速度和錯誤累積效應,特別是對于長時間序列預測。Informer為DMS預測設計了生成式解碼器。其他Transformer變體也采用類似的DMS策略。例如,Pyraformer使用全連接層串聯(lián)空間時間軸(fully-connected layer concatenating Spatio-temporal axes)作為解碼器。Autoformer分別提取趨勢、周期特征并與季節(jié)成分自動相關機制疊加得到最終的預測結(jié)果。FEDformer也使用了相似的頻率衰減塊分解得到最終結(jié)果。
??Transformer模型效果依賴成對元素之間的語義關系,而自注意力機制本身是無序的(permutation-invariant),它對時間關系的建模能力主要取決于與輸入標記相關的位置編碼。考慮到時間序列中的原始數(shù)值數(shù)據(jù)(如股票價格或電力價值),它們之間幾乎沒有任何點狀的語義關聯(lián)。在時間序列建模中,我們主要對一組連續(xù)點間時間關系感興趣,這些元素的順序起著關鍵性作用,而并非成對關系。雖然采用位置編碼和嵌入(embedding)模塊有利于保留一些排序信息,但自我注意力機制的性質(zhì)不可避免的導致時間信息丟失。根據(jù)上述觀察,我們對重新審視基于Tranformer的LSTF解決方案有了興趣。
一個簡單的基線模型
??現(xiàn)有基于Transformer的LTSF解決方案(T >> 1)實驗中所有被比較的非Transformer模型基線都是IMS預測技術,眾所周知,這種策略會受到顯著的錯誤累積效應影響。我們假設,這些作品的性能改進主要是由于其使用了DMS策略。



與Transformer比較
??在下表中,我們按照上述實驗設置,在9個基準上廣泛評估了所有提到的Transformer模型。令人驚訝的是,LTSF-Linear的性能在9個基準測試中得到了改善。在大多數(shù)情況下,LTSF-Linear比SOTA FEDformer在多變量預測上有20%~50%的改進,其中LTSF-Linear甚至不對變量之間的關聯(lián)性進行建模。對于不同的時間序列基準,NLinear和DLinear在處理分布偏移和趨勢季節(jié)性特征方面顯示出優(yōu)越性。我們還在附錄中提供了ETT數(shù)據(jù)集的單變量預測結(jié)果,其中LTSF-Linear仍然以很大優(yōu)勢持續(xù)優(yōu)于基于Transformer的LTSF解決方案。

FEDformer在ETTh1數(shù)據(jù)集上實現(xiàn)了有競爭力的預測精度。這是因為FEDformer采用了經(jīng)典的時間序列分析技術,如頻率處理,這帶來了時間序列的歸納偏差,有利于時間特征的提取能力。綜上所述,這些研究結(jié)果顯示,現(xiàn)有基于復雜Transformer模型在現(xiàn)有的9個基準上似乎并不有效,而LTSF-Linear可以成為一個強大的基線。另一個有趣的現(xiàn)象是,盡管Repeat模型在預測長期季節(jié)性數(shù)據(jù)(如電力和交通)時顯示出較差的結(jié)果,但他在Exchange-Rate數(shù)據(jù)集上出人意料地超過了所有基于Transformer的方法(超出大約45%)。這主要是由于基于Transformer的方法對趨勢錯誤預測造成的,它可能會對訓練數(shù)據(jù)中突然變化的噪音進行過度擬合,從而導致顯著的性能下降。相反Repeat沒有偏向性如下圖(b)
如上圖所示,我們繪制了在三個選定時間序列數(shù)據(jù)集上使用Transformer解決方案和LTSF-Linear的預測結(jié)果,這些數(shù)據(jù)具有不同的時間間隔。當輸入為96個時間步長,輸出為336個時間步長時,Transformer不能捕捉到電力和ETT2數(shù)據(jù)的偏向性。此外,它們也很難預測諸如匯率等非線性數(shù)據(jù)的趨勢。這些現(xiàn)象進一步表明現(xiàn)有基于Transformer的解決方案對LTSF任務是不夠的。
更多關于LSTF-Transformer的分析
??現(xiàn)有的LSTF-Transformer能否從較長輸入序列中很好的提取時間關系?回視窗口(look-back window)大小對預測的準確性影響很大,因為它決定了我們能從歷史數(shù)據(jù)中學習多少。一般來說,一個具有強大時間關系提取能力的LSTF模型應該能夠在較大的回視窗口尺寸下取得更好的結(jié)果。
??為研究輸入回視窗口大小對模型的影響,我們分別使用{24,48,72,96,120,144,168,192,336,504,672,720}作為回視窗口大小預測720個時間步長,下圖顯示了在兩個數(shù)據(jù)集上MSE。與之前研究類似,當回視窗口大小增加時,現(xiàn)有基于Transformer的模型性能會下降或保持穩(wěn)定,相比之下,所有的LTSF-Linear性能都隨著回視窗口大小的增加而明顯提升。因此,如果給定一個較長的序列,現(xiàn)有的解決方案傾向于過度擬合時間噪聲,而不是提取時間信息,而輸入時間步長96正好適合大多數(shù)Transformer模型。

雖然回視窗口的時間動態(tài)性對短期時間序列預測的準確性有顯著影響,但我們假設長期預測取決于模型是否能夠很好的捕捉趨勢和周期性,也就是說,預測范圍越遠,回視窗口本身的影響越小。
??為了驗證上述假設,在下表中,我們比較了同一數(shù)據(jù)集兩個不同回視窗口對未來720個時間步長的準確性。從實驗結(jié)果來看,SOTATransformer性能略有下降,表明這些模型只能從相鄰時間序列中捕捉到類似的時間信息。由于捕捉數(shù)據(jù)集的內(nèi)在特征一般不需要大量的參數(shù),即1個參數(shù)可以代表周期性。使用過多參數(shù)甚至會導致過擬合,這也部分解釋了為什么LSTF-Linear比基于Transformer方法表現(xiàn)更好。

自注意力機制對LTSF有效嗎?我們驗證了現(xiàn)有Transformer中這些復雜的設計是否是有效的。前者(如Informer)是必不可少的。在下表中,我們逐步將Informer轉(zhuǎn)換為Linear。首先,我們將每個自注意力層與一個線性層組合,稱為Att.Linear,因為自注意層可以被視為一個權重動態(tài)變化的全連接層。此外,我們拋棄了Informer中其他輔助設計(例如FFN),留下嵌入層和線性層,命名為Embed-Linear。最后,我們將該模型簡化為一個線性層。令人驚訝的是,Informer的性能隨著結(jié)構(gòu)逐漸簡化而增長,這表明至少對于現(xiàn)有的LTSF基準來說,自注意力機制和其他復雜模塊是不必要的。

現(xiàn)有的LSTF-Tansformer模型能否很好的保存時間秩序?自注意力機制在本質(zhì)上是permutation-invariant的,順序因素影響不大。然而,在時間序列預測中,序列順序往往起著關鍵作用。我們認為,即使有了位置和時間信息的嵌入,現(xiàn)有的基于Transformer的方法仍然會丟失時間信息。在下表中,我們在嵌入策略之前對原始輸入進行了洗牌。兩種洗牌策略,Shuf:隨機清洗整個輸入序列。Half-Ex:將輸入序列的前一半與后一半交換。有趣的是,在匯率數(shù)據(jù)集上,與原始輸入相比,即使輸入序列被隨機洗牌,所有基于Transformer的方法性格都沒有波動。相反,LTSF-Linear性能卻很差。這表明,具有不同位置和時間嵌入的LTSF-Transformer保留了相當有限的時間關系,在嘈雜的金融數(shù)據(jù)上容易過擬合,而LTSF-Linear可以自然的建立秩序關系,使用較少參數(shù)避免過擬合。

??對于ETTh1數(shù)據(jù)集,F(xiàn)EDformer和Autoformer在其模型中引入了時間序列的inductive bias,使得它們可以在具有明顯時間趨勢(如周期性)的數(shù)據(jù)集中提取某些時間信息。因此,在Shuf模式下,模型失去了秩序信息,兩模型平均降幅為73.28%和56.91%。此外,Informer在Shuf和Half-Ex模式下收到的影響較小,因為它沒有時間上的inductive bias??偟膩碚f,在所有情況下,LTSF-Linear平均降幅都大于基于Transformer的方法,這表明Transformer不能很好的保存時間順序。
??不同的嵌入策略效果如何?我們研究了基于Transformer的方法中使用的位置和時間戳嵌入的好處。在下表中,如果沒有位置嵌入(wo/Pos.),Informer的預測錯誤會大大增加。如果沒有時間戳嵌入(wo/Temp),隨著預測長度的增加,Informer性能將逐漸受損。由于Informer對每個標記使用一個時間步長,因此有必要在標記中引入時間信息。

??FEDformer和Autoformer不是在每個標記中使用單一時間步長,而是輸入一連串的時間戳來嵌入時間信息。因此,它們可以在沒有固定的位置嵌入情況下達到相當?shù)纳踔粮玫男阅?。然而,如果沒有時間戳嵌入,Autoformer的性能會迅速下降,因為它失去了全局時間信息。相反,由于FEDformer提出的頻率增強模塊引入了時間上的inductive bias,它在去除任何位置/時間戳后受到的影響較小。
??訓練數(shù)據(jù)的大小是現(xiàn)有LTSF-Transformer的限制因素嗎?有些人可能會認為,基于Transformer的解決方案性能不佳是由于基準數(shù)據(jù)集規(guī)模太小。與計算機視覺或自然語言處理任務不同,LTSF是在多姿多彩的時間序列上進行的,因此很難擴大訓練數(shù)據(jù)的規(guī)模。事實上,訓練數(shù)據(jù)的大小將對模型的性能產(chǎn)生重大影響。因此,我們對交通數(shù)據(jù)集進行了實驗,比較了在完整數(shù)據(jù)集(17544 * 0.7小時)、縮短后數(shù)據(jù)集(8760小時,即1年)上模型的精度。出乎意料的是,如下表,在大多數(shù)情況下,減少訓練集誤差也會隨之減少。這可能是因為整年的數(shù)據(jù)比長但不完整的數(shù)據(jù)規(guī)模更能保持清晰的時間特征。雖然我們不能得出結(jié)論:我們應該使用更少的數(shù)據(jù)進行訓練,但這表明訓練數(shù)據(jù)的規(guī)模并不是影響Autoformer和FEDformer性能的限制性原因。

結(jié)論和展望
結(jié)論
??這項工作對新興的基于Transformer的長時間序列預測問題解決方案的有效性提出質(zhì)疑。我們使用一個簡單的線性模型LTSF-Linear作為DWS預測基線來驗證我們的想法。請注意我們的貢獻不在于提出了一個線性模型,而在于提出了一個重要的問題,展示了令人驚訝的對比,并通過各種角度證明了為什么LTSF-Transformer并不像這些作品中所說那樣有效。我們真誠的希望我們的研究能對這一領域的未來的工作有所幫助。
展望
LSTF-Linear模型效果有限,它只是為未來的研究提供了一個簡單而有競爭力的基線,具有很強的可解釋性。例如,單層線性網(wǎng)絡很難捕捉到由變化點引起的時間動態(tài)變化。因此我們認為在新的模型設計、數(shù)據(jù)處理和基準方面有很大的潛力來解決困難的LSTF問題。
機器學習算法AI大數(shù)據(jù)技術
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉(zhuǎn)深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
