【新智元導(dǎo)讀】近日,清華大學(xué)軟件學(xué)院機器學(xué)習(xí)實驗室另辟蹊徑,基于隨機過程經(jīng)典理論,提出全新Autoformer架構(gòu),包括深度分解架構(gòu)及全新自相關(guān)機制,長序預(yù)測性能平均提升38%。
盡可能延長預(yù)測時效是時序預(yù)測的核心難題,對于能源、交通、經(jīng)濟的長期規(guī)劃,氣象災(zāi)害、疾病的早期預(yù)警等具有重要意義。清華大學(xué)軟件學(xué)院機器學(xué)習(xí)實驗室的研究人員近日發(fā)表了一篇論文,探究了在信息有限的情況下預(yù)測更長期未來的這個難題。針對上述問題,作者大刀闊斧革新Transformer,提出全新的Autoformer模型,在長時序預(yù)測方面達到SOTA,在效率性能上均超過Transformer及其變體。
論文鏈接:https://arxiv.org/abs/2106.13008
雖然近期基于Transformer的模型在時序預(yù)測上取得了一系列進展,但是Transformer的固有設(shè)計,使得在應(yīng)對長期序列時仍存在不足:
作者受到時序分析經(jīng)典方法和隨機過程經(jīng)典理論的啟發(fā),重新設(shè)計模型,打破Transformer原有架構(gòu),得到Autoformer模型:- 深度分解架構(gòu):突破將時序分解作為預(yù)處理的傳統(tǒng)方法,設(shè)計序列分解單元以嵌入深度模型,實現(xiàn)漸進式地(progressively)預(yù)測,逐步得到可預(yù)測性更強的組分。
- 自相關(guān)(Auto-Correlation)機制:基于隨機過程理論,丟棄點向(point-wise)連接的自注意力機制,實現(xiàn)序列級(series-wise)連接的自相關(guān)機制,且具有的復(fù)雜度,打破信息利用瓶頸。
- 應(yīng)對長期預(yù)測問題,Autoformer在能源、交通、經(jīng)濟、氣象、疾病五大領(lǐng)域取得了38%的大幅效果提升。
作者提出了Autoformer模型,其中包括內(nèi)部的序列分解單元、自相關(guān)機制以及對應(yīng)的編碼器、解碼器。(1)深度分解架構(gòu)
時間序列分解是時序分析的經(jīng)典方法,可以將時間序列分解為幾類潛在的時間模式,如周期項,趨勢項等。在預(yù)測任務(wù)中,由于未來的不可知性,通常先對輸入進行分解,再每個組分分別預(yù)測。但這樣使得預(yù)測結(jié)果受限于分解效果,并且忽視了長期未來中各個組分之間的相互作用。針對上述問題,作者提出深度分解架構(gòu),在預(yù)測過程中,逐步從隱變量中分離趨勢項與周期項,實現(xiàn)漸進式(progressive)分解。并且模型交替進行預(yù)測結(jié)果優(yōu)化和序列分解,可以實現(xiàn)兩者的相互促進。A. 序列分解單元
基于滑動平均思想,平滑時間序列,分離周期項與趨勢項:B. 編解碼器
編碼器:通過上述分解單元,模型可以分離出周期項,。而基于這種周期性,進一步使用自相關(guān)機制(),聚合不同周期的相似子過程:- 對于周期項,使用自相關(guān)機制,基于序列的周期性質(zhì)來進行依賴挖掘,并聚合具有相似過程的子序列;
- 對于趨勢項,使用累積的方式,逐步從預(yù)測的隱變量中提取出趨勢信息。
觀察到,不同周期的相似相位之間通常表現(xiàn)出相似的子過程,利用這種序列固有的周期性來設(shè)計自相關(guān)機制,實現(xiàn)高效的序列級連接。自相關(guān)機制包含基于周期的依賴發(fā)現(xiàn)(Period-based dependencies)和時延信息聚合(Time delay aggregation)。自相關(guān)機制,右側(cè)為時延信息聚合
A. 基于周期的依賴發(fā)現(xiàn)
基于上述觀察,為找到相似子過程,需要估計序列的周期?;陔S機過程理論,對于實離散時間過程,可以如下計算其自相關(guān)系數(shù):其中,自相關(guān)系數(shù)表示序列與它的延遲之間的相似性。在自相關(guān)機制中,將這種時延相似性看作未歸一化的周期估計的置信度,即周期長度為的置信度為。實際上,基于Wiener-Khinchin理論,自相關(guān)系數(shù)可以使用快速傅立葉變換(FFT)得到,其計算過程如下:其中,和分別表示FFT和其逆變換。因此,復(fù)雜度為。B. 時延信息聚合
為了實現(xiàn)序列級連接,還需要將相似的子序列信息進行聚合。自相關(guān)機制依據(jù)估計出的周期長度,首先使用操作進行信息對齊,再進行信息聚合:這里,依然使用query、key、value的多頭形式,從而可以無縫替換自注意力機制。同時,挑選最有可能的個周期長度,用于避免融合無關(guān)、甚至相反的相位。整個自相關(guān)機制的復(fù)雜度仍為。C. 對比分析
相比于之前的點向連接的注意力機制或者其稀疏變體,自注意力(Auto-Correlation)機制實現(xiàn)了序列級的高效連接,從而可以更好的進行信息聚合,打破了信息利用瓶頸。作者在6個數(shù)據(jù)集上進行了測試,涵蓋能源、交通、經(jīng)濟、氣象、疾病五大主流領(lǐng)域。(1) 主要結(jié)果
整體實驗結(jié)果Autoformer在多個領(lǐng)域的數(shù)據(jù)集、各種輸入-輸出長度的設(shè)置下,取得了一致的最優(yōu)(SOTA)結(jié)果。在input-96-predict-336設(shè)置下,相比于之前的SOTA結(jié)果,Autoformer實現(xiàn)了ETT能源數(shù)據(jù)集74%的MSE提升,Electricity能源數(shù)據(jù)集MSE提升24%,Exchange經(jīng)濟數(shù)據(jù)集提升64%,Traffic交通數(shù)據(jù)集提升14%,Weather氣象數(shù)據(jù)集提升26%,在input-24-predict-60設(shè)置下,ILI疾病數(shù)據(jù)集提升30%。在上述6個數(shù)據(jù)集,Autoformer在MSE指標(biāo)上平均提升38%。(2) 對比實驗
深度分解架構(gòu)的通用性:將提出的深度分解架構(gòu)應(yīng)用于其他基于Transformer的模型,均可以得到明顯提升,驗證了架構(gòu)的通用性。同時隨著預(yù)測時效的延長,提升效果更加明顯,這也印證了復(fù)雜時間模式是長期預(yù)測的核心問題。ETT數(shù)據(jù)集上的MSE指標(biāo)對比,Origin表示直接預(yù)測,Sep表示先分解后預(yù)測,Ours表示深度分解架構(gòu)。自相關(guān)機制 vs. 自注意力機制:同樣基于深度分解架構(gòu),在眾多輸入-輸出設(shè)置下,自相關(guān)機制一致優(yōu)于自注意力機制及其變體,比如經(jīng)典Transformer中的Full Attention,Informer中的PropSparse Attention等。ETT數(shù)據(jù)集上對比實驗,將Autoformer中的自相關(guān)機制替換為其他自注意力機制,得到上述結(jié)果。(3) 模型分析
對于序列的最后一個時間點,各模型學(xué)到的時序依賴可視化,圖(a)中紅色線表示學(xué)習(xí)到的過程的位置。通過上圖可以驗證,Autoformer中自相關(guān)機制可以正確發(fā)掘出每個周期中的下降過程,并且沒有誤識別和漏識別,而其他注意力機制存在缺漏甚至錯誤的情況。在顯存占用和運行時間兩個指標(biāo)上,自相關(guān)機制均表現(xiàn)出了優(yōu)秀的空間、時間效率,兩個層面均超過自注意力機制及其稀疏變體,表現(xiàn)出高效的復(fù)雜度。
針對長時序列預(yù)測中的問題,作者基于時序分析的經(jīng)典方法和隨機過程的經(jīng)典理論,提出了基于深度分解架構(gòu)和自相關(guān)機制的Autoformer模型。Autoformer通過漸進式分解和序列級連接,應(yīng)對復(fù)雜時間模式以及信息利用瓶頸,大幅提高了長時預(yù)測效果。同時,Autoformer在五大主流領(lǐng)域均表現(xiàn)出了優(yōu)秀的長時預(yù)測結(jié)果,模型具有良好的效果魯棒性,具有很強的應(yīng)用落地價值。https://arxiv.org/abs/2106.13008