<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Transformer王者歸來!無需修改任何模塊,時序預(yù)測全面領(lǐng)先

          共 10136字,需瀏覽 21分鐘

           ·

          2023-10-30 15:28


          來源:新智元
          【導(dǎo)讀】最近,來自清華大學(xué)和螞蟻集團(tuán)的研究人員重新審視Transformer結(jié)構(gòu)在時序分析中的應(yīng)用,提出一個全新的反轉(zhuǎn)視角——無需修改任何模塊,即可實(shí)現(xiàn)Transformer在時序預(yù)測任務(wù)上的全面領(lǐng)先!
          近年來,Transformer在自然語言處理以及計算機(jī)視覺任務(wù)中取得了不斷突破,成為深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)模型。
          受此啟發(fā),眾多Transformer模型變體在時間序列領(lǐng)域中被提出。
          然而,最近越來越多的研究發(fā)現(xiàn),使用簡單的基于線性層搭建的預(yù)測模型,就能取得比各類魔改Transformer更好的效果。

          最近,針對有關(guān)Transformer在時序預(yù)測領(lǐng)域有效性的質(zhì)疑,清華大學(xué)軟件學(xué)院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室和螞蟻集團(tuán)學(xué)者合作發(fā)布了一篇時間序列預(yù)測工作,在Reddit等論壇上引發(fā)熱烈討論。

          其中,作者提出的iTransformer,考慮多維時間序列的數(shù)據(jù)特性,未修改任何Transformer模塊,而是打破常規(guī)模型結(jié)構(gòu),在復(fù)雜時序預(yù)測任務(wù)中取得了全面領(lǐng)先,試圖解決Transformer建模時序數(shù)據(jù)的痛點(diǎn)。

          論文地址:https://arxiv.org/abs/2310.06625
          代碼實(shí)現(xiàn):https://github.com/thuml/Time-Series-Library
          在iTransformer的加持下,Transformer完成了在時序預(yù)測任務(wù)上的全面反超。

          問題背景

          現(xiàn)實(shí)世界的時序數(shù)據(jù)往往多維的,除了時間維之外,還包括變量維度。

          每個變量可以代表不同的觀測物理量,例如氣象預(yù)報中使用的多個氣象指標(biāo)(風(fēng)速,溫度,濕度,氣壓等),也可以代表不同的觀測主體,例如發(fā)電廠不同設(shè)備的每小時發(fā)電量等。

          一般而言,不同的變量具有完全不同的物理含義,即使語義相同,其測量單位也可能完全不同。
          以往基于Transformer的預(yù)測模型通常先將同一時刻下的多個變量嵌入到高維特征表示(Temporal Token),使用前饋網(wǎng)絡(luò)(Feed-forward Network)編碼每個時刻的特征,并使用注意力模塊(Attention)學(xué)習(xí)不同時刻之間的相互關(guān)聯(lián)。

          然而,這種方式可能會存在如下問題:

          設(shè)計思路

          不同于自然語言中的每個詞(Token)具有較強(qiáng)的獨(dú)立語義信息,在同為序列的時序數(shù)據(jù)上,現(xiàn)有Transformer視角下看到的每個「詞」(Temporal Token)往往缺乏語義性,并且面臨時間戳非對齊與感受野過小等問題。
          也就是說,傳統(tǒng)Transformer的在時間序列上的建模能力被極大程度地弱化了。

          為此,作者提出了一種全新的倒置(Inverted)視角。

          如下圖,通過倒置Transformer原本的模塊,iTransformer先將同一變量的整條序列映射成高維特征表示(Variate Token),得到的特征向量以變量為描述的主體,獨(dú)立地刻畫了其反映的歷史過程。

          此后,注意力模塊可天然地建模變量之間的相關(guān)性(Mulitivariate Correlation),前饋網(wǎng)絡(luò)則在時間維上逐層編碼歷史觀測的特征,并且將學(xué)到的特征映射為未來的預(yù)測結(jié)果。
          相比之下,以往沒有在時序數(shù)據(jù)上深入探究的層歸一化(LayerNorm),也將在消除變量之間分布差異上發(fā)揮至關(guān)重要的作用。

           iTransformer

          整體結(jié)構(gòu)

          不同于以往Transformer預(yù)測模型使用的較為復(fù)雜的編碼器-解碼器結(jié)構(gòu),iTransformer僅包含編碼器,包括嵌入層(Embedding),投影層(Projector)和   個可堆疊的Transformer模塊(TrmBlock)。

          建模變量的特征表示
          于一個時間長度為   、變量數(shù)為   的多維時間序列   ,文章使用   表示同一時刻的所有變量,以及   表示同一變量的整條歷史觀測序列。
          考慮到   比   具有更強(qiáng)的語義以及相對一致的測量單位,不同于以往對   進(jìn)行特征嵌入的方式,該方法使用嵌入層對每個   獨(dú)立地進(jìn)行特征映射,獲得   個變量的特征表示   ,其中   蘊(yùn)含了變量在過去時間內(nèi)的時序變化。
          該特征表示將在各層Transformer模塊中,首先通過自注意力機(jī)制進(jìn)行變量之間的信息交互,使用層歸一化統(tǒng)一不同變量的特征分布,以及在前饋網(wǎng)絡(luò)中進(jìn)行全連接式的特征編碼。最終通過投影層映射為預(yù)測結(jié)果。
          基于上述流程,整個模型的實(shí)現(xiàn)方式非常簡單,計算過程可表示為:

          其中   即為每個變量對應(yīng)的預(yù)測結(jié)果,嵌入層和投影層均基于多層感知機(jī)(MLP)實(shí)現(xiàn)。
          值得注意的是,因?yàn)闀r間點(diǎn)之間的順序已經(jīng)隱含在神經(jīng)元的排列順序中,模型不需要引入Transformer中的位置編碼(Position Embedding)。
          模塊分析
          調(diào)轉(zhuǎn)了Transformer模塊處理時序數(shù)據(jù)的維度后,這篇工作重新審視了各模塊在iTransformer中的職責(zé)。

          1. 層歸一化:層歸一化的提出最初是為了提高深度網(wǎng)絡(luò)的訓(xùn)練的穩(wěn)定性與收斂性。

          在以往Transformer中,該模塊將同一時刻的的多個變量進(jìn)行歸一化,使每個變量雜糅無法區(qū)分。一旦收集到的數(shù)據(jù)沒有按時間對齊,該操作還將引入非因果或延遲過程之間的交互噪聲。
          而在倒置版本中(公式如上),層歸一化應(yīng)用于每個變量的特征表示(Variate Token),讓所有變量的特征通道都處于相對統(tǒng)一的分布下。
          這種歸一化的思想在處理時間序列非平穩(wěn)問題時已經(jīng)被廣泛證明是有效的,只是在iTransformer中可以自然而然的通過層歸一化實(shí)現(xiàn)。
          此外,由于所有變量的特征表示都被歸一化到正態(tài)分布,由變量取值范圍不同造成的差異可以減弱。
          相反,在此前的結(jié)構(gòu)中,所有時間戳的特征表示(Temporal Token)將被統(tǒng)一標(biāo)準(zhǔn)化,導(dǎo)致模型實(shí)際看到的是過平滑的時間序列。

          2. 前饋網(wǎng)絡(luò):Transformer利用前饋網(wǎng)絡(luò)編碼詞向量。

          此前模型中形成「詞」向量的是同一時間采集的多個變量,他們的生成時間可能并不一致,并且反映一個時間步的「詞」很難提供足夠的語義。

          在倒置版本中,形成「詞」向量的是同一變量的整條序列,基于多層感知機(jī)的萬能表示定理,其具備足夠大的模型容量來提取在歷史觀測和未來預(yù)測中共享的時間特征,并使用特征外推為預(yù)測結(jié)果。

          另一個使用前饋網(wǎng)絡(luò)建模時間維的依據(jù)來自最近的研究,研究發(fā)現(xiàn)線性層擅長學(xué)習(xí)任何時間序列都具備的時間特征。

          對此,作者提出了一種合理的解釋:線性層的神經(jīng)元可以學(xué)習(xí)到如何提取任意時間序列的內(nèi)在屬性,如幅值,周期性,甚至頻率譜(傅立葉變換實(shí)質(zhì)是在原始序列上的全連接映射)。

          因此相較以往Transformer使用注意力機(jī)制建模時序依賴的做法,使用前饋網(wǎng)絡(luò)更有可能完成在未見過的序列上的泛化。

          3. 自注意力:自注意力模塊在該模型中用于建模不同變量的相關(guān)性,這種相關(guān)性在有物理知識驅(qū)動的復(fù)雜預(yù)測場景中(例如氣象預(yù)報)是極其重要的。

          作者發(fā)現(xiàn)自注意力圖(Attention Map)的每個位置滿足如下公式:

          其中   對應(yīng)任意兩個變量的Query和Key向量,作者認(rèn)為整個注意力圖可以在一定程度上揭示變量的相關(guān)性,并且在后續(xù)基于注意力圖的加權(quán)操作中,高度相關(guān)的變量將在與其Value向量的交互中獲得更大的權(quán)重,因此這種設(shè)計對多維時序數(shù)據(jù)建模更為自然和可解釋。

          綜上所述,在iTransformer中,層歸一化,前饋網(wǎng)絡(luò)以及自注意力模塊考慮了多維時序數(shù)據(jù)本身的特點(diǎn),三者系統(tǒng)性互相配合,適應(yīng)不同維度的建模需求,起到1+1+1 > 3的效果。

          實(shí)驗(yàn)分析

          作者在六大多維時序預(yù)測基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),同時在支付寶交易平臺的線上服務(wù)負(fù)載預(yù)測任務(wù)場景的數(shù)據(jù)(Market)中進(jìn)行了預(yù)測。

          實(shí)驗(yàn)部分對比了10種不同的預(yù)測模型,包含領(lǐng)域代表性Transformer模型:PatchTST(2023)、Crossformer(2023)、FEDformer(2022)、Stationary(2022)、Autoformer(2021)、Informer(2021);線性預(yù)測模型:TiDE(2023)、DLinear(2023);TCN系模型:TimesNet(2023)、SCINet(2022)。
          此外,文章分析了模塊倒置給眾多Transformer變體帶來的增益,包括通用的效果提升,泛化到未知變量以及更加充分地利用歷史觀測等。
          時序預(yù)測

          如開篇雷達(dá)圖所示,iTransformer在六大測試基準(zhǔn)中均達(dá)到了SOTA,并在Market數(shù)據(jù)的28/30個場景取得最優(yōu)效果(詳見論文附錄)。

          在長時預(yù)測以及多維時間預(yù)測這一充滿挑戰(zhàn)的場景中,iTransformer全面地超過了近幾年的預(yù)測模型。
          iTransformer框架的通用性
          在取得最佳效果的同時,作者在Reformer、Informer、Flowformer、Flashformer等Transformer變體模型上進(jìn)行了倒置前后的對比實(shí)驗(yàn),證明了倒置是更加符合時序數(shù)據(jù)特點(diǎn)的結(jié)構(gòu)框架。
          1. 提升預(yù)測效果

          通過引入所提出的框架,這些模型在預(yù)測效果上均取得了大幅度的提升,證明了iTransformer核心思想的通用性,以及受益于高效注意力研究進(jìn)展的可行性。

          2. 泛化到未知變量
          通過倒置,模型在推理時可以輸入不同于訓(xùn)練時的變量數(shù),文中將其與一種泛化策略——通道獨(dú)立(Channel Independence)進(jìn)行了對比,結(jié)果表明該框架在僅使用20%的變量時依然能夠盡可能減少泛化誤差。
          3. 使用更長歷史觀測

          以往Transformer系模型的預(yù)測效果不一定隨著歷史觀測的變長而提升,作者發(fā)現(xiàn)使用該框架后,模型在歷史觀測增加的情況下展現(xiàn)出了驚人的預(yù)測誤差減小趨勢,在一定程度上驗(yàn)證了模塊倒置的合理性。

          模型分析

          1. 模型消融實(shí)驗(yàn)

          作者進(jìn)行了消融實(shí)驗(yàn)驗(yàn)證iTransformer模塊排布的合理性。
          結(jié)果表明在變量維使用自注意力,在時間維上使用線性層的建模方式在絕大部分?jǐn)?shù)據(jù)集上都取得了最優(yōu)效果。

          2. 特征表示分析

          為了驗(yàn)證前饋網(wǎng)絡(luò)能夠更好地提取序列特征的觀點(diǎn),作者基于CKA(Centered Kernel Alignment)相似度進(jìn)行特征表示分析。CKA相似度越低,代表模型底層-頂層之間的特征差異越大。

          值得注意的是,此前研究表明,時序預(yù)測作為一種細(xì)粒度特征學(xué)習(xí)任務(wù),往往偏好更高的CKA相似度。

          作者對倒置前后的模型分別計算底層-頂層CKA,得到了如下的結(jié)果,印證了iTransformer學(xué)習(xí)到了更好的序列特征,從而達(dá)到了更好的預(yù)測效果。

          3. 變量相關(guān)性分析

          如上圖所示,作用在變量維的注意力機(jī)制在學(xué)習(xí)到的注意力圖中展現(xiàn)出更加強(qiáng)的可解釋性。通過對Solar-Energy數(shù)據(jù)集的樣例進(jìn)行了可視化,有如下觀察:

          • 在淺層注意模塊,學(xué)習(xí)到的注意力圖與歷史序列的變量相關(guān)性更加相似。

          • 當(dāng)深層注意模塊,學(xué)習(xí)到的注意力圖與待預(yù)測序列的變量相關(guān)性更加相似。

          這說明注意力模塊學(xué)到了更加可解釋的變量相關(guān)性,并且在前饋網(wǎng)絡(luò)中進(jìn)行了對歷史觀測的時序特征編碼,并能夠逐漸解碼為待預(yù)測序列。

          總結(jié)

          作者受多維時間序列的本身的數(shù)據(jù)特性啟發(fā),反思了現(xiàn)有Transformer在建模時序數(shù)據(jù)的問題,提出了一個通用的時序預(yù)測框架iTransformer。

          iTransformer框架創(chuàng)新地引入倒置的視角觀察時間序列,使得Transformer模塊各司其職,針對性完成時序數(shù)據(jù)兩個維度的建模難題,展現(xiàn)出優(yōu)秀的性能和通用性。

          面對Transformer在時序預(yù)測領(lǐng)域是否有效的質(zhì)疑,作者的這一發(fā)現(xiàn)可能啟發(fā)后續(xù)相關(guān)研究,使Transformer重新回到時間序列預(yù)測的主流位置,為時序數(shù)據(jù)領(lǐng)域的基礎(chǔ)模型研究提供新的思路。

          參考資料:
          https://arxiv.org/abs/2310.06625


          END

          瀏覽 152
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久草社区男人天堂 | 一区二区三区免费观看 | 豆花av电影在线 豆花视频精品一区 | 色婷婷地址入口 | 四虎成人精品永久免费AV九九 |