<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LazyProphet:使用 LightGBM 進(jìn)行時(shí)間序列預(yù)測(cè)

          共 5394字,需瀏覽 11分鐘

           ·

          2022-03-19 00:13


          來源Deephub Imba
          本文約2800字,建議閱讀5分鐘
          LazyProphet還是一個(gè)時(shí)間序列建模的很好選擇。


          當(dāng)我們考慮時(shí)間序列的增強(qiáng)樹時(shí),通常會(huì)想到 M5 比賽,其中前十名中有很大一部分使用了 LightGBM。但是當(dāng)在單變量情況下使用增強(qiáng)樹時(shí),由于沒有大量的外生特征可以利用,它的性能非常的糟糕。

          首先需要明確的是M4 比賽的亞軍 DID 使用了增強(qiáng)樹。但是它作為一個(gè)元模型來集成其他更傳統(tǒng)的時(shí)間序列方法。在 M4 上公開的代碼中,所有標(biāo)準(zhǔn)增強(qiáng)樹的基準(zhǔn)測(cè)試都相當(dāng)糟糕,有時(shí)甚至還達(dá)不到傳統(tǒng)的預(yù)測(cè)方法。下面是Sktime 包和他們的論文所做的出色工作[1]:


          任何帶有“XGB”或“RF”的模型都使用基于樹的集成。在上面的列表中 Xgboost 在每小時(shí)數(shù)據(jù)集中提供了 10.9 的最佳結(jié)果!然后,但是這些模型只是Sktime 在他們框架中做過的簡(jiǎn)單嘗試,而 M4 的獲勝者在同一數(shù)據(jù)集上的得分是 9.3 分……。在該圖表中我們需要記住一些數(shù)字,例如來自 XGB-s 的每小時(shí)數(shù)據(jù)集的 10.9 和每周數(shù)據(jù)集中的樹性模型的“最佳”結(jié)果:來自 RF-t-s 的 9.0。

          從上圖中就引出了我們的目標(biāo):創(chuàng)建一個(gè)基于LightGBM并且適合個(gè)人使用的時(shí)間序列的快速建模程序,并且能夠絕對(duì)超越這些數(shù)字,而且在速度方面可與傳統(tǒng)的統(tǒng)計(jì)方法相媲美。

          聽起來很困難,并且我們的第一個(gè)想法可能是必須優(yōu)化我們的樹。但是提升樹非常復(fù)雜,改動(dòng)非常費(fèi)時(shí),并且結(jié)果并不一定有效。但是有一點(diǎn)好處是我們正在擬合是單個(gè)數(shù)據(jù)集,是不是可從特征下手呢?

          特征


          在查看單變量空間中樹的其他實(shí)現(xiàn)時(shí)都會(huì)看到一些特征工程,例如分箱、使用目標(biāo)的滯后值、簡(jiǎn)單的計(jì)數(shù)器、季節(jié)性虛擬變量,也許還有傅里葉函數(shù)。這對(duì)于使用傳統(tǒng)的指數(shù)平滑等方法是非常棒的。但是我們今天目的是必須對(duì)時(shí)間元素進(jìn)行特征化并將其表示為表格數(shù)據(jù)以提供給樹型模型,LazyProphet這時(shí)候就出現(xiàn)了。除此以外,LazyProphet還包含一個(gè)額外的特征工程元素:將點(diǎn)”連接”起來。

          很簡(jiǎn)單,將時(shí)間序列的第一個(gè)點(diǎn)連接起來,并將一條線連接到中途的另一個(gè)點(diǎn),然后將中途的點(diǎn)連接到最后一個(gè)點(diǎn)。重復(fù)幾次,同時(shí)更改將哪個(gè)點(diǎn)用作“kink”(中間節(jié)點(diǎn)),這就是我們所說的“連接”。

          下面張圖能很好地說明這一點(diǎn)。藍(lán)線是時(shí)間序列,其他線只是“連接點(diǎn)”:


          事實(shí)證明,這些只是加權(quán)分段線性基函數(shù)。這樣做的一個(gè)缺點(diǎn)是這些線的外推可能會(huì)出現(xiàn)偏差。為了解決這個(gè)問題,引入一個(gè)懲罰從中點(diǎn)到最后點(diǎn)的每條線的斜率的“衰減”因子。

          在這個(gè)基礎(chǔ)上加滯后的目標(biāo)值和傅里葉基函數(shù),在某些問題上就能夠接近最先進(jìn)的性能。因?yàn)橐蠛苌?,因因此我們把它稱作“LazyProphet”。
          下面我們看看實(shí)際的應(yīng)用結(jié)果。


          代碼


          這里使用的數(shù)據(jù)集都是開源的,并在M-competitions github上發(fā)布。數(shù)據(jù)已經(jīng)被分割為訓(xùn)練和測(cè)試集,我們直接使用訓(xùn)練csv進(jìn)行擬合,而測(cè)試csv用于使用SMAPE進(jìn)行評(píng)估?,F(xiàn)在導(dǎo)入LazyProphet:

          pip install LazyProphet安裝后,開始編碼:import matplotlib.pyplot as pltimport numpy as npfrom tqdm import tqdmimport pandas as pdfrom LazyProphet import LazyProphet as lp
          train_df = pd.read_csv(r'm4-weekly-train.csv')test_df = pd.read_csv(r'm4-weekly-test.csv')train_df.index = train_df['V1']train_df = train_df.drop('V1', axis = 1)test_df.index = test_df['V1']test_df = test_df.drop('V1', axis = 1)

          導(dǎo)入所有必要的包后將讀入每周數(shù)據(jù)。創(chuàng)建 SMAPE 函數(shù),它將返回給定預(yù)測(cè)和實(shí)際值的 SMAPE:

          def smape(A, F):  return 100/len(A) * np.sum(2 * np.abs(F - A) / (np.abs(A) +       np.abs(F)))

          對(duì)于這個(gè)實(shí)驗(yàn)將取所有時(shí)間序列的平均值與其他模型進(jìn)行比較。為了進(jìn)行健全性檢查,我們還將獲得的平均 SMAPE,這樣可以確保所做的與比賽中所做的一致。

          smapes = []naive_smape = []j = tqdm(range(len(train_df)))for row in j:  y = train_df.iloc[row, :].dropna()  y_test = test_df.iloc[row, :].dropna()  j.set_description(f'{np.mean(smapes)}, {np.mean(naive_smape)}')  lp_model = LazyProphet(scale=True,                          seasonal_period=52,                          n_basis=10,                          fourier_order=10,                          ar=list(range(1, 53)),                          decay=.99,                          linear_trend=None,                          decay_average=False)  fitted = lp_model.fit(y)  predictions = lp_model.predict(len(y_test)).reshape(-1)  smapes.append(smape(y_test.values,     pd.Series(predictions).clip(lower=0)))  naive_smape.append(smape(y_test.values, np.tile(y.iloc[-1], len(y_test))))  print(np.mean(smapes))print(np.mean(naive_smape))

          在查看結(jié)果之前,快速介紹一下 LazyProphet 參數(shù)。

          • scale:這個(gè)很簡(jiǎn)單,只是是否對(duì)數(shù)據(jù)進(jìn)行縮放。默認(rèn)值為 True 。
          • seasonal_period:此參數(shù)控制季節(jié)性的傅立葉基函數(shù),因?yàn)檫@是我們使用 52 的每周頻率。
          • n_basis:此參數(shù)控制加權(quán)分段線性基函數(shù)。這只是要使用的函數(shù)數(shù)量的整數(shù)。
          • Fourier_order:用于季節(jié)性的正弦和余弦對(duì)的數(shù)量。
          • ar:要使用的滯后目標(biāo)變量值??梢垣@取多個(gè)列表 1-52 。
          • decay:衰減因子用于懲罰我們的基函數(shù)的“右側(cè)”。設(shè)置為 0.99 表示斜率乘以 (1- 0.99) 或 0.01。
          • linear_trend:樹的一個(gè)主要缺點(diǎn)是它們無法推斷出后續(xù)數(shù)據(jù)的范圍。為了克服這個(gè)問題,有一些針對(duì)多項(xiàng)式趨勢(shì)的現(xiàn)成測(cè)試將擬合線性回歸以消除趨勢(shì)。None 表示有測(cè)試,通過 True 表示總是去趨勢(shì),通過 False 表示不測(cè)試并且不使用線性趨勢(shì)。
          • decay_average:在使用衰減率時(shí)不是一個(gè)有用的參數(shù)。這是一個(gè)trick但不要使用它。傳遞 True 只是平均基函數(shù)的所有未來值。這在與 elasticnet 程序擬合時(shí)很有用,但在測(cè)試中對(duì) LightGBM 的用處不大。

          下面繼續(xù)處理數(shù)據(jù):

          train_df = pd.read_csv(r'm4-hourly-train.csv')test_df = pd.read_csv(r'm4-hourly-test.csv')train_df.index = train_df['V1']train_df = train_df.drop('V1', axis = 1)test_df.index = test_df['V1']test_df = test_df.drop('V1', axis = 1)
          smapes = []naive_smape = []j = tqdm(range(len(train_df)))for row in j: y = train_df.iloc[row, :].dropna() y_test = test_df.iloc[row, :].dropna() j.set_description(f'{np.mean(smapes)}, {np.mean(naive_smape)}') lp_model = LazyProphet(seasonal_period=[24,168], n_basis=10, fourier_order=10, ar=list(range(1, 25)), decay=.99) fitted = lp_model.fit(y) predictions = lp_model.predict(len(y_test)).reshape(-1) smapes.append(smape(y_test.values, pd.Series(predictions).clip(lower=0))) naive_smape.append(smape(y_test.values, np.tile(y.iloc[-1], len(y_test)))) print(np.mean(smapes))print(np.mean(naive_smape))

          所以真正需要修改是seasonal_period 和ar 參數(shù)。將list傳遞給seasonal_period 時(shí),它將為列表中的所有內(nèi)容構(gòu)建季節(jié)性基函數(shù)。ar 進(jìn)行了調(diào)整以適應(yīng)新的主要季節(jié) 24。

          結(jié)果


          對(duì)于上面的 Sktime 結(jié)果,表格如下:


          LazyProphet 擊敗了 Sktime 最好的模型,其中包括幾種不同的基于樹的方法。在每小時(shí)數(shù)據(jù)集上輸給給了 M4 的獲勝者,但平均而言總體上優(yōu)于 ES-RNN。這里要意識(shí)到的重要一點(diǎn)是,只使用默認(rèn)參數(shù)進(jìn)行了此操作……

          boosting_params = {                  "objective": "regression",                  "metric": "rmse",                  "verbosity": -1,                  "boosting_type": "gbdt",                  "seed": 42,                  'linear_tree': False,                  'learning_rate': .15,                  'min_child_samples': 5,                  'num_leaves': 31,                  'num_iterations': 50                  }

          可以在創(chuàng)建 LazyProphet 類時(shí)傳遞你參數(shù)的字典,可以針對(duì)每個(gè)時(shí)間序列進(jìn)行優(yōu)化,以獲得更多收益。

          對(duì)比一下我們的結(jié)果和上面提到的目標(biāo):

          • 進(jìn)行了零參數(shù)優(yōu)化(針對(duì)不同的季節(jié)性稍作修改)?
          • 分別擬合每個(gè)時(shí)間序列?
          • 在我的本地機(jī)器上在一分鐘內(nèi)“懶惰地”生成了預(yù)測(cè)。?
          • 在基準(zhǔn)測(cè)試中擊敗了所有其他樹方法?

          目前看是非常成功的,但是成功可能無法完全的復(fù)制,因?yàn)樗麛?shù)據(jù)集的數(shù)據(jù)量要少得多,因此我們的方法往往會(huì)顯著降低性能。根據(jù)測(cè)試LazyProphet 在高頻率和大量數(shù)據(jù)量上表現(xiàn)的更好,但是LazyProphet還是一個(gè)時(shí)間序列建模的很好選擇,我們不需要花多長(zhǎng)時(shí)間進(jìn)行編碼就能夠測(cè)試,這點(diǎn)時(shí)間還是很值得。

          引用:

          [1] Markus ?L?ning, Franz Király: “Forecasting with sktime: Designing sktime’s New ?Forecasting API and Applying It to Replicate and Extend the M4 Study”, ?2020; arXiv:2005.08067


          編輯:王菁

          瀏覽 69
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  最新中文字幕在线视频 | 大鸡吧在线观看 | 人人草人人爽 | 无码人妻精品一区二区在线 | 少妇高潮日韩 |