復(fù)雜時間序列模型綜述!

一、前言
時間序列分析是統(tǒng)計研究中的一大重要分支。通過指定的時間段內(nèi)記錄的一系列數(shù)據(jù),時序分析可以提取有意義的統(tǒng)計信息和數(shù)據(jù)特征,并且對未發(fā)生的事件進(jìn)行預(yù)測。傳統(tǒng)的時序分析主要針對單變量時間序列數(shù)據(jù)建立線性模型 (Box et al., 2015; Brockwell and Davis, 2009; Tsay, 2005)、非線性模型 (Engle, 1982; Bollerslev, 1986; Tong, 1990)、非參數(shù)模型 (Fan and Yao, 2008) 等,或針對多變量/面板型時序數(shù)據(jù)進(jìn)行研究 (Tiao and Box, 1981; Tiao and Tsay, 1989; Engle and Kroner, 1995; Stock and Watson, 2005; Tsay, 2013)。而復(fù)雜的觀測數(shù)據(jù),例如矩陣型時序數(shù)據(jù),在各個領(lǐng)域都廣泛存在,并且包含了更為復(fù)雜、全面的信息,因此本文對矩陣型時序分析方法,以及更復(fù)雜的張量型時序分析方法做一回顧。
二、矩陣型時序數(shù)據(jù)的現(xiàn)實(shí)場景
矩陣型時間序列數(shù)據(jù)蘊(yùn)含在不同領(lǐng)域之中。通常情況下矩陣的列和行表示不同類別的信息,這些信息以一種非常結(jié)構(gòu)化的方式密切相關(guān)。舉個栗子,在金融領(lǐng)域中,不同時刻可以觀測到不同公司的股票數(shù)據(jù),而這些數(shù)據(jù)又可以通過不同的變量維度有所區(qū)分,例如公司A的股票市值、公司B的股票賬面市值比等等,兩個維度的分類手段使得不同時刻觀測到的數(shù)據(jù)以矩陣的形式呈現(xiàn)。再舉個栗子,在宏觀經(jīng)濟(jì)領(lǐng)域,每一年都可以獲得各個國家的宏觀經(jīng)濟(jì)指標(biāo),例如GDP、CPI等等,這也構(gòu)成了矩陣型的時間序列。此外,還有國際貿(mào)易領(lǐng)域、環(huán)境與污染領(lǐng)域,都大量存在這樣的時間序列。
三、相關(guān)研究梳理
在傳統(tǒng)的對矩陣時序進(jìn)行分析的研究中,矩陣會被直接向量化,進(jìn)而使用針對向量時序的研究方法進(jìn)行研究 (See Chamberlain, 1983; Chamberlain & Rothschild, 1982; Bai, 2003; Bai & Ng, 2002; Bai & Ng, 2007; Forni et al., 2000; Forni et al., 2004; Pan & Yao, 2008; Lam et al., 2011; Lam & Yao, 2012)。這樣會嚴(yán)重丟失矩陣觀測中本身包含的大量相關(guān)信息,割裂了觀測數(shù)據(jù)的內(nèi)在關(guān)聯(lián),因此直接基于矩陣型時序分析的研究近幾年來開始受到研究者關(guān)注。
矩陣型時間序列(matrix-valued time seires)這個詞語第一次被提出是一篇信號處理的文章 (Walden and Serroukh, 2002),然而在這個研究中,序列數(shù)據(jù)的時間依賴性并沒有被充分利用來建立模型。對于矩陣型時間序列的統(tǒng)計與計量研究的首次研究被Wang et al. (2019)提出,截至目前還不斷涌出新的相關(guān)研究。Wang et al. 在研究矩陣時序數(shù)據(jù)時允許觀測值是高維的,因此其研究點(diǎn)側(cè)重于最維度進(jìn)行處理。作者使用的核心方法是對矩陣型時序數(shù)據(jù)引入因子模型建模,從而實(shí)現(xiàn)維度的降低。
這個模型的因子載荷矩陣和因子矩陣都是隨時間變化的,因此刻畫了因子模型中的動態(tài)相關(guān)性。模型的形式為
其中,是t時刻觀測到的數(shù)據(jù)矩陣,是維度比低的因子矩陣,和分別是行載荷矩陣與列載荷矩陣,是白噪聲矩陣。
其中,
基于上述的基本模型,Chen et al. (2019) 提出通過線性約束的手段將先驗(yàn)知識融入矩陣時序因子模型。這種線性約束對待估參數(shù)進(jìn)行了簡化,同時增強(qiáng)了觀測矩陣中所隱藏的因子結(jié)構(gòu)的解釋性。具體地,約束的矩陣時序因子模型可以表示為
以上的三個重要研究中,對矩陣時序因子模型的估計都是沿著Lam et al. (2011)和Lam and Yao (2012)的思路,對自相關(guān)協(xié)方差矩陣(auto-cross-covariance)進(jìn)行特征值分析。而對于矩陣型時序因子模型的另一個研究思路則是借鑒了Bai (2003)和Fan et al. (2013)的研究方法,對同一時刻的觀測矩陣的行或列所構(gòu)成的協(xié)方差矩陣進(jìn)行特征值分析。因此,下面我們介紹第二個研究思路。
在Wang et al. (2019)提出矩陣型時序的研究之后,除了上述使用因子模型對高維的矩陣時序進(jìn)行降維,也有文章對矩陣時序的自回歸模型進(jìn)行研究。Chen et al. (2021)在其研究中刻畫時序上的關(guān)聯(lián)關(guān)系,模型可以表示為:
四、擴(kuò)展研究——張量型時序數(shù)據(jù)
基于矩陣型時序數(shù)據(jù),一些研究者將數(shù)據(jù)類型的范疇拓展到了多維張量。這里我們再舉一個栗子,來展示什么是張量型時序數(shù)據(jù)。Chen et al. (2021) 對這種類型的時序數(shù)據(jù)做了研究,下圖展示了2001年1月至2017年12月期間6個國家(美國、加拿大、墨西哥、德國、英國、法國)的4類產(chǎn)品(化工、食品、機(jī)電、鞋帽)月度進(jìn)出口數(shù)量時間序列。每一個類別是一個平面,展示了出口國家(行)對進(jìn)口國家(列)輸送的產(chǎn)品量隨時間變化的趨勢。如果將這個場景簡化為某一中產(chǎn)品從美國輸出到別的國家的時序數(shù)據(jù),或退化為美國向加拿大輸出的4中產(chǎn)品的時序數(shù)據(jù),那么問題就退化為了傳統(tǒng)的向量時序分析;如果場景簡化為某一個類別產(chǎn)品的進(jìn)出口時序數(shù)據(jù),則問題退化為矩陣型時序分析問題。

Chen et al. (2021) 提出了兩種估計方法,分別是 TOPUP方法和TIPUP方法,利用張量展開和對滯后若干期的觀測張量叉乘,得到張量版本的自相關(guān)協(xié)方差矩陣,進(jìn)而使用特征值分解的方法,估計張量時序因子模型。在此基礎(chǔ)上,Han et al. (2021)將TOPUP和TIPUP估計的結(jié)果作為初始估計量,提出了對應(yīng)的迭代估計方法iTOPUP和iTIPUP,加快了上述估計的收斂速度。
五、實(shí)際數(shù)據(jù)應(yīng)用解讀
正如前文總結(jié),矩陣型時序和張量型時序在經(jīng)濟(jì)、金融以及其他社會領(lǐng)域都有較為廣泛的應(yīng)用,這里介紹一個多國家宏觀經(jīng)濟(jì)指數(shù)的例子。


六、小結(jié)
本文對矩陣型時間序列數(shù)據(jù)的模型與估計方法做了詳細(xì)的梳理,并擴(kuò)展至張量型時序數(shù)據(jù)。復(fù)雜的時序數(shù)據(jù)在經(jīng)濟(jì)、金融、社會領(lǐng)域的存在廣泛,因此近年來諸多研究者對此進(jìn)行探索。實(shí)例證明了這類模型的實(shí)用性和揭示高維時間序列特征的能力。未來的研究方向包括對多項(xiàng)模型的擴(kuò)展和簡化因子冗余的方法探究。將模型擴(kuò)展為動態(tài)因子模型,在因子矩陣上施加動態(tài)結(jié)構(gòu),同樣將有助于更準(zhǔn)確的預(yù)測和更好地理解矩陣型時間序列的動態(tài)性質(zhì)。
七、參考文獻(xiàn)
Bai, J. (2003). Inferential theory for factor models of large dimensions. Econometrica, 71(1), 135-171.
Bai, J., & Ng, S. (2002). Determining the number of factors in approximate factor models. Econometrica, 70(1), 191-221.
Bai, J., & Ng, S. (2007). Determining the number of primitive shocks in factor models. Journal of Business & Economic Statistics, 25(1), 52-60.
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, 31(3), 307-327.
Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
Brockwell, P. J., & Davis, R. A. (2009). Time series: theory and methods. Springer Science & Business Media.
Chamberlain, G. (1983). Funds, factors, and diversification in arbitrage pricing models. Econometrica: Journal of the Econometric Society, 1305-1323.
Chamberlain, G., & Rothschild, M. (1982). Arbitrage, factor structure, and mean-variance analysis on large asset markets.
Chen, E. Y., & Chen, R. (2019). Modeling dynamic transport network with matrix factor models: with an application to international trade flow. arXiv preprint arXiv:1901.00769.
Chen, E. Y., & Fan, J. (2021). Statistical Inference for High-Dimensional Matrix-Variate Factor Models. Journal of the American Statistical Association, (just-accepted), 1-44.
Chen, E. Y., Tsay, R. S., & Chen, R. (2019). Constrained factor models for high-dimensional matrix-variate time series. Journal of the American Statistical Association.
Chen, R., Xiao, H., & Yang, D. (2021). Autoregressive models for matrix-valued time series. Journal of Econometrics, 222(1), 539-560.
Chen, R., Yang, D., & Zhang, C. H. (2021). Factor models for high-dimensional tensor time series. Journal of the American Statistical Association, 1-23.
Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation. Econometrica: Journal of the econometric society, 987-1007.
Engle, R. F., & Kroner, K. F. (1995). Multivariate simultaneous generalized ARCH. Econometric theory, 11(1), 122-150.
Fan, J., & Yao, Q. (2008). Nonlinear time series: nonparametric and parametric methods. Springer Science & Business Media.
Forni, M., Hallin, M., Lippi, M., & Reichlin, L. (2000). The generalized dynamic-factor model: Identification and estimation. Review of Economics and statistics, 82(4), 540-554.
Forni, M., Hallin, M., Lippi, M., & Reichlin, L. (2004). The generalized dynamic factor model consistency and rates. Journal of Econometrics, 119(2), 231-255.
Lam, C., & Yao, Q. (2012). Factor modeling for high-dimensional time series: inference for the number of factors. The Annals of Statistics, 694-726.
Lam, C., Yao, Q., & Bathia, N. (2011). Estimation of latent factors for high-dimensional time series. Biometrika, 98(4), 901-918.
Pan, J., & Yao, Q. (2008). Modelling multiple time series via common factors. Biometrika, 95(2), 365-379.
Stock, J. H., & Watson, M. W. (2005). An empirical comparison of methods for forecasting using many predictors. Manuscript, Princeton University, 46.
Tiao, G. C., & Box, G. E. (1981). Modeling multiple time series with applications. Journal of the American Statistical Association, 76(376), 802-816.
Tiao, G. C., & Tsay, R. S. (1989). Model specification in multivariate time series. Journal of the Royal Statistical Society: Series B (Methodological), 51(2), 157-195.
Tong, H. (1990). Non-linear time series: a dynamical system approach. Oxford University Press.
Tsay, R. S. (2005). Analysis of financial time series (Vol. 543). John wiley & sons.
Tsay, R. S. (2013). Multivariate time series analysis: with R and financial applications. John Wiley & Sons.
Walden, A. T., & Serroukh, A. (2002). Wavelet analysis of matrix–valued time–series. Proceedings of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences, 458(2017), 157-179.
Wang, D., Liu, X., & Chen, R. (2019). Factor models for matrix-valued high-dimensional time series. Journal of econometrics, 208(1), 231-248.
Yu, L., He, Y., Kong, X., & Zhang, X. (2021). Projected estimation for large-dimensional matrix factor models. Journal of Econometrics.
- END -往期精彩:
?時隔一年!深度學(xué)習(xí)語義分割理論與代碼實(shí)踐指南.pdf第二版來了!
?基于 docker 和 Flask 的深度學(xué)習(xí)模型部署!
?新書預(yù)告 | 《機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)》出版在即!
