<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          時間序列數(shù)據(jù)的預處理方法總結(jié)

          共 3861字,需瀏覽 8分鐘

           ·

          2022-07-31 21:56

          時間序列數(shù)據(jù)隨處可見,要進行時間序列分析,我們必須先對數(shù)據(jù)進行預處理。時間序列預處理技術對數(shù)據(jù)建模的準確性有重大影響。

          在本文中,我們將主要討論以下幾點:

          • 時間序列數(shù)據(jù)的定義及其重要性。
          • 時間序列數(shù)據(jù)的預處理步驟。
          • 構(gòu)建時間序列數(shù)據(jù),查找缺失值,對特征進行去噪,并查找數(shù)據(jù)集中存在的異常值。

          首先,讓我們先了解時間序列的定義:

          時間序列是在特定時間間隔內(nèi)記錄的一系列均勻分布的觀測值。

          時間序列的一個例子是黃金價格。在這種情況下,我們的觀察是在固定時間間隔后一段時間內(nèi)收集的黃金價格。時間單位可以是分鐘、小時、天、年等。但是任何兩個連續(xù)樣本之間的時間差是相同的。

          在本文中,我們將看到在深入研究數(shù)據(jù)建模部分之前應執(zhí)行的常見時間序列預處理步驟和與時間序列數(shù)據(jù)相關的常見問題。

          時間序列數(shù)據(jù)預處理

          時間序列數(shù)據(jù)包含大量信息,但通常是不可見的。與時間序列相關的常見問題是無序時間戳、缺失值(或時間戳)、異常值和數(shù)據(jù)中的噪聲。在所有提到的問題中,處理缺失值是最困難的一個,因為傳統(tǒng)的插補(一種通過替換缺失值來保留大部分信息來處理缺失數(shù)據(jù)的技術)方法在處理時間序列數(shù)據(jù)時不適用。為了分析這個預處理的實時分析,我們將使用 Kaggle 的 Air Passenger 數(shù)據(jù)集。

          時間序列數(shù)據(jù)通常以非結(jié)構(gòu)化格式存在,即時間戳可能混合在一起并且沒有正確排序。另外在大多數(shù)情況下,日期時間列具有默認的字符串數(shù)據(jù)類型,在對其應用任何操作之前,必須先將數(shù)據(jù)時間列轉(zhuǎn)換為日期時間數(shù)據(jù)類型。讓我們將其實現(xiàn)到我們的數(shù)據(jù)集中:

          import pandas as pd 

          passenger = pd.read_csv('AirPassengers.csv')
          passenger['Date'] = pd.to_datetime(passenger['Date'])
          passenger.sort_values(by=['Date'], inplace=True, ascending=True)

          時間序列中的缺失值

          處理時間序列數(shù)據(jù)中的缺失值是一項具有挑戰(zhàn)性的任務。傳統(tǒng)的插補技術不適用于時間序列數(shù)據(jù),因為接收值的順序很重要。為了解決這個問題,我們有以下插值方法:

          插值是一種常用的時間序列缺失值插補技術。它有助于使用周圍的兩個已知數(shù)據(jù)點估計丟失的數(shù)據(jù)點。這種方法簡單且最直觀。處理時序數(shù)據(jù)時可以使用以下的方法:

          • 基于時間的插值
          • 樣條插值
          • 線性插值

          讓我們看看我們的數(shù)據(jù)在插補之前的樣子:

          from matplotlib.pyplot import figure 
          import matplotlib.pyplot as plt

          figure(figsize=(12, 5), dpi=80, linewidth=10)
          plt.plot(passenger['Date'], passenger['Passengers'])
          plt.title('Air Passengers Raw Data with Missing Values')
          plt.xlabel('Years', fontsize=14)
          plt.ylabel('Number of Passengers', fontsize=14)
          plt.show()

          讓我們看看以上三個方法的結(jié)果:

          passenger[‘Linear’] = passenger[‘Passengers’].interpolate(method=’linear’) 
          passenger[‘Spline order 3’] = passenger[‘Passengers’].interpolate(method=’spline’, order=3)
          passenger[‘Time’] = passenger[‘Passengers’].interpolate(method=’time’)

          methods = ['Linear', 'Spline order 3', 'Time']

          from matplotlib.pyplot import figure
          import matplotlib.pyplot as plt
          for method in methods:
          figure(figsize=(12, 4), dpi=80, linewidth=10)
          plt.plot(passenger["Date"], passenger[method])
          plt.title('Air Passengers Imputation using: ' + types)
          plt.xlabel("Years", fontsize=14)
          plt.ylabel("Number of Passengers", fontsize=14)
          plt.show()

          所有的方法都給出了還不錯的結(jié)果。當缺失值窗口(缺失數(shù)據(jù)的寬度)很小時,這些方法更有意義。但是如果丟失了幾個連續(xù)的值,這些方法就更難估計它們。

          時間序列去噪

          時間序列中的噪聲元素可能會導致嚴重問題,所以一般情況下在構(gòu)建任何模型之前都會有去除噪聲的操作。最小化噪聲的過程稱為去噪。以下是一些通常用于從時間序列中去除噪聲的方法:

          滾動平均值

          滾動平均值是先前觀察窗口的平均值,其中窗口是來自時間序列數(shù)據(jù)的一系列值。為每個有序窗口計算平均值。這可以極大地幫助最小化時間序列數(shù)據(jù)中的噪聲。

          讓我們在谷歌股票價格上應用滾動平均值:

          rolling_google = google_stock_price['Open'].rolling(20).mean() 
          plt.plot(google_stock_price['Date'], google_stock_price['Open'])
          plt.plot(google_stock_price['Date'], rolling_google)
          plt.xlabel('Date')
          plt.ylabel('Stock Price')
          plt.legend(['Open','Rolling Mean'])
          plt.show()

          傅里葉變換

          傅里葉變換可以通過將時間序列數(shù)據(jù)轉(zhuǎn)換到頻域來幫助去除噪聲,我們可以過濾掉噪聲頻率。然后應用傅里葉反變換得到濾波后的時間序列。我們用傅里葉變換來計算谷歌股票價格。

          denoised_google_stock_price = fft_denoiser(value, 0.001, True) 
          plt.plot(time, google_stock['Open'][0:300])
          plt.plot(time, denoised_google_stock_price)
          plt.xlabel('Date', fontsize = 13)
          plt.ylabel('Stock Price', fontsize = 13)
          plt.legend([‘Open’,’Denoised: 0.001'])
          plt.show()

          時間序列中的離群值檢測

          時間序列中的離群值是指趨勢線的突然高峰或下降。導致離群值可能有多種因素。讓我們看一下檢測離群值的可用方法:

          基于滾動統(tǒng)計的方法

          這種方法最直觀,適用于幾乎所有類型的時間序列。在這種方法中,上限和下限是根據(jù)特定的統(tǒng)計量度創(chuàng)建的,例如均值和標準差、Z 和 T 分數(shù)以及分布的百分位數(shù)。例如,我們可以將上限和下限定義為:

          取整個序列的均值和標準差是不可取的,因為在這種情況下,邊界將是靜態(tài)的。邊界應該在滾動窗口的基礎上創(chuàng)建,就像考慮一組連續(xù)的觀察來創(chuàng)建邊界,然后轉(zhuǎn)移到另一個窗口。該方法是一種高效、簡單的離群點檢測方法。

          孤立森林

          顧名思義,孤立森林是一種基于決策樹的異常檢測機器學習算法。它通過使用決策樹的分區(qū)隔離給定特征集上的數(shù)據(jù)點來工作。換句話說,它從數(shù)據(jù)集中取出一個樣本,并在該樣本上構(gòu)建樹,直到每個點都被隔離。為了隔離數(shù)據(jù)點,通過選擇該特征的最大值和最小值之間的分割來隨機進行分區(qū),直到每個點都被隔離。特征的隨機分區(qū)將為異常數(shù)據(jù)點在樹中創(chuàng)建更短的路徑,從而將它們與其余數(shù)據(jù)區(qū)分開來。

          K-means 聚類

          K-means 聚類是一種無監(jiān)督機器學習算法,經(jīng)常用于檢測時間序列數(shù)據(jù)中的異常值。該算法查看數(shù)據(jù)集中的數(shù)據(jù)點,并將相似的數(shù)據(jù)點分組為 K 個聚類。通過測量數(shù)據(jù)點到其最近質(zhì)心的距離來區(qū)分異常。如果距離大于某個閾值,則將該數(shù)據(jù)點標記為異常。K-Means 算法使用歐幾里得距離進行比較。

          可能的面試問題

          如果一個人在簡歷中寫了一個關于時間序列的項目,那么面試官可以從這個主題中提出這些可能的問題:

          • 預處理時間序列數(shù)據(jù)的方法有哪些,與標準插補方法有何不同?
          • 時間序列窗口是什么意思?
          • 你聽說過孤立森林嗎?如果是,那么你能解釋一下它是如何工作的嗎?
          • 什么是傅立葉變換,我們?yōu)槭裁葱枰?/section>
          • 填充時間序列數(shù)據(jù)中缺失值的不同方法是什么?

          總結(jié)

          在本文中,我們研究了一些常見的時間序列數(shù)據(jù)預處理技術。我們從排序時間序列觀察開始;然后研究了各種缺失值插補技術。因為我們處理的是一組有序的觀察結(jié)果,所以時間序列插補與傳統(tǒng)插補技術不同。此外,還將一些噪聲去除技術應用于谷歌股票價格數(shù)據(jù)集,最后討論了一些時間序列的異常值檢測方法。使用所有這些提到的預處理步驟可確保高質(zhì)量數(shù)據(jù),為構(gòu)建復雜模型做好準備。

          作者:Shashank Gupta
          來源:deephub

          瀏覽 16
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品久久人人爽天天玩人人妻 | 青青草18在线视频 | 久久久久麻豆V国产 | 青青青青青青草视频 | 五月丁香五月婷婷 |