時系列のアプローチ

単系列
- ざっと見る
- 定常性の確認
- ARIMA/SARIMAモデルをあてはめる
複数系列の関係→VAR（ベクトル自己回帰）モデル
その他の変数がある（時系列＋回帰）→状態空間モデル
（単なるラグ変数回帰→目的変数自体の時系列性が反映されない）

ライブラリ{forecast}を使う
以下、データはy.tsとする

時系列のデータ形式

時系列データにはいくつかの形式がある。

ts: Rの基本の時系列オブジェクト。ほとんどの時系列ライブラリはこの形式の時系列データを扱う
xts: データフレームとtsの間に位置づけられる、時系列データを便利に扱えるようにした形式
zoo: データフレームとxtsの間の形式

われわれが一般的に扱うデータ形式はデータフレームで、時系列データも元はCSVやデータベースなどからデータフレームの形式で与えられることが多い。たとえば日付を表す列と値の列がそれぞれ存在したり、1枚のデータフレームに複数列（つまり複数の時系列変数）が収まっていたりする。一方でtsは単系列で日付データではなくサイクルの周期を属性として持つなど、データフレームとは形式が大きく異なり、そのままでは扱いにくい。zooは直接知らなくてもいい。

xts = ts＋カレンダー機能＋複数系列

データフレームをxtsに変換する

`read.zoo()`を使う

データフレームx.dfをxts形式のx.xtsに変換

as.xts(read.zoo(x.df))

x.dfに日時形式の列（Date, POSIXct）が含まれていればその列が時を表すindexになる。時を表すカラムは

as.xts(read.zoo(x.df, index.column = 2))

などのように番号や列名でも指定できる。

data.tableを使う

日時を表す列（Date, POSIXct）を含むdata.table形式であればas.xts.data.table()で直接xtsに変換できる。

as.xts.data.table(x.dt)

xtsオブジェクトからtsオブジェクトを生成する

var1.ts <- ts(x.xts[,'var1'], freq=7)

ざっと見る

コレログラム

acf(y.ts)

トレンド成分、季節成分を抽出してプロット

x.stl <- stl(y.ts,s.window="periodic")
plot(x.stl)

定常性の確認

ADF検定
KPSS検定

定常になるまで階差を取る

ARMA/ARIMA/SARIMAモデル

パラメータを以下の通りとする

SARIMA(p,d,q)(P,D,Q)

p: p for AR(p)（自己回帰部分の次数）
q: q for MA(q)（移動平均部分の次数）
d: diff（d階の階差モデル）
P: P for AR(P) of seasonal part（季節成分の自己回帰部分の次数）
Q: Q for MA(q) of seasonal part（季節成分の移動平均部分の次数）
D: diff of seasonal part（季節成分の階差の階数）

次数を指定して推定

arima()を使う

ARIMA

model1 <- arima(y.ts, order=c(p,d,q))

SARIMA

12期間周期の季節成分

model1 <- arima(y.ts, order=c(p,d,q), seasonal=list(order=c(P,D,Q), period=12))

次数も自動で算出

auto.arima()を使う

model1 <- auto.arima(
  y.ts,
  ic = 'aic', # モデル選択で使う情報量基準。'aic', 'aicc', 'bic'から選択
  trace = T, # 計算履歴を表示。デフォルトでFALSE
  stepwise = F, # FALSEで総当たり、TRUE（デフォルト）でstepwise（高速）
  approximation = F,
  d = 1, # 指定するとN階の階差、デフォルトで自動計算
  start.p = 0, # AR(p)の次数の計算スタート
  start.q = 0, # MA(q)の次数の計算スタート
  start.P = 0, # 季節部分のAR(P)の次数の計算スタート
  start.Q = 0, # 季節部分のMA(Q)の次数の計算スタート
  seasonal = T, # FALSEでARIMA（デフォルト）、TRUEでSARIMA
  xreg=x.xts # 回帰要素を入れることもできる。形式はxtsで指定
)

時系列に従う乱数の生成

arima.sim()を使う

ts.sim <- arima.sim(n=乱数の数, model=list(order=c(p,d,q), ar=c(ARの係数), ma=c(MAの係数)), sd=sqrt(1))

予測値

50%信頼区間、95%信頼区間も一緒に50期間先までプロット

x_ts.pred <- forecast(model1, level = c(50, 95), h = 50)

プロット

plot(x_ts.pred)

参考

TSstudioを使って

時系列分析の便利なライブラリTSstudio
時系列を可視化するのに便利なチャートをplotlyできれいに出力してくれるし、いろいろな時系列モデルを一気に作って比較することもできる。

生成できる時系列モデルは以下のとおり

auto.arima (forecast package)、回帰成分も指定可能
Bayesian Structural Time Series (bsts package) 、回帰成分は指定不可
ets (forecast package)
hybrid timse series model (forecastHybrid package) 、回帰成分も指定可能
Neural Network Time Series (forecast package) 、回帰成分も指定可能
tbats (forecast package)
Holt Winters (stats package)

ts_backtesting

多変量時系列（VAR:ベクトル自己回帰モデル）

ライブラリ{vars}を使う

# データの読み込み
## Excelからカンマ付きフォーマットされた数値をクリップボード経由で読み込む例
traffic <- read.table("clipboard", header=T)
traffic <- sapply(traffic, function(x) as.integer(gsub(',', '', x)))

require(vars)

# 1. 最初に次数を決める
VARselect(traffic, lag.max=5)

# 2. モデルを推定する
traffic.var = VAR(traffic, p=4)
summary(traffic.var)
plot(traffic.var)
# 残差間の相関は小さいほうがいい

# 3. 解釈：インパルス応答推定（時間を経ると影響がどのようになるか）
traffic.irf = irf(traffic.var, n.ahead=4, ci=.95)
plot(traffic.irf)

# 4. 予測
predict(traffic.var, n.ahead=4, ci=0.95, dumvar=NULL)

状態空間モデル

時系列＋外生変数（要因となる変数＝回帰の説明変数）

ライブラリ{bsts}が使いやすいし、正規分布以外（ロジスティック分布、ポアソン分布）にも適用できる。
状態空間モデルを扱うライブラリは他に{dlm}, {KFAS}もあるが、モデルの指定などがやりにくい。KFASはパラメータの推定の手順が難しい

時系列の成分を

ローカルモデル
周期成分
自己回帰部分
回帰部分
日次データにおける休日効果

に分け、それぞれの変数があるかどうかを検討する。

基本的なモデルの作り方

データフレームdf
目的の時系列の列名がsales

という場合

list() %>%
  AddXXXXX(y=df$sales, その他パラメータ) %>% # 成分を指定1
  AddXXXXX(y=df$sales, その他パラメータ) %>% # 成分を指定2
    :
  -> bsts_model_spec
bsts_model <- bsts(formula=sales ~ 回帰部分の説明変数, state.specification=bsts_model_spec, niter=10000, data=df)

たとえば

list() %>%
  AddLocalLevel(y=df$sales) %>% # ローカルレベルモデル
  AddSeasonal(nseasons=4, y=df$sales) %>% # 季節成分
  AddAutoAr(y=df$sales) -> bsts_model_spec # 自己回帰部分（次数は自動で算出）

bsts_model <- bsts(formula=sales ~ spend + spend_lag1q + spend_lag2q + spend_lag3q, state.specification=bsts_model_spec, niter=10000, data=x)

回帰部分の説明変数欠損値が含まれているとエラーになる。

成分の指定

ローカルモデル
- AddLocalLevel(y): ローカルレベルモデル（傾きゼロ＝トレンドなし）
- AddLocalLinearTrend(y): ローカル線系トレンドモデル（トレンドあり）
- AddSemiLocalLinearTrend(y)（旧AddGeneralizedLocalLinearTrend(y)）: レベルが【ランダムウォーク】＋【AR1過程に従う傾き】
周期成分
- AddSeasonal(y, nseasons=4, season.duration=3): 通常の各季節のフラグ付け（この例では月次データで1シーズン3か月×4シーズンある場合）
- AddTrig(y, period=12, frequencies=1:3): 季節成分を三角関数で表す（この例では12か月で1区切り、12か月で1サイクル、2サイクル、3サイクル）→https://rdrr.io/cran/bsts/man/add.trig.html
自己回帰部分
- AddAutoAr(y): 次数自動
- AddAr(y, lags=1): 次数指定（この例では1次の自己回帰）

日次データ（yが日付情報付きxtsデータ）の場合、休日効果と月効果を簡単に指定できる。

休日効果
- AddRegressionHoliday(y, holiday.list): 固定の休日効果
- AddHierarchicalRegressionHoliday(y, holiday.list): 分布に従う（ランダムな要素を含む）休日効果
- AddRandomWalkHoliday(y, holiday): 祝日がランダムウォーク系列に従う。祝日の系列は複数設定でき（祝日の系列と日曜の系列など）、それぞれの系列がランダムウォークに従う
月効果
- AddMonthlyAnnualCycle(y)

複数の種類の休日がある場合の扱い（祝日、日曜、土曜）

AddRandomWalkHoliday()の場合

list() %>%
  AddRandomWalkHoliday(y, 祝日系列) %>%
  AddRandomWalkHoliday(y, 日曜系列) %>%
  AddRandomWalkHoliday(y, 土曜系列) %>%
    :

AddRegressionHoliday(), AddHierarchicalRegressionHoliday()の場合

list() %>%
  AddRegressionHoliday(y, list(祝日系列, 日曜系列, 土曜系列)) %>%
    :

となる。

休日オブジェクトは

FixedDateHoliday()
NthWeekdayInMonthHoliday()
LastWeekdayInMonthHoliday()
NamedHoliday()
DateRangeHoliday()

https://www.rdocumentation.org/packages/bsts/versions/0.8.0/topics/holiday
の関数で生成できる。

回帰部分

回帰係数がランダムウォークに従う場合

list() %>%
  AddDynamicRegression(y ~ 説明変数) %>%
    :

回帰係数が固定の場合、

bsts(..., formula=y ~ 説明変数)

で指定する。

分布の指定

時系列変数の分布は正規表現以外も指定できる。

bsts(..., family = "logit")

family
- “gaussian”: 正規分布
- “logit”: ロジットモデル
- “poisson”: ポアソン分布
- “student”: t分布

アウトプット

bstsオブジェクト

モデルの評価

プロット

burn_value <- SuggestBurn(0.1, bsts_model2)
plot(bsts_model, 'state', burn=burn_value)
plot(bsts_model, 'coef', burn=burn_value)
plot(bsts_model, 'seasonal', burn=burn_value)
plot(bsts_model, 'components', burn=burn_value)
plot(bsts_model, 'residuals', burn=burn_value)
plot(bsts_model, 'predictors', burn=burn_value)
plot(bsts_model, 'size', burn=burn_value)
plot(bsts_model, 'dynamic', burn=burn_value)
plot(bsts_model, 'prediction.errors', burn=burn_value)
plot(bsts_model, 'forecast.distribution', burn=burn_value)

colMeans(bsts_model$coefficients[burn_value:10000,]) %>% sort(dec=T)
summary(bsts_model, burn=burn_value)

複数のモデルの比較

CompareBstsModels(list(bsts_model1, bsts_model2))
CompareBstsModels(list(`Model 5`=bsts_model5, `Model 6`=bsts_model6, `Model 7`=bsts_model7, `Model 8`=bsts_model8))

各成分の平均

# bsts_model1$state.contributions [1,,1] %>% names
trend = colMeans(bsts_model$state.contributions[burn_value:10000,'trend',])
seasonal = colMeans(bsts_model$state.contributions[burn_value:10000,'seasonal.4.1',])
ar1 = colMeans(bsts_model$state.contributions[burn_value:10000,'Ar1',])
reg = colMeans(bsts_model$state.contributions[burn_value:10000,'regression',])
total = trend+seasonal+ar1+reg
apply(cbind(trend, seasonal, ar1, reg), mean, MARGIN=2)/mean(total)

lapply(c(trend, seasonal, ar1, reg), mean)/mean(total)

予測

predict(bsts_model, horizon = 4, newdata = new_data, burn = burn_value, quantiles = c(.025, .975)) %>% plot

参考

bsts

KFAS

係数まで算出するとなるとコーディングが面倒

データの加工や分析で使うRの使い方の記事一覧

marketechlabo

Rにおける代表的な一般化線形モデル（GLM）の実装ライブラリまとめ

https://www.marketechlabo.com/r-glm-libraries/

marketechlabo

Google ColaboratoryでRを使う

https://www.marketechlabo.com/google-colaboratory-with-r/

marketechlabo

Rのdata.tableパッケージの使える関数一覧

https://www.marketechlabo.com/r-data-table-functions/

marketechlabo

Rのおすすめパッケージ2019年版

https://www.marketechlabo.com/r-best-packages/

marketechlabo

Rを使ったXGBoostの高度なパラメータチューニングと細かいノウハウ

https://www.marketechlabo.com/r-xgboost-tuning/

時系列のアプローチ

時系列のデータ形式

データフレームをxtsに変換する

read.zoo()を使う

data.tableを使う

ざっと見る

コレログラム

トレンド成分、季節成分を抽出してプロット

定常性の確認

ARMA/ARIMA/SARIMAモデル

次数を指定して推定

ARIMA

SARIMA

次数も自動で算出

時系列に従う乱数の生成

予測値

参考

TSstudioを使って

多変量時系列（VAR:ベクトル自己回帰モデル）

状態空間モデル

基本的なモデルの作り方

成分の指定

回帰部分

分布の指定

アウトプット

モデルの評価

予測

参考

bsts

KFAS

`read.zoo()`を使う