Rを使ったXGBoostの高度なパラメータチューニングと細かいノウハウ

Mon, 03 Dec 2018 00:00:00 +0900

XGBoostは機械学習手法として

比較的簡単に扱える
目的変数や損失関数の自由度が高い（欠損値を扱える）
高精度の予測をできることが多い
ドキュメントが豊富（日本語の記事も多い）

ということで大変便利。ただチューニングとアウトプットの解釈については解説が少ないので、このあたりについて説明する。

XGBoostとは？

勾配ブースティングのとある実装ライブラリ（C++で書かれた）。イメージ的にはランダムフォレストを賢くした（誤答への学習を重視する）アルゴリズム。RとPythonでライブラリがあるが、ここではRライブラリとしてのXGBoostについて説明する。 XGBoostのアルゴリズム自体の詳細な説明はこれらを参照。

https://tjo.hatenablog.com/entry/2015/05/15/190000
グラフィカルな説明 https://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html

この記事では具体的なライブラリの使い方を中心に説明する。 2値分類だけでなく、連続量の回帰分析、多クラス分類、ポアソン回帰、Cox回帰（生存時間分析）などにも対応している。

データセットと前処理

House Sales in King County, USA 米国のワシントン州のキング郡の住宅価格のデータ。価格（連続量）を予測する回帰モデルを構築する。データセットの主な留意点

21613行21変数
最初の列が識別子（id）→除外
2列目が20141009T000000形式の日付（date）
3列目が目的変数（price）
位置情報はzipcodeとlatとlongがあるが、zipcodeをfactorにしてlatとlongを除外
それ以外は数値型変数なので型変換の必要なし

以上の処理をしたデータのうち80%を学習データ、20%をテストデータとして分割する。

require(data.table)
data.dt <- fread("kc_house_data.csv")
data.dt[,id:=NULL]
data.dt[,date:=as.Date(date, format='%Y%m%d')]
data.dt[,zipcode:=as.factor(zipcode)]
data.dt[,lat:=NULL]
data.dt[,long:=NULL]
nr <- nrow(data.dt)
train <- sample(nr, nr*0.8)
train.dt <- data.dt[train] # 学習データ
test.dt <- data.dt[-train] # 検証データ

手順

モデル構築用行列データの生成
パラメータチューニングしながらモデルの構築
予測、評価

モデル構築用行列データの生成

XGBoostではデータをDMatrixという固有の形式で扱う。これは説明変数と目的変数が入った特殊な行列の形式で、Rの他のパッケージでは扱うことができない。DMatrixデータそのものをバイナリファイルとして保存することも可能で、Rで生成したDMatrixのバイナリをPythonで読み込むことや、その逆もできる。まずこの形式のデータを生成する。データフレームやdata.tableを matrixまたはdgCMatrix形式のモデル行列に変換し、それをxgb.DMatrix()関数でDMatrix形式にする。学習データtrain.dtというdata.tableの正解ラベルの列がpriceで、それ以外のすべての列を説明変数とする場合

require(xgboost)
require(Matrix)
options(na.action='na.pass')
train_dmat <- xgb.DMatrix(
 sparse.model.matrix(price ~ ., data = train.dt),
 label = train.dt[, price]
)
options(na.action='na.omit')

欠損値を含むデータを扱う場合、行列の生成関数を実行する前にoptions(na.action='na.pass')を実行しておく必要がある（このデータには欠損値は含まないが、説明のため入れておいた）。この例ではいったんMatrixパッケージのsparse.model.matrix()関数でdgCMatrix形式の行列（疎行列）を生成した。 xgb.DMatrix()関数は

XGBoost on Marketechlabo

Rを使ったXGBoostの高度なパラメータチューニングと細かいノウハウ

XGBoostとは？

データセットと前処理

手順

モデル構築用行列データの生成