Rでデータクリーニング、変数の生成

Mon, 22 Jan 2018 00:00:00 +0900

このあたりから処理がアドホック寄りになるので、data.tableを使う場合でもパイプ（dplyr）を使って一度に実行するのではなく添字記法を使って1ステップずつ進めていくといい（1行ずつ実行する場合は添字記法を使った方がコード量が少なくて済む）。

行の削除（抽出）

行の抽出

行の並べ替え（ソート）

行の並べ替え

変数の加工（データフレーム／data.frame共通）

標準化（scale）

指定した変数を標準化（平均＝０、分散＝1のスケールに圧縮／拡大）する。 scale()関数を使う。

# データフレーム
x.df$purchase_amount <- scale(x.df$purchase_amount)
# data.table
x.dt[,purchase_amount := scale(purchase_amount)]

複数列をまとめてやるにはmutate(across(...))を使って

x.dt |>
 lazy_dt() |>
 mutate(across(c(n_purchase, purchase_amount), scale)) |>
 as.data.table() -> x.dt

などとする。across()の詳細はdplyrの公式ドキュメントを参照。

欠損値処理

NAをいずれかの列に含む行全体を削除（いわゆるリストワイズ法）→na.omit()関数を使う

# データフレーム
x.df <- na.omit(x.df)
# data.table
x.dt <- na.omit(x.dt)
# パイプを使う場合
x.dt |>
 lazy_dt() |>
 na.omit() |> ...
 as.data.table() -> x.dt

特定の値を代入する（以下の例では平均値）

# データフレーム
x.df$n_purchase[is.na(x.df$n_purchase)] <- mean(x.df$n_purchase, na.rm = T)
# data.table
x.dt[is.na(n_purchase), n_purchase := mean(n_purchase, na.rm = T)]

一般的な欠損値処理についてはこのあたりを参照

data.tableのままで（data.tableの性質を保持したままで）これらの処理をすることは不可能だが、データフレームに対しては実行できる。そのためdata.tableオブジェクトをそのままこれらの関数に渡し、処理結果のデータフレームをas.data.table()でdata.table化する。

外れ値処理

以下の流れになる。

各列に対する外れ値を検出
外れ値を含む行を除外する→行の削除

各列に対する外れ値の検出はdata.tableに固有の方法はない。スミルノフ・グラブス検定grubbs.test() {outliers}などで外れ値の閾値を検出する。たとえば

> grubbs.test(x.dt$n_purchase_shoes)

 Grubbs test for one outlier

data: x
G = 6.55290, U = 0.56187, p-value = 3.242e-12
alternative hypothesis: highest value 50 is an outlier

という結果が出たら、