Rのデータ前処理 – marketechlabo

Rでローデータの読み込み（データフレーム、data.table、webデータの取得）

Rを使ったデータ前処理の方法を解説する。データフレーム形式だけでなく、大きなデータを扱うのに高速なdata.tableを使ったデータの前処理の方法も解説する。まず一般的にデータの前処理の手順は以下のようなものである。ローデータの読み込みデータの整形（分析用データセットの生成。データの持つ情報は保持）データの型確認必要な（分析対象とする）列の抽出列名の変更データ変換データの型変換日時データの生成因子データの生成（ordered）データクリーニング（正しく分析できるように必要に応じて情報を一部削る）行の削除（抽出）行の並べ替え（ソート）標準化（scale）欠損値処理…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rでデータの整形（列のデータ型確認、列の抽出、列名の変更、列の型変換）

ローデータから分析対象とする変数のみ抽出し（個人情報など、保持すべきでない変数を削除するなど）、情報を失わない範囲で分析するためのデータセットを作る。分析プロジェクトにおけるローデータと同じ量の情報を持つ、整形された（扱いやすい）データセットを作るのである。この後のデータクレンジング以降で、データの加工方法を変更するなどで手戻りが発生することもある。その際ローデータの読み込みまで戻るのは大変なので、ローデータを同じ情報を持つ、整形された状態のデータを作っておくのが重要である。データクレンジングで手戻りが発生しても、ここで整形したデータセットまで戻ればいい。カテゴリ変数の型となるfactor…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rでデータクリーニング、変数の生成

このあたりから処理がアドホック寄りになるので、data.tableを使う場合でもパイプ（dplyr）を使って一度に実行するのではなく添字記法を使って1ステップずつ進めていくといい（1行ずつ実行する場合は添字記法を使った方がコード量が少なくて済む）。行の削除（抽出）行の抽出行の並べ替え（ソート）行の並べ替え変数の加工（データフレーム／data.frame共通）標準化（scale）指定した変数を標準化（平均＝０、分散＝1のスケールに圧縮／拡大）する。 scale()関数を使う。 # データフレーム x.dt$purchase_amount <- scale(x.dt$purch…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rでデータセットの抽出（行の抽出、並べ替え、サンプリング、分割）

前のページではデータフレーム、data.tableの列（変数）の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。行の削除（抽出）データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。データフレームの抽出・絞り込みでは第3添字にdro…

続きを読む →