Rのdata.tableパッケージの使える関数一覧

Rのdata.tableはデータフレームを高速に扱えるように改良した形式だが、この機能を提供するdata.tableパッケージには添え字を使ったdata.tableの処理機能だけでなく、さまざまな関数が実装されている。 中にはdata.table以外の形式にも使える関数もあり、 dt[,col1:=関数()] の形式で使えるdata.table用の関数にも一般的に知られていない便利なものが数多くある。 特に高速化を意識しているものが多く、知っていると処理時間を短縮できる。 data.tableはdplyrとセットで使われることも多いが、dplyr自体はdata.tableの高速仕様にのっとったものではない(tibble形式)ため、正直遅い。 集計など同じアウトプットは出せるが、処理速度に断然違いがあるので、実はdata.tableパッケージを使いこなすのがオススメ(コード自体はdplyrに準拠したほうが読みやすいが) data.tableのマニュアルの全関数を精査し、一般的に使えそうなもののみをピックアップしてまとめた。 ファイル入出力 ファイルを読み込んでdata.tableを生成するfread()関数 data.tableだけでなくデータフレームもCSVファイルに出力できるfwrite()関数 dt1 <- fread(‘data.csv’) fwrite(dt1, fi…

Continue reading →

Rのおすすめパッケージ2019年版

Rのおすすめパッケージをアップデートしてまとめた。定番の分析手法をはじめ、可視化やデータ処理に便利なものなど、幅広く紹介した。中にはマストというものもあるし、意外と知られていないがインストールしておくと便利なものまで、使い方の例も挙げて説明している。 ミドルウェア的なレイヤーのライブラリ(must) curl ファイルをwebからダウンロードするときに使う。 データファイルやパッケージのダウンロードが発生する処理で内部的に使われるライブラリで、他のパッケージのインストールの際に同時にインストールされることが多く、意識されることは少ないパッケージ。たまに依存関係の問題でも解決されずに未インストールの場合があるので、明示的にインストールする必要がある。 read.csv(‘https://…’) などのために必要。 devtools GitHubからのインストールなど。ほとんどがGitHubからのインストールで使う ほとんどがこの使い方 devtools::install_github(‘アカウント名/リポジトリ名’) doParallel 簡単な並列処理のためのラッパー。並列処理にはこのライブラリの関数群を使っておけばいい。 使い方の例 registerDoParallel(detectCores()-1) foreach( i = 1:nrow(tune_params), .v…

Continue reading →

Rを使ったXGBoostの高度なパラメータチューニングと細かいノウハウ

XGBoostは機械学習手法として 比較的簡単に扱える 目的変数や損失関数の自由度が高い(欠損値を扱える) 高精度の予測をできることが多い ドキュメントが豊富(日本語の記事も多い) ということで大変便利。 ただチューニングとアウトプットの解釈については解説が少ないので、このあたりについて説明する。 XGBoostとは? 勾配ブースティングのとある実装ライブラリ(C++で書かれた)。イメージ的にはランダムフォレストを賢くした(誤答への学習を重視する)アルゴリズム。RとPythonでライブラリがあるが、ここではRライブラリとしてのXGBoostについて説明する。 XGBoostのアルゴリズム自体の詳細な説明はこれらを参照。 https://zaburo-ch.github.io/post/xgboost/ https://tjo.hatenablog.com/entry/2015/05/15/190000 グラフィカルな説明 http://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html この記事では具体的なライブラリの使い方を中心に説明する。 2値分類だけでなく、連続量の回帰分析、多クラス分類、ポアソン回帰、Cox回帰(生存時間分析)などにも対応している。 データセットと前処理 House Sales…

Continue reading →

Rで時系列分析の簡単なまとめ

時系列のアプローチ 単系列 ざっと見る ARIMA/SARIMAモデルをあてはめる 複数系列の関係→VAR(ベクトル自己回帰)モデル その他の変数がある(時系列+回帰)→状態空間モデル (単なるラグ変数回帰→目的変数自体の時系列性が反映されない) ライブラリ{forecast}を使う 以下、データはy.tsとする 時系列のデータ形式 時系列データにはいくつかの形式がある。 ts: Rの基本の時系列オブジェクト。ほとんどの時系列ライブラリはこの形式の時系列データを扱う xts: データフレームとtsの間に位置づけられる、時系列データを便利に扱えるようにした形式 zoo: データフレームとxtsの間の形式 われわれが一般的に扱うデータ形式はデータフレームで、時系列データも元はCSVやデータベースなどからデータフレームの形式で与えられることが多い。たとえば日付を表す列と値の列がそれぞれ存在したり、1枚のデータフレームに複数列(つまり複数の時系列変数)が収まっていたりする。一方でtsは単系列で日付データではなくサイクルの周期を属性として持つなど、データフレームとは形式が大きく異なり、そのままでは扱いにくい。zooは直接知らなくてもいい。 xts = ts+カレンダー機能+複数系列 データフレームをxtsに変換する read.zoo()を使う データフレームx.dfをxts形式のx.xtsに…

Continue reading →

RとExcel(ファイルの読み書き、データフレームをExcelで編集)

RでExcelファイル(.xlsx)を読み書きするライブラリはいくつかあるが、openxlsxが多機能でかつ使いやすい。Javaも不要なのでインストールや動作も軽い。古いファイル(.xls)には非対応だが、現行のファイル(.xlsx)のみ対応でよければこれがおすすめ。 Excelファイルの読み込み read.xlsx()関数を使う。 たとえばファイルC:/Users/fukuyama/Documents/master.xlsxのシート「ユーザ」を読み込む場合 m_user.df <- read.xlsx(‘C:/Users/fukuyama/Documents/master.xlsx’, na.string = ”, sheet = ‘ユーザ’) na.stringを指定しないと「NA」という文字列を欠損値扱いする。基本的にはいつも空文字を欠損値扱いするようにしておいたほうが安全である。 Excelファイル書き出し 単純にテーブルをそのまま出力するだけ 書式など細かいカスタマイズをせず、単にテーブルを出力するだけであればread.xlsx()関数を使えばいい。 出力したxlsxファイルを開くのがopenXL()関数である。 複数のテーブルをシート別にまとめて1個のファイルで出力し、それを開く場合 list( ‘IRIS’ = iris, ‘CO2’ = CO2, ‘USAr…

Continue reading →

Rでデータセットの抽出(行の抽出、並べ替え、サンプリング、分割)

この記事は連載「Rのデータ前処理」の全 4 ページ中 4 ページ目です。

前のページではデータフレーム、data.tableの列(変数)の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。 行の削除(抽出) データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。 データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること! 行列の添え字にdrop=FALSEを付けないと1行(列)のみマッチの場合にベクトルとして返す。そうなるとデータフレームを想定してその後の処理にrbind()をしていたのができなくなるなど、行列処理に思わぬ不具合をきたすことになる。 drop=FALSEを付けて1行n列の行列を返すように。 ただしtapply()などで使う1列取得の際は付けてはならない。ベクトルとして処理する必要がある。 data.table n_purchase < 10の行を抽出 # dplyrのパイプを使う場合 x.dt %>% filter(n_purchase < 10)…

Continue reading →

Rでデータクリーニング、変数の生成

この記事は連載「Rのデータ前処理」の全 4 ページ中 3 ページ目です。

このあたりから処理がアドホック寄りになるので、data.tableを使う場合でもパイプ(dplyr)を使って一度に実行するのではなく添字記法を使って1ステップずつ進めていくといい(1行ずつ実行する場合は添字記法を使った方がコード量が少なくて済む)。 行の削除(抽出) 行の抽出 行の並べ替え(ソート) 行の並べ替え 変数の加工(データフレーム/data.frame共通) 標準化(scale) 指定した変数を標準化(平均=0、分散=1のスケールに圧縮/拡大)する。 scale()関数を使う。 # データフレーム x.dt$purchase_amount <- scale(x.dt$purchase_amount) # data.table x.dt[,purchase_amount := scale(purchase_amount)] 複数列をまとめてやるにはmutate_at()を使って x.dt %>% mutate_at(vars(n_purchase, purchase_amount), funs(scale)) -> x.dt などとする。 mutate_at()の使い方はこちらを参照 欠損値処理 NAをいずれかの列に含む行全体を削除(いわゆるリストワイズ法)→na.omit()関数を使う # データフレーム x.df <- na.omit(x.df)…

Continue reading →

Rでデータの整形(列のデータ型確認、列の抽出、列名の変更、列の型変換)

この記事は連載「Rのデータ前処理」の全 4 ページ中 2 ページ目です。

ローデータから分析対象とする変数のみ抽出し(個人情報など、保持すべきでない変数を削除するなど)、情報を失わない範囲で分析するためのデータセットを作る。分析プロジェクトにおけるローデータと同じ量の情報を持つ、整形された(扱いやすい)データセットを作るのである。 この後のデータクレンジング以降で、データの加工方法を変更するなどで手戻りが発生することもある。その際ローデータの読み込みまで戻るのは大変なので、ローデータを同じ情報を持つ、整形された状態のデータを作っておくのが重要である。データクレンジングで手戻りが発生しても、ここで整形したデータセットまで戻ればいい。 変数の型 データの型確認 関数str()を使う。これはデータフレーム、data.table同様に使える関数である。 データフレーム str(customer.df) data.table str(customer.dt) customer.dt %>% str 基本的なデータの型の種類 boolean logical: TRUE or FALSE、短縮してT or Fとしても可能 数値 整数はinteger 明示的にintegerとして扱うにはx <- 5LのようにLを付ける 小数を含めるとnumeric bigint相当はlibrary(bit64)を使うとinteger64として指定できる。fread()で読み…

Continue reading →

Rでローデータの読み込み(データフレーム、data.table、webデータの取得)

この記事は連載「Rのデータ前処理」の全 4 ページ中 1 ページ目です。

Rを使ったデータ前処理の方法を解説する。 データフレーム形式だけでなく、大きなデータを扱うのに高速なdata.tableを使ったデータの前処理の方法も解説する。 まず一般的にデータの前処理の手順は以下のようなものである。 ローデータの読み込み データの整形(分析用データセットの生成。データの持つ情報は保持) データの型確認 必要な(分析対象とする)列の抽出 列名の変更 データ変換 データの型変換 日時データの生成 因子データの生成(ordered) データクリーニング(正しく分析できるように必要に応じて情報を一部削る) 行の削除(抽出) 行の並べ替え(ソート) 標準化(scale) 欠損値処理 外れ値処理 結合 変数の追加と削除 変数の追加 コーディング/グルーピング 合成変数の生成 変数の削除 この順を追って、データの前処理の方法を解説する。 データフレームを使ったデータの前処理の方法 Rでデータクリーニング – RjpWiki ※data.tableオブジェクトはデータフレームクラスにも属しているため、多くの場合でデータフレームのように扱うことができるが、data.tableで扱う方が高速である。 data.tableをデータフレームと比べた時に気をつけるべき大きな違いは 日付でPOSIXltは使えない rownamesを使わない ワーキングディレクトリのセット プ…

Continue reading →

Rの細かいTipsまとめ(小さいTipsの寄せ集め)

独立した記事にはならないが、それぞれ便利かつ重要な小さなRのTipsを紹介。 stratified sampling(層化抽出法) ライブラリsamplingを使う strata(data, stratanames=c(‘層化に使うカラム1’, ‘層化に使うカラム2’), size=c(カラム1の抽出率, カラム2の抽出率)) method – ‘srswor’: 非復元ランダムサンプリング(デフォルト) – ‘srswr’: 復元ランダムサンプリング – ‘poisson’: ポアソンサンプリング – ‘systematic’: 系統抽出 Rで文字列をコマンドとして実行する(eval) Rの繰り返し処理などでコマンドの一部のみを書き換えて同様の処理を行いたい、たとえば対象のデータフレームのみ変えて同じ処理を実行したい場合がある。 そういう場合には動的な部分(データフレームオブジェクト名)を変数として含むコマンドの文字列を生成し、その文字列をコマンドとして実行することになる。 言葉にするとややこしいが、他の言語でもあるeval処理である。 コマンドが1行の場合 最も単純なケースである。 基本形 ファイル名に動的部分を含むテキストファイル(activity_type1.txt)を読み込み、名前に動的部分を含むテーブル(t_activit…

Continue reading →