データの加工や分析で使うRの使い方 – ページ 2

Rでローデータの読み込み（データフレーム、data.table、webデータの取得）

Rを使ったデータ前処理の方法を解説する。データフレーム形式だけでなく、大きなデータを扱うのに高速なdata.tableを使ったデータの前処理の方法も解説する。まず一般的にデータの前処理の手順は以下のようなものである。ローデータの読み込みデータの整形（分析用データセットの生成。データの持つ情報は保持）データの型確認必要な（分析対象とする）列の抽出列名の変更データ変換データの型変換日時データの生成因子データの生成（ordered）データクリーニング（正しく分析できるように必要に応じて情報を一部削る）行の削除（抽出）行の並べ替え（ソート）標準化（scale）欠損値処理…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rの細かいTipsまとめ（小さいTipsの寄せ集め）

独立した記事にはならないが、それぞれ便利かつ重要な小さなRのTipsを紹介。チートシート ggplot2 qplot() 基本 qplot(x=Sepal.Width, y=Sepal.Length, data=iris, geom=”point”, color=Species) # 散布図 qplot(x=date, y=unemploy, data=economics, geom=”line”) # 折れ線グラフ qplot(x=feed, data=chickwts, geom=”bar”) # 棒グラフ qplot(x=Sepal.Width, data=iris, binwidth…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rの関数定義でNSEを使う（表現式を引数にとれるようにする）

NSEとは NSEとはNon-standard evaluationの略。関数に対して値を与えるのではなく、表現式（expression）を与えて処理させる方法。言葉にするとわかりにくいので、具体例で。 NSEを使う局面やりたいことたとえばデータフレームcustomer.df内の f_purchaseとdurationという列に対して処理をする関数myfun()を作りたい場合直感的には myfun(customer.df, f_purchase, duration) という引数の与え方をしたい。これがRのもっとも自然なコーディングである。たとえば glm(f_purchase ~ …

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rでクラスター分析〜距離行列の生成からクラスタリングまで

クラスター分析は距離行列の生成（類似度行列ではない！）クラスタリングの実行という流れになる。それぞれのステップで、採用する距離の種類クラスタリングの方法がチューニング変数となる。この順に手順を見ていく。行数、列数の多いビッグデータ向きのデータ形式であるMatrixパッケージに対応した距離行列についても説明する。距離行列を生成する類似度行列ではなく距離行列を作る。similarityではなくdistanceを作る。直感的にはデータから距離の指標（どれだけ離れているか）ではなく類似度（どれだけ近いか）の指標を抽出し、そこからクラスタリングしたいケースが多いのだが、あくまで類…

続きを読む →

データの加工や分析で使うRの使い方/データ分析

Rで決定木分析（rpartによるCARTとrangerによるランダムフォレスト）

準備決定木（decision tree）分析をする際、まず目的変数の種類とアルゴリズムを決定する。アルゴリズム CART CHAID ID3 / C4.5 / C5.0 目的変数の型目的変数の型によって扱いが変わる質的変数（2値変数）：分類木→目的変数が0/1, T/Fの場合はas.factor()でfactor型にデータ変換しておく量的変数：回帰木 survivalオブジェクト（生起を表す2カラム） CARTはすべて対応、C4.5/C5.0は質的変数のみここではCARTアルゴリズムでツリーモデルを生成するrpartと、ランダムフォレストrangerを中心に説明する。データセッ…

続きを読む →