R | Marketechlabo

Rの細かいTipsまとめ（小さいTipsの寄せ集め）
Jan 10, 2018 / Mar 3, 2026 · 7 分で読了 · R Tips ggplot2 ·
共有する:
独立した記事にはならないが、それぞれ便利かつ重要な小さなRのTipsを紹介。チートシート ggplot2 qplot() 基本 qplot(x=Sepal.Width, y=Sepal.Length, data=iris, geom="point", color=Species) # 散布図 qplot(x=date, y=unemploy, data=economics, geom="line") # 折れ線グラフ qplot(x=feed, data=chickwts, geom="bar") # 棒グラフ qplot(x=Sepal.Width, data=iris, binwidth=0.3, …

続きを読む
Rでローデータの読み込み（データフレーム、data.table、webデータの取得）
Jan 18, 2018 / Mar 3, 2026 · 2 分で読了 · R データ前処理 data.table ·
共有する:
Rを使ったデータ前処理の方法を解説する。データフレーム形式だけでなく、大きなデータを扱うのに高速なdata.tableを使ったデータの前処理の方法も解説する。まず一般的にデータの前処理の手順は以下のようなものである。ローデータの読み込みデータの整形（分析用データセットの生成。データの持つ情報は保持）データの型確認必要な（分析対象とする）列の抽出列名の変更データ変換データの型変換日時データの生成因子データの生成（ordered）データクリーニング（正しく分析できるように必要に応じて情報を一部削る）行の削除（抽出）行の並べ替え（ソート）標準化（scale）欠損値処理外れ値処理結合変数の追加と削除変 …

続きを読む
Rでデータの整形（列のデータ型確認、列の抽出、列名の変更、列の型変換）
Jan 19, 2018 / Mar 3, 2026 · 3 分で読了 · R データ型データ前処理 ·
共有する:
ローデータから分析対象とする変数のみ抽出し（個人情報など、保持すべきでない変数を削除するなど）、情報を失わない範囲で分析するためのデータセットを作る。分析プロジェクトにおけるローデータと同じ量の情報を持つ、整形された（扱いやすい）データセットを作るのである。この後のデータクレンジング以降で、データの加工方法を変更するなどで手戻りが発生することもある。その際ローデータの読み込みまで戻るのは大変なので、ローデータを同じ情報を持つ、整形された状態のデータを作っておくのが重要である。データクレンジングで手戻りが発生しても、ここで整形したデータセットまで戻ればいい。 dtplyrについて本記事ではdata.table（例：fread()で …

続きを読む
Rでデータクリーニング、変数の生成
Jan 22, 2018 / Mar 3, 2026 · 4 分で読了 · R データクリーニング data.table ·
共有する:
このあたりから処理がアドホック寄りになるので、data.tableを使う場合でもパイプ（dplyr）を使って一度に実行するのではなく添字記法を使って1ステップずつ進めていくといい（1行ずつ実行する場合は添字記法を使った方がコード量が少なくて済む）。行の削除（抽出）行の抽出行の並べ替え（ソート）行の並べ替え変数の加工（データフレーム／data.frame共通）標準化（scale）指定した変数を標準化（平均＝０、分散＝1のスケールに圧縮／拡大）する。 scale()関数を使う。
データフレーム x.df$purchase_amount <- scale(x.df$purchase_amount) # …

続きを読む
Rでデータセットの抽出（行の抽出、並べ替え、サンプリング、分割）
Jan 23, 2018 / Mar 3, 2026 · 2 分で読了 · R data.table データ処理 ·
共有する:
前のページではデータフレーム、data.tableの列（変数）の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。行の削除（抽出）データフレーム ad_log <- ad_log[ad_log$imp>1000 & ad_log$click<10, , drop=F] ad_log <- with(ad_log, ad_log[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること！行列の添え字にdrop=FALSEを付けないと1 …

続きを読む
RとExcel（ファイルの読み書き、データフレームをExcelで編集）
May 17, 2018 / Mar 3, 2026 · 1 分で読了 · R Excel openxlsx ·
共有する:
RでExcelファイル（.xlsx）を読み書きするライブラリはいくつかあるが、openxlsxが多機能でかつ使いやすい。Javaも不要なのでインストールや動作も軽い。古いファイル（.xls）には非対応だが、現行のファイル（.xlsx）のみ対応でよければこれがおすすめ。 Excelファイルの読み込み read.xlsx()関数を使う。たとえばファイルC:/Users/fukuyama/Documents/master.xlsxのシート「ユーザ」を読み込む場合 m_user.df <- read.xlsx('C:/Users/fukuyama/Documents/master.xlsx', na.strings = '', sheet …

続きを読む
Rで時系列分析の簡単なまとめ
Aug 16, 2018 / Mar 3, 2026 · 3 分で読了 · R 時系列分析データサイエンス ·
共有する:
時系列のアプローチ単系列ざっと見る定常性の確認 ARIMA/SARIMAモデルをあてはめる複数系列の関係→VAR（ベクトル自己回帰）モデルその他の変数がある（時系列＋回帰）→状態空間モデル（単なるラグ変数回帰→目的変数自体の時系列性が反映されない）ライブラリ{forecast}を使う以下、データはy.tsとする時系列のデータ形式時系列データにはいくつかの形式がある。 ts: Rの基本の時系列オブジェクト。ほとんどの時系列ライブラリはこの形式の時系列データを扱う xts: データフレームとtsの間に位置づけられる、時系列データを便利に扱えるようにした形式 zoo: データフレームとxtsの間の形式われわれが一般的 …

続きを読む
Rのdata.tableパッケージの使える関数一覧
Jan 28, 2019 / Mar 3, 2026 · 2 分で読了 · R data.table データ処理 ·
共有する:
Rのdata.tableはデータフレームを高速に扱えるように改良した形式だが、この機能を提供するdata.tableパッケージには添え字を使ったdata.tableの処理機能だけでなく、さまざまな関数が実装されている。中にはdata.table以外の形式にも使える関数もあり、 dt[,col1:=関数()] の形式で使えるdata.table用の関数にも一般的に知られていない便利なものが数多くある。特に高速化を意識しているものが多く、知っていると処理時間を短縮できる。 data.tableはdplyrとセットで使われることも多いが、dplyr自体はdata.tableの高速仕様にのっとったものではない（tibble形式）ため、 …

続きを読む
Google ColaboratoryでRを使う
Jun 10, 2019 / Mar 2, 2026 · 2 分で読了 · R Colab GPU ·
共有する:
無料でPythonの実行環境を使わせてもらえるGoogle Colaboratory（以下、Colab）。現在の無料枠でも、T4やL4などの高性能なGPU、約12GB〜16GBのメモリ、そして100GB前後のディスクスペースが利用できる強力な環境であり、手元のPCよりハイスペックな人も多いだろう。データサイエンスの分野ではPythonが主流である一方で、Rユーザにとっては「PythonだけでなくRでも使えたらいいのに」と思うところである。実は、Colabのインスタンスには標準でRの環境が用意されており、用途に応じて複数のアプローチでRを利用することができる。この記事では、最新環境に合わせてColabでRを使い倒す方法と、その高速化 …

続きを読む
Rにおける代表的な一般化線形モデル（GLM）の実装ライブラリまとめ
Jan 3, 2022 · 2 分で読了 · R GLM 統計学 ·
共有する:
一般化線形モデル（GLM）は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル（GLM）自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。一般化線形モデルのおさらい一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_i x_i) + \epsilon …

続きを読む

データフレーム x.df$purchase_amount <- scale(x.df$purchase_amount) # …