Marketechlabo
open-menu closeme
ホーム
カテゴリ
タグ
  • Rでローデータの読み込み(データフレーム、data.table、webデータの取得)

    calendar Jan 18, 2018 / Mar 3, 2026 · 2 分で読了 · Rデータ前処理data.table  ·
    共有する: twitter facebook linkedin copy
    Rでローデータの読み込み(データフレーム、data.table、webデータの取得)

    Rを使ったデータ前処理の方法を解説する。 データフレーム形式だけでなく、大きなデータを扱うのに高速なdata.tableを使ったデータの前処理の方法も解説する。 まず一般的にデータの前処理の手順は以下のようなものである。 ローデータの読み込み データの整形(分析用データセットの生成。データの持つ情報は保持) データの型確認 必要な(分析対象とする)列の抽出 列名の変更 データ変換 データの型変換 日時データの生成 因子データの生成(ordered) データクリーニング(正しく分析できるように必要に応じて情報を一部削る) 行の削除(抽出) 行の並べ替え(ソート) 標準化(scale) 欠損値処理 外れ値処理 結合 変数の追加と削除 変 …


    続きを読む
  • Rでデータの整形(列のデータ型確認、列の抽出、列名の変更、列の型変換)

    calendar Jan 19, 2018 / Mar 3, 2026 · 3 分で読了 · Rデータ型データ前処理  ·
    共有する: twitter facebook linkedin copy
    Rでデータの整形(列のデータ型確認、列の抽出、列名の変更、列の型変換)

    ローデータから分析対象とする変数のみ抽出し(個人情報など、保持すべきでない変数を削除するなど)、情報を失わない範囲で分析するためのデータセットを作る。分析プロジェクトにおけるローデータと同じ量の情報を持つ、整形された(扱いやすい)データセットを作るのである。 この後のデータクレンジング以降で、データの加工方法を変更するなどで手戻りが発生することもある。その際ローデータの読み込みまで戻るのは大変なので、ローデータを同じ情報を持つ、整形された状態のデータを作っておくのが重要である。データクレンジングで手戻りが発生しても、ここで整形したデータセットまで戻ればいい。 dtplyrについて 本記事ではdata.table(例:fread()で …


    続きを読む
  • 機械学習や分析時のカテゴリ変数の高度なあれこれ

    calendar Feb 12, 2026 · 4 分で読了 · 機械学習カテゴリ変数データ前処理  ·
    共有する: twitter facebook linkedin copy
    機械学習や分析時のカテゴリ変数の高度なあれこれ

    データの前処理において重要となるカテゴリ変数の扱い。高度なTipsを紹介する。 水準数を減らす 機械学習タスクの場合、水準数を削減することも重要。特にダミーコーディング(One-Hot Coding)では水準数がほぼカラム数になり、計算負荷の原因になるケースがある。 たとえば出現頻度がレアな水準はまとめて「その他」にするなどの方法があるが、目的変数に対する影響の大きい重要な水準は削除してはならない。精度を落とさぬよう、効率的に水準数を減らすことが重要になる。 水準の選び方としては、目的変数に対する情報量に着目するといい。関心対象のカテゴリ変数だけをダミーコーディングで説明変数にしたツリー系のモデルを作り、重要度上位N個の変数(水準) …


    続きを読む

最近の投稿

  • 筆者について

カテゴリ

サーバ・インフラ 12 R 10 ウェブ解析 9 統計・分析 8 ウェブ計測 8 機械学習 5 広告運用 1 AI 1 システム設計 1

タグ

R 13 GA4 7 機械学習 7 統計学 7 BigQuery 6 データサイエンス 5 GTM 5 アクセス解析 5 data.table 4 GCP 4 データ前処理 3 google-analytics 3 計測 3 ABテスト 2 BQML 2 Cookie 2 データ処理 2 javascript 2 privacy 2 静的サイト 2 テキスト処理 2 URL 2 権限管理 1 管理 1 分析手法 1 認証 1 自動最適化 1 bash 1 ビジネス 1 カテゴリ変数 1
全てのタグ
ABテスト2 権限管理1 管理1 分析手法1 認証1 自動最適化1 bash1 BigQuery6 BQML2 ビジネス1 カテゴリ変数1 クラスター分析1 Colab1 コンテンツ分析1 Cookie2 コスト最適化1 データクリーニング1 データレイヤー1 data-pipeline1 データ前処理3 データ処理2 データサイエンス5 data.table4 データ型1 データ可視化1 データベース1 決定木1 記述統計1 Digdag1 環境構築1 エラーハンドリング1 Excel1 エクスポート1 Firebase1 Firebase Hosting1 GA47 GCP4 ggplot21 GLM1 google-analytics3 Google API1 GPU1 GTM5 仮説検定1 IAM1 推測統計1 IPA1 ITP1 javascript2 Linux1 機械学習7 計測3 計測設計1 計測検証1 メディア1 非機能要件1 正規分布1 ワンライナー1 OpenVPN1 openxlsx1 Perl1 PostgreSQL1 privacy2 確率分布1 programmatic-ad1 プロンプト1 Python1 R13 回帰分析1 リモートデスクトップ1 要件定義1 スキーマ1 sed1 SEO1 シェルスクリプト1 SPA1 Spot VM1 静的サイト2 統計学7 タグマネジメント1 テキスト処理2 時系列分析1 Tips1 トラッキング1 URL2 VPN1 アクセス解析5 ワークフロー1 XGBoost1
[A~Z][0~9]
Marketechlabo

Copyright 2026 MARKETECHLABO. All Rights Reserved

to-top