統計・分析 on Marketechlabo

BIツール

Thu, 05 Mar 2026 00:00:00 +0900

BIツールの基本構造

はじめに

昨今のダッシュボードブーム・BIブームの中で、さまざまなダッシュボードが作られている。項目やフィルタを選択して深掘りできる分析寄りのダッシュボードもあれば、エグゼクティブが数字をさっと確認するだけのシンプルなダッシュボードもある。それらをすべて「ダッシュボード」と呼ぶかどうかの議論はさておき、ダッシュボードを構築するツール（BIツール）もまた数多く存在している。

ただし、BIツールは数あれど基本的な構成はどれも同じである。この基本構造を押さえておけば、新しいBIツールを扱うことになっても学習にスムーズに入っていける。

ダッシュボード
├── ウィジェット
│ ├── ディメンション × 指標
│ │ ├── ディメンション（地域 / カテゴリ / 年月 …）
│ │ └── 指標（売上 / 件数 / 単価 …）＋ 集計方法（合計 / 平均 / 最大 / カウント …）
│ ├── チャートタイプ（棒グラフ / 折れ線 / 円グラフ / テーブル / 数値カード / 地図 …）
│ ├── 変数（関数で作成）
│ │ ├── グルーピング → ディメンションとして使う
│ │ ├── 計算（四則演算 / 比率 …）→ 指標として使う ＋ 集計方法
│ │ └── 文字列処理 → ディメンションとして使う
│ └── ウィジェット単位のフィルタ
├── グローバルフィルタ / パラメータ
│ ├── グローバルフィルタ（ダッシュボード全体の絞り込み）
│ └── パラメータ（表示内容・計算ロジックの切り替え）
└── データソース（スプレッドシート / データベース / SaaS連携 …）

1. ダッシュボードとウィジェット

BIツールの画面構成は、大きく「ダッシュボード」と「ウィジェット」の2層で成り立っている。

機械学習や分析時のカテゴリ変数の高度なあれこれ

Thu, 12 Feb 2026 00:00:00 +0900

データの前処理において重要となるカテゴリ変数の扱い。高度なTipsを紹介する。

水準数を減らす

機械学習タスクの場合、水準数を削減することも重要。特にダミーコーディング（One-Hot Coding）では水準数がほぼカラム数になり、計算負荷の原因になるケースがある。たとえば出現頻度がレアな水準はまとめて「その他」にするなどの方法があるが、目的変数に対する影響の大きい重要な水準は削除してはならない。精度を落とさぬよう、効率的に水準数を減らすことが重要になる。水準の選び方としては、目的変数に対する情報量に着目するといい。関心対象のカテゴリ変数だけをダミーコーディングで説明変数にしたツリー系のモデルを作り、重要度上位N個の変数（水準）を採用する。下位の水準はまとめる。同様の考え方で全水準のジニ係数を計算し、上位N個の水準を採用する方法もある。つまりCARTの考え方である。これならモデル構築が不要で計算が簡単である。データはdata.tabletrain.dtで目的変数がy、関心対象のカテゴリ変数をx1とすると、x1の各水準のジニ係数は

2*sum(train.dt[, .(importance=abs(sum(y) - .N*train.dt[, (sum(y)/.N)])), by=x1][,importance])/train.dt[,.N]

つまり上位100水準は

remain_x1 <- train.dt[, .(importance=abs(sum(y) - .N*train.dt[, (sum(y)/.N)])), by=x1][order(-importance), as.character(x1)][1:100]

重要でない水準は(other)にまとめる。不要になった水準を削除するのを忘れずに。

train.dt[!is.na(x1) & !as.character(x1) %in% remain_x1, x1 := '(other)']
train.dt[,x1:=droplevels(x1)]

バイナリコーディングは便利

ダミーコーディング（One-Hot Coding）は前述のとおり列の数が多くなるが、情報量はそのままに列の数を減らせるのがバイナリコーディングである。バイナリコーディングでは$2^{列数}$個の水準を表現できる。機械学習、特にツリー系のアルゴリズムの場合には有効。ただし使う場合はツリーの深さを深めに設定しておかないと一つのツリーでカテゴリ変数を説明しきれなくなる。また変数間の従属が強烈になるので、ロジスティック回帰などの説明変数間の独立を想定したモデルだと不向き。以下の関数bin_encode()は1列のfactor型変数を複数列の0/1整数にする。

vecは対象のカテゴリ変数の列（ベクトル）
戻り値がバイナリコーディング済み（0/1の整数）の行列。
labelはバイナリコーディングされた変数の列名のにつけるプレフィクス。

bin_encode <- function(vec, label){
 mat <- matrix(
 as.integer(intToBits(as.integer(vec))),
 ncol = 32,
 nrow = length(vec),
 byrow = TRUE
 )[, 1:ceiling(log(length(unique(vec)) + 1)/log(2))]
 if (!is.matrix(mat)) mat <- as.matrix(mat)
 colnames(mat) <- paste0(label, seq(ncol(mat)))
 return(mat)
}

2列のカテゴリ変数がほぼ一致するかどうかを判定

説明変数の中でほぼ一致するカテゴリ変数が存在することがある。たとえば行動履歴データで、初回訪問地域とコンバージョン時の地域などである。このようなケースでは一方のカテゴリ変数を説明変数から除外するのが望ましい。除外するための基準として数値型変数であれば一般的な相関係数などの距離・類似度の指標を使えるが、カテゴリ変数の場合は使えない。 0/1変数の場合はJaccard係数などを使うことができるので、カテゴリ変数をダミーコーディングした変数つまりダミー変数のJaccard係数を計算し、それが1に近いもの（ほぼ位置する水準）が全水準の中でどれだけ存在するかに着目する。

Jaccard係数を計算
それが閾値を超える水準の数をカウント
それが全水準に対してどの程度の比率かを見る

# Jaccard係数を計算する関数。水準数が多い場合を想定してsparse matrix(dgCMatrix)を使う。
require(Matrix)
jcdSparse <- function(X){
 X <- as(X, "dgCMatrix")
 X@x <- rep(1, length(X@x)) # 非ゼロ要素はすべて1に置換
 vec_sum_col <- colSums(X)
 AB <- crossprod(X)
 sim <- AB / (vec_sum_col - t(AB - vec_sum_col)) # まとめて
 sim <- as(sim, "dgCMatrix")
 return(sim)
}

# Jaccard係数が閾値以上の水準数の全水準数に対する比率を計算する関数。
factors_almost_equal <- function(data, x, y, threshold=0.95) {
 x <- deparse(substitute(x))
 y <- deparse(substitute(y))
 if (is.factor(data[[x]]) == FALSE) {
 #stop(paste(x, 'is not a factor!'))
 data[[x]] <- as.factor(as.character(data[[x]]))
 }
 if (is.factor(data[[y]]) == FALSE) {
 #stop(paste(y, 'is not a factor!'))
 data[[y]] <- as.factor(as.character(data[[y]]))
 }
 x_mat <- fac2sparse(data[[x]], drop=F)
 y_mat <- fac2sparse(data[[y]], drop=F)
 sim <- jcdSparse(t(rbind(x_mat, y_mat)))
 sim <- tril(sim, -1) + triu(sim, 1)
 ratio_gt_threshold <- sum(apply(sim, 2, max) > threshold) / nrow(sim)
 #print(paste('Similarity between', x, 'and', y, ':', ratio_gt_threshold))
 return(ratio_gt_threshold)
}

この戻り値が1に近いほどカテゴリ変数全体としての類似度が高いということになる。

実際の事象におけるデータの分布と確率分布、一部のデータから全体を推測する考え方

Sun, 22 Jan 2017 00:00:00 +0900

確率分布

これまで「分布」という言葉が何度も出てきたが、この「分布」とは確率分布のことを指している。ここでは具体的なさまざまな確率分布を紹介する。まず確率分布の定義であるが、確率分布とは、確率変数の各々の値に対する、その生起しやすさをプロットしたものである。そして確率変数とは、確率的に取る値が変わる変数を指す。発生する事象が確率的に変化するものを想像しよう。その生起しやすさを表すのが確率分布である。厳密な議論は省略してどのような事象があてはまるか、分布に対するイメージがわかることを目的とする。

離散型確率分布

ベルヌーイ分布

1回の試行で表が出るか裏が出るか
- 一か八か
成功確率 $p$ の事象が1回の試行で成功するかどうか
期待値＝$p$、分散＝$p(1-p)$

期待値は確率分布の中心的位置を表す。分散は平均からのバラつきの程度を数量的に表す。

二項分布

（例）平均して打率3割の選手が年間500打席でヒットを打つ回数の分布

$n$ 回やって何回成功するか
成功確率 $p$ の事象が $n$ 回の試行で成功する回数
この分布を$Bin(n, p)$と表記
期待値＝$np$、分散＝$np(1-p)$

ポアソン分布

（例）あるサッカーリーグの1試合における得点の分布

レアな事象が発生する回数（カウントデータ）
（例）クリック数、1日に受け取るメールの件数
二項分布との関係
- 二項分布で $n$ →大、$p$ →小、$np$＝一定（$\lambda$）のときに該当
- $n$ が変化する事象には不適（インプレッション数が大きく変動する場合だとNG）
この分布を$Po(\lambda)$と表記
期待値＝分散＝$\lambda$

負の二項分布

（例）あるwebサイトのページごとの1日のPV数の分布

ポアソン分布と似ているが分散が大きい
- 0が多い
- 大きな外れ値がある
ゼロが多い、分散が大きいカウントデータに適用
成功確率 $p$ の事象が $k$ 回成功するまでに何回失敗するか

連続型確率分布

正規分布

分布の王様。理論上いろいろ便利
期待値 $\mu$、分散 $\sigma^2$ の正規分布を$N(\mu, \sigma^2)$と表記

指数分布

ランダムな事象の発生間隔（待ち時間）
（例）メールを受信する間隔

機械学習の種類と特徴、ビジネスにおけるデータ分析の意味

Mon, 23 Jan 2017 00:00:00 +0900

機械学習

「明示的にプログラムしなくても学習する能力をコンピュータに与えること」

つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。具体的には適切な分類、予測、レコメンド、異常検知を行う。また複数の選択肢から適切な選択を行わせるものもある。

学習の仕方による分類

教師あり学習

材料のデータと答えのデータを与えることで、正解率を高めていくものである。さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類／予測するケース。ここでは結果が教師データになる。

たとえばEメールの本文テキストがあって、それがスパムかどうか判断する場合、スパムかどうかの判断が教師データということになる。他にもインターネット広告のクリエイティブの種類、配信日時、配信先媒体などのデータからクリックするかしないかを予測する場合、クリックしたかどうかのデータが教師データになる。

以下の目的で使うことが多い。

分類（スパムメール／スパムでない）
予測（CVR）
異常検知（センサーデータからシステムの異常を検知して通知する）

代表的なアルゴリズムは

回帰
- 線形／非線形
- 正則化回帰
SVM
判別分析
k近傍法
ニューラルネットワーク
決定木（decision tree）

集団学習

教師あり学習の中でも、上記の個別の手法を1回単独で用いた結果というのは精度が低い場合がある。しかし1個1個の結果の精度が低いものでも、それらを大量に組み合わせれば精度は高くなる。

そこで同じデータからランダムサンプリングで抽出したデータによる個別手法の分析を何度も行って、その個別の結果を合算して最後に一つのアウトプットを出すという手法が集団学習である。

bagging(Bootstrap aggregating)
boosting
random forest

教師無し学習

正解のデータはない。特定のアウトプット（「CVする」「しない」など）を導くのではなく、似たもの同士をまとめるなどデータを眺めるのに使う。

またレコメンドも基本的には教師なし学習としてレコメンドを行うもので、そこからの反応の有無を教師データとして与える場合もある。

クラスター分析
主成分分析
SOM
協調フィルタリング

強化学習

「うまいことやってくれる」正解自体はないが、機械が選択した結果に基づいた報酬があり、その報酬に基づいて学習していくタイプのものである。

バンディットアルゴリズム
Q学習
DQN（Deep Q-Network）

ディープラーニング（深層学習）

ニューラルネットワークを多層化した技術である。学習の仕方（教師あり、教師なし、強化学習）とは別の軸にある技術で、これらの各学習方式と組み合わせて使われる。

画像認識、音声認識、自然言語処理など、従来の機械学習では難しかった複雑なパターン認識を可能にした。

CNN（畳み込みニューラルネットワーク）
RNN（再帰型ニューラルネットワーク）
トランスフォーマー

出力の形式による分類

分類
クラスタリング
回帰
次元縮小

分類の中に教師あり学習もあれば強化学習もある

推測統計 or 機械学習

推測統計と機械学習、全く異なるものではないが、そもそも

統計の手法はもともと意味を理解するためのものであり理解しやすさが重要
機械学習は予測や分類などを正確にできればいい。意味より、モデルを使った予測そのものの精度や頑強性が重要

という文化の違いがある。

分析に使うデータの量においても姿勢の違いがある。ビッグデータ？スモールデータ？

推測統計はスモールデータ（サンプリング）
機械学習はできるだけビッグデータ（クラスタリングなど、目的上サンプリングできないものもある）

身近な分野での違いは

歴史のあるマーケティングリサーチは推測統計の考え方で
アドテクは機械学習（オーディエンスの分類／コンバージョンの予測）

データ分析とビジネス

ビジネスにおけるデータ分析の位置づけを。

データを活用したビジネスサイクルの理想像

ビジネスのイシューと結びつかなければデータ分析をする意味がないが、データからイシューを考える（data-oriented）アプローチと、イシューから考えてデータにたどり着く（issue-oriented）アプローチがある。

Javascriptで正規分布の実装まとめ（乱数、累積分布関数など）

Wed, 10 Apr 2019 00:00:00 +0900

Javascriptで正規分布の乱数発生（rnorm）、確率密度関数（dnorm）、累積分布関数（pnorm）、累積分布の逆関数（qnorm）を実装する。すべて標準正規分布を想定。 Javascriptに限らず使えるアルゴリズムだが、日本語でまとまっている情報があまりないのと、ブラウザ上でA/Bテストなど有意性をみる検定などできたら面白いということでJSでやってみる。

なお、実務で手軽に使いたい場合は stdlib-js や jStat といったライブラリも検討するとよい。本記事はアルゴリズムの中身を理解する目的で、ライブラリを使わずスクラッチで実装する。

正規乱数の生成（rnorm）

1行でBox-Muller法で。

Box-Muller法とは？

$$X_1, X_2 \stackrel{i.i.d.}{\sim} {\rm Unif} (0, 1) $$ とするとき $$Y_1 = \sqrt{-2 \log{X_1}} \cos{2 \pi X_2} $$ $$Y_2 = \sqrt{-2 \log{X_1}} \sin{2 \pi X_2} $$ で生成される $$Y_1, Y_2 \stackrel{i.i.d.}{\sim} {\rm N} (0, 1) $$ というもの。今回は1個の正規乱数でいいので、$Y_1$か$Y_2$の一方を採用すればいい。

Javascriptで実装

function rnorm(){
 return Math.sqrt(-2 * Math.log(1 - Math.random())) * Math.cos(2 * Math.PI * Math.random());
}

後ろの係数はMath.cos()でもMath.sin()でもどちらでもいい。JavascriptのMath.random()は戻り値の区間が[0,1)なので、$log {0}$で発散しないように1-Math.random()としている。

確率密度関数（dnorm）

$$Z(x) = \frac{ e^{ -\frac{x^2}{2}} }{\sqrt{2 \pi}} $$ そのまんま

function dnorm(x){
 return Math.exp(-x * x / 2) / Math.sqrt(2 * Math.PI);
}

累積分布関数（pnorm）

Abramowitz and Stegun, Handbook of Mathematical Functions (1964)から。 https://personal.math.ubc.ca/~cbm/aands/ 26.2が正規分布の累積分布関数の項目。実際はC. Hastings, Jr., Approximations for Digital Computers (1955)に基づいているとのこと。 26.2.17の $$P(x) = 1 - Z(x) \left( b_1 t + b_2 t^2 + b_3 t^3 + b_4 t^4 + b_5 t^5 \right) + \epsilon(x) $$ $$t = \frac{1}{1+px}, \quad Z(x) = \frac{ e^{ -\frac{x^2}{2}} }{\sqrt{2 \pi}} $$ $$|\epsilon(x)| \lt 7.5 \times 10^{-8} $$ $$p = .23164 19 $$ $$b_1 = .31938 1530 $$ $$b_2 = -.35656 3782 $$ $$b_3 = 1.78147 7937 $$ $$b_4 = -1.82125 5978 $$ $$b_5 = 1.33027 4429 $$ をそのまま実装

回帰分析とその派生手法、数理モデリング、発展的な統計解析手法

Tue, 31 Jan 2017 00:00:00 +0900

いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。

数理モデリング

数理モデリングの考え方

因果関係を定量化「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。

X＝説明変数（独立変数）
Y＝被説明変数（従属変数、目的変数）

いわゆる「回帰分析」である。

目的

因果関係とインパクトの大きさの特定
予測

モデリングの手続き

モデル式の選択（単回帰、ロジット、…）従属変数の特徴（分布の形状、ばらつき方）によって適切なモデルを選択する
パラメータの推定さまざまな推定法がある（最尤法、最小二乗法）
そのモデルでいいか検証
- あてはまりのよさ（fit）
  - 決定係数
  - AIC
- 残差の評価（独立性、正規性、等分散性、線形性）
  - 予測値 vs 残差
  - 正規QQプロット
- 外れ値の評価
  - てこ比
  - Cookの距離
- バリデーション（検証用データで予測精度を見る）
- その他（Profit / Lossなど）
モデルを選択ダメな場合、変数の出し入れや変数変換を試す

よく出てくる問題

変数が多すぎる→どう縮約するか
過学習⇔凡化性能
sparse data（ゼロが多い隙間だらけのデータ）

線形回帰モデル

最もシンプルな回帰分析 $$y = a + b_1 x_1 + b_2 x_2 + \cdots + u$$

$a$：説明変数によらない確定的な影響度
$b$：説明変数の影響力の大きさ →これらが回帰係数
$u$：誤差項

推定法

最小二乗法

見るべきポイント

因果の意味
回帰係数（パラメータ）
決定係数：回帰式の説明力の大きさ
そもそもモデルが妥当かどうか
残差（ばらつき、偏り）
多重共線性（説明変数間の相関）の有無

一般化線形モデル（GLM＝Generalized Linear Model）

線形回帰の一般形。線形回帰モデルは従属変数が正規分布という前提があるが、さまざまな分布の従属変数に拡張した回帰の手法になる。 $$y = a + b_1 x_1 + b_2 x_2 + \cdots + u$$

比較のための統計解析手法～さまざまな仮説検定から分散分析、多重比較

Mon, 30 Jan 2017 00:00:00 +0900

分析手法

目的とデータの性質に基づいて手法を選択

目的
- 違いがあるか知りたい＝A/Bテスト
- （因果）関係を知りたい＝何が効くかを知りたい
- 予測
- 分類
  - 従属変数があって、それを分類するもの（クラス分類）
  - 独立変数のみで、似ているものをまとめるもの（クラスタリング）
- レコメンド
データの性質（手法の前提条件）
- 離散か連続か
- 正規性
- 等分散性
- 従属変数の分布の形状

http://readingmonkey.blog45.fc2.com/blog-entry-262.html

仮説検定

仮説検定とは？

基本的に比較するための方法「A/Bテスト」→理論的に正確な手順がある。 ※比較する対象は2つ。3つ以上だと別の手法を用いることになる

仮説検定の考え方

「ある仮説が正しいと仮定したとき、この事象が発生するのは発生するのはあり得ないくらいレア。だからその仮説は間違っている」

（例）「バナーAとバナーBのクリック率が同じと仮定したとき…」＝帰無仮説
「あり得ない」＝5%。この値をp値という
「間違っている」と判断すること＝棄却する

帰無仮説の意味

仮説は間違っていることを前提に立てられる
「ある仮説が正しいと仮定したとき、この事象より極端な事象が発生するのは20％程度。レア度＝20％ということで、そこまでレアではない」このような場合には帰無仮説は棄却されない。だからといってその仮説は正しいのか？
厳密にはさまざまな帰無仮説が考えられるが、ほとんど同一性の検定。つまり「AとBが同じ」であることが帰無仮説として扱われる

対立仮説と片側検定／両側検定

帰無仮説：「バナーAとバナーBのクリック率が同じ」では対立仮説は？

「バナーAのCTR＞バナーBのCTR」
「バナーAのCTR＜バナーBのCTR」
「バナーAのCTR≠バナーBのCTR」

実はいずれにも設定できる。それによって棄却域が変わってくる。

2種類の過誤

第1種の過誤＝帰無仮説が実際には真であるのに棄却してしまう過誤（正常なメールをスパムと判定）
第2種の過誤＝帰無仮説が実際には偽であるのに採用してしまう過誤（スパムメールを正常と判定）

手法あれこれ http://d.hatena.ne.jp/hoxo_m/20150217/p1 http://www.shiga-med.ac.jp/~koyama/stat/s-index.html

具体的な手法

前提条件

対応のある標本か、対応のない標本か（対応の有無）
標本の分布が正規分布に従うかどうか（正規性）
- Shapiro-Wilk test / Rではshapiro.test(){stats}
- Anderson-Darling normality test / Rではad.test(){nortest}など
各標本の分散が同一かどうか（等分散性）
- 正規分布であればF-test / Rではvar.test(){stats}

1標本で母集団の分布に対する検定

手法名	特徴	Rの関数
Student’s t-test for one sample	母分散が未知の母平均に対する検定。母集団の正規性を仮定するが、サンプルサイズが十分大きい場合は中心極限定理により多少の非正規性にはロバスト。標本分散を使うのでt検定	`t.test(ベクトル, mu=母平均)`{stats}
One sample Kolmogorov-Smirnov test	ノンパラメトリック。標本が特定の分布に従うかどうかの検定。	`ks.test(ベクトル, 'p分布名', 分布のパラメータ...)`{stats}

対応のある2標本の比較

手法名	正確な帰無仮説	前提条件	Rの関数
Student’s t-test for paired samples	2群が同じ分布に従う（平均値が等しい）	正規性：要等分散性：要	`t.test(ベクトルA, ベクトルB, paired=T)`{stats}
Wilcoxon’s signed-rank test	2群の代表値に差がない	正規性：不要等分散性：不要	`wilcox.test(ベクトルA, ベクトルB, paired=T)`{stats}

対応のない2標本の比較

手法名	正確な帰無仮説	前提条件	Rの関数
Student’s t-test	2群が同じ分布に従う（平均値が等しい）	正規性：要等分散性：要	`t.test(ベクトルA, ベクトルB, paired=F, var.equal = T)`{stats}
Welch’s t-test	2群の平均値の差がない	正規性：要等分散性：不要	`t.test(ベクトルA, ベクトルB, paired=F, var.equal = F)`{stats}
Mann-Whitney’s U-test Wilcoxon’s rank-sum test	2群が同じ分布に従う	正規性：不要分布形状がほぼ同じであることが望ましい（その場合、中央値の差の検定として解釈可能）	`wilcox.test(ベクトルA, ベクトルB, paired=F)`{stats}
Brunner-Munzel test	2群から一つずつ値を取り出したとき、どちらが大きい確率も等しい	正規性：不要等分散性：不要	`brunner.munzel.test(ベクトルA, ベクトルB)`{lawstat}

※Brunner-Munzel testは小標本ではpermuted Brunner-Munzel testがいい

記述統計～統計的にデータを見る視点

Sat, 21 Jan 2017 00:00:00 +0900

記述統計

統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。

記述統計とは

記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。全てのデータを見るのでデータマイニング的なアプローチ。仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。

データの種類

データは特徴によって分類される。種類によってデータ加工方法から分析手法も変わってくる。どんな観点で分類するのか、分類のポイントを紹介していく。

尺度

尺度とは、ざっくり言うと数字のなす意味、その数字が対象の特徴をどのように説明するかによる分類。こう言うと難しいので、実際の内容を具体的に見ていこう。

定性的データ（カテゴリカルデータ）
- 名義尺度：数字は単なる名前・ラベルであって、その大小に意味はない。（例）性別／1＝男性、2＝女性
- 順序尺度：大小比較できる。ただし差に意味はない。（例）満足度／1＝不満、2＝どちらでもない、3＝満足
定量的データ
- 間隔尺度：差に意味がある。比に意味はない。つまり割り算する意味がない（例）温度（℃）「30℃は15℃の2倍」とは言わない、日付
- 比例尺度、比尺度：比率にも意味がある。0が基準となるもの。（例）身長、訪問客数

下の尺度は上の尺度の性質をすべて含む。尺度によって使える分析手法が異なる。

変数の数

変数の数による分類。

1次元データ
2次元データ
多次元データ

ビジネスの世界で実際に直面するデータは多次元データばかりだろう。

データセットの種類

タイミングと観測対象によって分類

横断面（クロスセクション）データ 1つの時間を切り取って（同じタイミング）、その中で複数の対象（顧客など）についてのデータ
時系列データ 1つの対象についての時間経過とともに記録したデータ
パネルデータクロスセクションかつ時系列のデータ、複数対象の時をまたいだデータ。購買履歴などの履歴データや、同じ対象に対する同一アンケート調査を毎年行ったデータ（横断面データを定期的に収集していったもの）がこれに該当する。

生ログ or 集計済みデータ

データというのは自動取得されるアクセスログや、実査を行うアンケートであれば個票データになる大元のデータ があり、それをアクセス解析ツールやアンケート集計ツールを使って集計された形でアウトプットが出てくるという流れになっていることが多い。この大元の生のデータか、それとも集計済みのデータか、それが大きな分類となる。

アンケート調査：個票データ or 集計データ
アクセス解析：webサーバの生ログ or GAの管理画面のデータ

生ログは情報自体は豊富に含まれるのだが、人間が見ても分かりにくい、認識しにくいものである。わかりやすく集計されたデータを見れば何が起こっているか、データの意味がよくわかる。だからわれわれは集計済のデータを使って分析するのが基本である。生ログからはいかようにも集計が可能だが、一度集計されてしまうとログに戻すことはできない。集計は何らかの情報を切り取る作業であり、データのサイズは小さくなる（ことが多い）が、同時に失われる情報もある。通常生ログから集計を何ステップか経てデータを扱うが、データを保持するとき、どの段階のものを保持するのか、その後の利用シナリオを考慮したうえで設計する必要がある。集計データを扱う場合、集計の過程で

集計の切り口が限定されてしまい、任意の変数の関係を見ることができない
何らかのロジックに基づいて分類を行った場合、その分類ロジックがブラックボックスになってしまう。たとえばアンケート結果を要約してポジティブ／ネガティブと分類したうえで集計した場合、ポジティブ／ネガティブの分類基準は集計結果データには含まれない。

ことに留意する必要がある。

代表値とばらつき

データの特徴を一言で、ではなく、一つの数値で表したもの。

代表値（中心傾向）

代表値はデータを代表する、データを一言で言い表す値。たとえば身長のデータだったら「大体このくらいの長さだよね」というのが代表値を意味する。それそのものでは意味の分からない「○○指数」のようなものであったとしても、「この○○指数というのは大体このくらいの大きさだよね」というのが最初の議論になるだろう。つまりデータの中心の位置、数値の大小を表すものになる。

算術平均（mean）一般的な平均の概念。観測値の合計を個数で割る。 $$\bar{x} = \frac{1}{n} \sum^n_{i=1} x_i$$ 外れ値や歪んだ分布に弱い（外れ値があると算術平均値が変わる、分布がの歪みが少し極端になるだけで算術平均値が変わる）
中央値（median）データを下から順に並べてちょうど真ん中の番目の観測値
- データの個数が奇数（たとえば19個）の場合、10番目の値
- データの個数が偶数（たとえば20個）の場合、10番目の値と11番目の値の算術平均（真ん中がないため）
最頻値（mode）データの中で最も頻出する値
- 変数が離散の場合、そのまま最も頻出する観測値を指す
- 変数が連続の場合、データをいくつかの等間隔の区間に区切ってヒストグラムにしたときの、最も頻度が高い区間を指す（基本的に同じ値が発生するものではないため）
刈り込み平均（trimmed mean）データの上下○％の順位のデータを除外した残りの観測値の算術平均

中央値、刈り込み平均は外れ値や歪んだ分布に対しても頑健（外れ値があっても中央値は変わらない、分布が少々歪んでも中央値は変わらない）。

このような分布においては最頻値＜中央値＜算術平均となる。

データ分析の目的、考え方、フレームワークと統計

Fri, 20 Jan 2017 00:00:00 +0900

データ分析の考え方

データに基づいて意思決定をすることは、もはやビジネスの前提となった。 AIがデータ分析のワークフローを大きく変えつつある今だからこそ、その土台となる「考え方」を正しく理解しておくことが重要である。

データ分析がビジネスの課題を何でも解決してくれるのだろうか？

データ分析には役割と守備範囲、正しい手法というものが決まっている。間違った使い方をすると間違ったインサイトを導き出すことになる。

何でもデータ分析が解決してくれるわけではなく、データ分析の守備範囲とそうでない部分は峻別しなければならない。データ分析を正しく理解して実務に役立てていくために実務上、最低限抑えておけばいいところをまとめていく。

そもそもデータ分析とは何なのかを整理し
データ分析と向き合う正しい姿勢と最低限の知識を説明する

データ分析の目的

データ分析には目的がある。主に以下の4種類に分けられる。

予測：売上予測、クリック率予測
意思決定：どの変数がどれだけのインパクトで効いているのか →アクションの方向性・タイミングを見出す、配信アルゴリズムを決める
レコメンド：どんな商品をレコメンドするのがいいか
分類：セグメントを作る、何と何を同じものとして扱えばいいか

目的に応じて手法が変わってくる。いま直面しているイシューはどれに当てはまるだろうか。

いずれにせよ「だから●●」というアウトプットがある、示唆を得ることが重要になる。

分析とは？

分けていくこと

分析とはその字の通り「分けていくこと」である。

全体の「コンバージョン率」の大小を見る（指標）
「流入元」ごとの「コンバージョン率」を見る（切り口＝ディメンション）

指標とディメンション

「流入元」ごとの「コンバージョン数」

最初はざっくりと単一の数値そのものを見る。流入数、売上、利益など。これが指標となる。

次に商品、営業ブロック毎といったように数値を見る切り口が加わる。これがディメンションとなる。

○○ごとの△△

これがデータを見る基本の考え方となるので、いま見ている指標とディメンションが何なのかを常に意識することが重要である。「分ける」キーになるものである。

ディメンションごとの指標を見るのはクロス集計、要するに縦横。クロス集計の考え方と方法は後で説明する。

GoogleアナリティクスでもAdobe Analyticsでも、 BIツールや初歩的なデータ分析ツールは共通してこの考え方に基づいてデータを操作する。高度な統計解析手法も基本的に指標とディメンションを複雑に組み合わせた（モデル化した）ものである。

分析ツールによっては

指標はmetrics, measure（メジャー）などの単語で置き換えられる
ディメンションはそのままdimensionとして使われることが多い

ただ指標とディメンションを眺めているだけでは分析ではない。それは数字を見ているだけで、何も言えない、知見にならない。

知見を導き出すための分析的視点としてここから深掘りする際に3つの方向性がある。それがセグメント、推移、ベンチマークである。

比較して違いを見つけること

ケース1

ページ	流入数	CVR
記事A	500	2%
記事B	400	2%
記事C	300	2%

ケース2

ページ	流入数	CVR
記事A	500	2%
記事B	400	1%
記事C	300	5%

どちらのほうが意味を見いだせるか、知見を導き出すポテンシャルがあるか？