BIツール

Thu, 05 Mar 2026 00:00:00 +0900

BIツールの基本構造

はじめに

昨今のダッシュボードブーム・BIブームの中で、さまざまなダッシュボードが作られている。項目やフィルタを選択して深掘りできる分析寄りのダッシュボードもあれば、エグゼクティブが数字をさっと確認するだけのシンプルなダッシュボードもある。それらをすべて「ダッシュボード」と呼ぶかどうかの議論はさておき、ダッシュボードを構築するツール（BIツール）もまた数多く存在している。

ただし、BIツールは数あれど基本的な構成はどれも同じである。この基本構造を押さえておけば、新しいBIツールを扱うことになっても学習にスムーズに入っていける。

ダッシュボード
├── ウィジェット
│ ├── ディメンション × 指標
│ │ ├── ディメンション（地域 / カテゴリ / 年月 …）
│ │ └── 指標（売上 / 件数 / 単価 …）＋ 集計方法（合計 / 平均 / 最大 / カウント …）
│ ├── チャートタイプ（棒グラフ / 折れ線 / 円グラフ / テーブル / 数値カード / 地図 …）
│ ├── 変数（関数で作成）
│ │ ├── グルーピング → ディメンションとして使う
│ │ ├── 計算（四則演算 / 比率 …）→ 指標として使う ＋ 集計方法
│ │ └── 文字列処理 → ディメンションとして使う
│ └── ウィジェット単位のフィルタ
├── グローバルフィルタ / パラメータ
│ ├── グローバルフィルタ（ダッシュボード全体の絞り込み）
│ └── パラメータ（表示内容・計算ロジックの切り替え）
└── データソース（スプレッドシート / データベース / SaaS連携 …）

1. ダッシュボードとウィジェット

BIツールの画面構成は、大きく「ダッシュボード」と「ウィジェット」の2層で成り立っている。

記述統計～統計的にデータを見る視点

Sat, 21 Jan 2017 00:00:00 +0900

記述統計

統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。

記述統計とは

記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。全てのデータを見るのでデータマイニング的なアプローチ。仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。

データの種類

データは特徴によって分類される。種類によってデータ加工方法から分析手法も変わってくる。どんな観点で分類するのか、分類のポイントを紹介していく。

尺度

尺度とは、ざっくり言うと数字のなす意味、その数字が対象の特徴をどのように説明するかによる分類。こう言うと難しいので、実際の内容を具体的に見ていこう。

定性的データ（カテゴリカルデータ）
- 名義尺度：数字は単なる名前・ラベルであって、その大小に意味はない。（例）性別／1＝男性、2＝女性
- 順序尺度：大小比較できる。ただし差に意味はない。（例）満足度／1＝不満、2＝どちらでもない、3＝満足
定量的データ
- 間隔尺度：差に意味がある。比に意味はない。つまり割り算する意味がない（例）温度（℃）「30℃は15℃の2倍」とは言わない、日付
- 比例尺度、比尺度：比率にも意味がある。0が基準となるもの。（例）身長、訪問客数

下の尺度は上の尺度の性質をすべて含む。尺度によって使える分析手法が異なる。

変数の数

変数の数による分類。

1次元データ
2次元データ
多次元データ

ビジネスの世界で実際に直面するデータは多次元データばかりだろう。

データセットの種類

タイミングと観測対象によって分類

横断面（クロスセクション）データ 1つの時間を切り取って（同じタイミング）、その中で複数の対象（顧客など）についてのデータ
時系列データ 1つの対象についての時間経過とともに記録したデータ
パネルデータクロスセクションかつ時系列のデータ、複数対象の時をまたいだデータ。購買履歴などの履歴データや、同じ対象に対する同一アンケート調査を毎年行ったデータ（横断面データを定期的に収集していったもの）がこれに該当する。

生ログ or 集計済みデータ

データというのは自動取得されるアクセスログや、実査を行うアンケートであれば個票データになる大元のデータ があり、それをアクセス解析ツールやアンケート集計ツールを使って集計された形でアウトプットが出てくるという流れになっていることが多い。この大元の生のデータか、それとも集計済みのデータか、それが大きな分類となる。

アンケート調査：個票データ or 集計データ
アクセス解析：webサーバの生ログ or GAの管理画面のデータ

生ログは情報自体は豊富に含まれるのだが、人間が見ても分かりにくい、認識しにくいものである。わかりやすく集計されたデータを見れば何が起こっているか、データの意味がよくわかる。だからわれわれは集計済のデータを使って分析するのが基本である。生ログからはいかようにも集計が可能だが、一度集計されてしまうとログに戻すことはできない。集計は何らかの情報を切り取る作業であり、データのサイズは小さくなる（ことが多い）が、同時に失われる情報もある。通常生ログから集計を何ステップか経てデータを扱うが、データを保持するとき、どの段階のものを保持するのか、その後の利用シナリオを考慮したうえで設計する必要がある。集計データを扱う場合、集計の過程で

集計の切り口が限定されてしまい、任意の変数の関係を見ることができない
何らかのロジックに基づいて分類を行った場合、その分類ロジックがブラックボックスになってしまう。たとえばアンケート結果を要約してポジティブ／ネガティブと分類したうえで集計した場合、ポジティブ／ネガティブの分類基準は集計結果データには含まれない。

ことに留意する必要がある。

代表値とばらつき

データの特徴を一言で、ではなく、一つの数値で表したもの。

代表値（中心傾向）

代表値はデータを代表する、データを一言で言い表す値。たとえば身長のデータだったら「大体このくらいの長さだよね」というのが代表値を意味する。それそのものでは意味の分からない「○○指数」のようなものであったとしても、「この○○指数というのは大体このくらいの大きさだよね」というのが最初の議論になるだろう。つまりデータの中心の位置、数値の大小を表すものになる。

算術平均（mean）一般的な平均の概念。観測値の合計を個数で割る。 $$\bar{x} = \frac{1}{n} \sum^n_{i=1} x_i$$ 外れ値や歪んだ分布に弱い（外れ値があると算術平均値が変わる、分布がの歪みが少し極端になるだけで算術平均値が変わる）
中央値（median）データを下から順に並べてちょうど真ん中の番目の観測値
- データの個数が奇数（たとえば19個）の場合、10番目の値
- データの個数が偶数（たとえば20個）の場合、10番目の値と11番目の値の算術平均（真ん中がないため）
最頻値（mode）データの中で最も頻出する値
- 変数が離散の場合、そのまま最も頻出する観測値を指す
- 変数が連続の場合、データをいくつかの等間隔の区間に区切ってヒストグラムにしたときの、最も頻度が高い区間を指す（基本的に同じ値が発生するものではないため）
刈り込み平均（trimmed mean）データの上下○％の順位のデータを除外した残りの観測値の算術平均

中央値、刈り込み平均は外れ値や歪んだ分布に対しても頑健（外れ値があっても中央値は変わらない、分布が少々歪んでも中央値は変わらない）。

このような分布においては最頻値＜中央値＜算術平均となる。

データ可視化 on Marketechlabo