データ分析の目的、考え方、フレームワークと統計

この記事は連載「データ分析の基本」の全 4 ページ中 1 ページ目です。

データ分析の考え方 昨今もてはやされている「データ分析」というキーワード。 これを読んでいる方々はデータ分析に対してどのようなイメージをお持ちだろうか? データ分析がビジネスの課題を何でも解決してくれるのだろうか? データ分析には役割と守備範囲、正しい手法というものが決まっている。 間違った使い方をすると間違ったインサイトを導き出すことになる。 何でもデータ分析が解決してくれるわけではなく、データ分析の守備範囲とそうでない部分は峻別しなければならない。 データ分析を正しく理解して実務に役立てていくために実務上、最低限抑えておけばいいところをまとめていく。 そもそもデータ分析とは何なのかを整理し データ分析と向き合う正しい姿勢と最低限の知識を説明する データ分析の目的 データ分析には目的がある。主に以下の4種類に分けられる。 予測:売上予測、クリック率予測 意思決定:どの変数がどれだけのインパクトで効いているのか →アクションの方向性・タイミングを見出す、配信アルゴリズムを決める レコメンド:どんな商品をレコメンドするのがいいか 分類:セグメントを作る、何と何を同じものとして扱えばいいか 目的に応じて手法が変わってくる。いま直面しているイシューはどれに当てはまるだろうか。 いずれにせよ「だから●●」というアウトプットがある、示唆を得ることが重要になる。 分析とは? 分けていくこと 分…

Continue reading →

記述統計~統計的にデータを見る視点

この記事は連載「データ分析の基本」の全 4 ページ中 2 ページ目です。

記述統計 統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。 記述統計とは 記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。 全てのデータを見るのでデータマイニング的なアプローチ。 仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。 後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。 データの種類 データは特徴によって分類される。 種類によってデータ加工方法から分析手法も変わってくる。 どんな観点で分類するのか、分類のポイントを紹介していく。 尺度 尺度とは、ざっくり言うと数字のなす意味、その数字が対象の特徴をどのように説明するかによる分類。こう言うと難しいので、実際の内容を具体的に見ていこう。 定性的データ(カテゴリカルデータ) 名義尺度:数字は単なる名前・ラベルであって、その大小に意味はない。 (例)性別/1=男性、2=女性 順序尺度:大小比較できる。ただし差に意味はない。 (例)満足度/1=不満、2=どちらでもない、3=満足 定量的データ 間隔尺度:差に意味がある。比に意味はない。つまり割り算する意味がない (例)温度(…

Continue reading →

実際の事象におけるデータの分布と確率分布、一部のデータから全体を推測する考え方

この記事は連載「データ分析の基本」の全 4 ページ中 3 ページ目です。

確率分布 これまで「分布」という言葉が何度も出てきたが、この「分布」とは確率分布のことを指している。ここでは具体的なさまざまな確率分布を紹介する。 まず確率分布の定義であるが、確率分布とは、確率変数の各々の値に対する、その生起しやすさをプロットしたものである。そして確率変数とは、確率的に取る値が変わる変数を指す。 発生する事象が確率的に変化するものを想像しよう。その生起しやすさを表すのが確率分布である。 厳密な議論は省略してどのような事象があてはまるか、分布に対するイメージがわかることを目的とする。 離散型確率分布 ベルヌーイ分布 1回の試行で表が出るか裏が出るか 一か八か 成功確率 $p$ の事象が1回の試行で成功するかどうか 期待値=$p$、分散=$p(1-p)$ 期待値は確率分布の中心的位置を表す。 分散は平均からのバラつきの程度を数量的に表す。 二項分布 (例)平均して打率3割の選手が年間500打席でヒットを打つ回数の分布 $n$ 回やって何回成功するか 成功確率 $p$ の事象が $n$ 回の試行で成功する回数 この分布を$Bin(n, p)$と表記 期待値=$np$、分散=$np(1-p)$ ポアソン分布 (例)あるサッカーリーグの1試合における得点の分布 レアな事象が発生する回数(カウントデータ) (例)クリック数、1日に受け取るメールの件数 二項分布との関係 二項分…

Continue reading →

機械学習の種類と特徴、ビジネスにおけるデータ分析の意味

この記事は連載「データ分析の基本」の全 4 ページ中 4 ページ目です。

機械学習 「明示的にプログラムしなくても学習する能力をコンピュータに与えること」 つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。 具体的には適切な分類、予測、レコメンド、異常検知を行う。 また複数の選択肢から適切な選択を行わせるものもある。 学習の仕方による分類 教師あり学習 材料のデータと答えのデータを与えることで、正解率を高めていくものである。 さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類/予測するケース。ここでは結果が教師データになる。 たとえばEメールの本文テキストがあって、それがスパムかどうか判断する場合、スパムかどうかの判断が教師データということになる。 他にもインターネット広告のクリエイティブの種類、配信日時、配信先媒体などのデータからクリックするかしないかを予測する場合、クリックしたかどうかのデータが教師データになる。 以下の目的で使うことが多い。 分類(スパムメール/スパムでない) 予測(CVR) 異常検知(センサーデータからシステムの異常を検知して通知する) 代表的なアルゴリズムは 回帰 線形/非線形 正則化回帰 SVM 判別分析 k近傍法 一部のニューラルネットワーク 決定木(decision tree) 集団学習 教師あり学習の…

Continue reading →