目次
機械学習
「明示的にプログラムしなくても学習する能力をコンピュータに与えること」
つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。
具体的には適切な分類、予測、レコメンド、異常検知を行う。
また複数の選択肢から適切な選択を行わせるものもある。
学習の仕方による分類
教師あり学習
材料のデータと答えのデータを与えることで、正解率を高めていくものである。
さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類/予測するケース。ここでは結果が教師データになる。
たとえばEメールの本文テキストがあって、それがスパムかどうか判断する場合、スパムかどうかの判断が教師データということになる。
他にもインターネット広告のクリエイティブの種類、配信日時、配信先媒体などのデータからクリックするかしないかを予測する場合、クリックしたかどうかのデータが教師データになる。
以下の目的で使うことが多い。
- 分類(スパムメール/スパムでない)
- 予測(CVR)
- 異常検知(センサーデータからシステムの異常を検知して通知する)
代表的なアルゴリズムは
- 回帰
- 線形/非線形
- 正則化回帰
- SVM
- 判別分析
- k近傍法
- 一部のニューラルネットワーク
- 決定木(decision tree)
集団学習
教師あり学習の中でも、上記の個別の手法を1回単独で用いた結果というのは精度が低い場合がある。
しかし1個1個の結果の精度が低いものでも、それらを大量に組み合わせれば精度は高くなる。
そこで同じデータからランダムサンプリングで抽出したデータによる個別手法の分析を何度も行って、
その個別の結果を合算して最後に一つのアウトプットを出すという手法が集団学習である。
- bagging(Bootstrap aggregating)
- boosting
- random forest
教師無し学習
正解のデータはない。
特定のアウトプット(「CVする」「しない」など)を導くのではなく、似たもの同士をまとめるなどデータを眺めるのに使う。
またレコメンドも基本的には教師なし学習としてレコメンドを行うもので、そこからの反応の有無を教師データとして与える場合もある。
- クラスター分析
- 主成分分析
- SOM
- 協調フィルタリング
強化学習
「うまいことやってくれる」
正解自体はないが、機械が選択した結果に基づいた報酬があり、その報酬に基づいて学習していくタイプのものである。
- ディープラーニング(深層学習)
- バンディットアルゴリズム
出力の形式による分類
- 分類
- クラスタリング
- 回帰
- 次元縮小
分類の中に教師あり学習もあれば強化学習もある
推測統計 or 機械学習
推測統計と機械学習、全く異なるものではないが、そもそも
- 統計の手法はもともと意味を理解するためのものであり理解しやすさが重要
- 機械学習は予測や分類などを正確にできればいい。意味より、モデルを使った予測そのものの精度や頑強性が重要
という文化の違いがある。
分析に使うデータの量においても姿勢の違いがある。
ビッグデータ?スモールデータ?
- 推測統計はスモールデータ(サンプリング)
- 機械学習はできるだけビッグデータ(クラスタリングなど、目的上サンプリングできないものもある)
身近な分野での違いは
- 歴史のあるマーケティングリサーチは推測統計の考え方で
- アドテクは機械学習(オーディエンスの分類/コンバージョンの予測)
データ分析とビジネス
ビジネスにおけるデータ分析の位置づけを。
データを活用したビジネスサイクルの理想像
ビジネスのイシューと結びつかなければデータ分析をする意味がないが、
データからイシューを考える(data-oriented)アプローチと、イシューから考えてデータにたどり着く(issue-oriented)アプローチがある。
データオリエンテッド
- 正しく現状把握ができている
- 数値変化の原因、健康的な数値と不健康な数値の峻別がわかる→イシューが特定できる
- それに基づいた施策の立案、実行ができる
- マイナスをゼロにする
- どんな施策がいいかわからないが、PDCAを回して模索
- データを効果的に活用した施策
- パーソナライズに基づくコンテンツ出し分け
- レコメンド
まず現状把握。これができているだけでも重要。この正しい認識がないと施策の考えようがない。
次に問題のある数値(変化)と問題のない数値(変化)の見極め。
たとえばサイト全体のCVRが急落した場合、これは問題なのだろうか?
実はディスプレイ広告を配信して購買意欲の薄いユーザが大量に流入したためというのであれば、さほど問題はない。あまりにCVRが低ければ広告のターゲティング自体に問題はあるかもしれないが、サイト内で不健康な問題が発生したということではない。どんな施策でも急激に流入を増やせばCVRが低下するのは当たり前のことである。
ほとんどの数値変化には妥当な理由があり、本当に問題のある数値変化のほうが実は少ない。
問題があればアクションを取ることになる。
そこでどんなアクションを取ればいいか、それはデータだけではわからないのである。
流入数は変わらないのにCVRが低下を続けている。データを見ると特定のセグメントのCVRが低下したことが判明した。
そこまではデータの役割。では具体的にどうやってCVRを回復させればいいか。それはデータだけではわからない。競合と定性的な比較をする必要があるかもしれない。
データだけでなくとデータ以外も情報を使って施策を考える。考える材料の一つとしてデータがある。
イシューオリエンテッド
あらかじめビジネス上の課題・イシューがあって、それをデータに結び付けて把握する。
たとえば
- 新しくキャンペーンを打つことが決まっている。新しいキャンペーンの内容をどうするか
- データを見るとこういうコンテンツがウケている
- このセグメントに対してこのような訴求のキャンペーンを打とう
という流れ。
ビジネス側の事情で今の課題、取り組むべきことが決まっている。
それをより具体的に深掘りする、高い精度で取り組むため、データを手掛かりにするのである。
関心対象のイシューに関連した情報はデータの中にないだろうか。
データによると、どのように取り組んでいくのが適切なのか。
イシューから考えるということは、こういうケースもある。
「データを見なくても売上が落ち込んでいるのはわかっている。その原因は何か。解決可能なのか、解決の糸口は?」
イシュー自体はデータがなくてもわかる。
原因を特定するのにデータが有効になるケースが多いが、データがなくても肌感覚で分かっていることもある。その肌感覚に基づいて施策を打ったら売上が回復した、というケース。
データがなくても、「常識的に考えてこのUI使いにくいよね」「この表現分かりにくいよね」など、見ただけで明らかにわかるLPの改善などはこれに近い。
データがなくても解決できるならそれはビジネスの成功だし、データだけではわからないこともある。特に改善施策案自体は他の事例などから考える必要がある。
もちろんデータが大きな手掛かりになるケースは多い。
「全体的にダメなのはデータを見なくてもわかる。でも個別にどこに問題があるのか。どこに手を付ければいいのか分からない。」それを知るのにデータは有効。
データオリエンテッドとイシューオリエンテッドは別なので、考えるプロセスとして混同しないように。
説得のためのデータ
自分ではデータがなくてもわかっていても、他人に伝える、説得するためにデータを根拠として持ち出すことも多い。
自分ではデータを見なくても、日々webサイトに触れている感覚から問題点ととるべき改善の方向性がわかっている。そのとおりの施策を打ちたい。施策を実施するためには予算を取る必要がある。決裁者を説得しなければならない。そこでデータを持ち出すのである。
webの施策では意外と施策深度が低く、プロが見ればデータを見なくても明らかな改善点が見つかることも多い。そこで改善提案をするためにデータを持ち出すケースは多い。
データから知見を得るのではなく、言いたい結論のためにデータを持ち出す。
組織が大きくなってきて、それを動かす必要がある場合にはどうしてもこのステップは欠かせない。
ビジネスにおける分析の目的
- 現状把握
- モニタリング、異常検知
- 効果測定
- 問題発見
モニタリングは定型的、問題発見はアドホック(都度深堀)。
効果測定は見るべき指標と比較の条件を決めて数値を比較するだけ。
これらは分けて考えること。効果測定が目的なのに問題発見のアプローチをとると無駄に時間がかかることになる。
問題発見というのが一番難しく、実はアクセス解析ツールを単体で使う時の弱点でもある。
というのもアクセス解析ツールはサイト全体の動向をざっくり見るためにあるもの。
問題というのは特定の目的に沿ってデータを見ていく、深掘りしていくことで明らかになるものなので、
アクセス解析のデフォルトのレポート画面だけでは問題が明らかになるほどまでに深掘りできないのである。
特定の変数を特定の条件で絞り込んで見るなどして明らかになってくるもの。
カスタムレポート(Googleアナリティクス)やワークスペース(Adobe Analytics)を駆使していくことで見えてくる。
最近ではGoogleアナリティクスのデータをAPIで取得して、さらに他のデータも結合してアウトプットを出すなど、一般的なアクセス解析とは別に特定の観点から問題を発見するタイプのツールも出てきている。
データ分析の着眼点
違いに着目する
- 男女の違い
- コンバージョンした人としなかった人の違い
など、いろいろな切り口で比較し、違いが大きかった切り口に着目する。
たとえばコンバージョン率をグループ間で比較する場合、
ランダムに分けたグループを比較しても同じCVRになるが(数値上のCVRの違いは標本誤差)、
意味のある切り口で分けたグループを比較すれば異なるCVRになる。
違いの大きさとは?
次の2つのケース、どちらがより意味のある分析結果といえるのか?
ケース1
流入数 | CV数 | CVR | |
---|---|---|---|
媒体A | 10,000 | 400 | 4% |
媒体B | 10,000 | 200 | 2% |
ケース2
流入数 | CV数 | CVR | |
---|---|---|---|
媒体C | 10,000 | 310 | 3.1% |
媒体D | 10,000 | 290 | 2.9% |
ケース1のほうがより意味のある知見を導き出しているというのが明らかだろう。
これはケース1のほうが媒体間のCV数、CVRの差ともに大きいからである。
大した違いのない分析結果より、大きな違いのある分析結果のほうが知見としては大きな意味がある。
では以下の場合はどうか。
ケース1
流入数 | CV数 | CVR | |
---|---|---|---|
媒体A | 10,000 | 400 | 4% |
媒体B | 10,000 | 200 | 2% |
ケース3
流入数 | CV数 | CVR | |
---|---|---|---|
媒体E | 100 | 23 | 23% |
媒体F | 19,900 | 577 | 2.9% |
ケース3のほうがCVRの差は大きい。しかし媒体Eは全流入20,000のうちたった100流入に対してしか説明できていない
この分析結果は果たして意味があるのか?
CVRだけでなくボリュームとセットで考えること。
理想の分析結果は「CVRの違いが大きく、ボリュームもある程度あること」
この「違い」を評価するにあたってクロス集計における考え方を突き詰めると、
ケース1
流入数 | CV数 | CVR | |
---|---|---|---|
媒体A | 10,000 | 400 | 4% |
媒体B | 10,000 | 200 | 2% |
ケース1-2
媒体Aと媒体BとでCVRが同じ(=3%)だと仮定した場合のCV数
流入数 | CV数 | CVR | |
---|---|---|---|
媒体A | 10,000 | 300 | 3% |
媒体B | 10,000 | 300 | 3% |
実際に発生したCV数とCVRが同じ(違いがない)と仮定したときのCV数の差は100
ケース3
流入数 | CV数 | CVR | |
---|---|---|---|
媒体E | 100 | 23 | 23% |
媒体F | 19,900 | 577 | 2.9% |
ケース3-2
媒体Eと媒体FとでCVRが同じ(=3%)だと仮定した場合のCV数
流入数 | CV数 | CVR | |
---|---|---|---|
媒体E | 100 | 3 | 3% |
媒体F | 19,900 | 597 | 3% |
実際に発生したCV数とCVRが同じ(違いがない)と仮定したときのCV数の差は20
ここで発生したCV数の差、100と20こそが知見の大きさ。
CVRとボリュームを掛け合わせたCV数が、(変わらない=公平と仮定したときの)期待値に対してどれだけ不公平だったか、それが知見の大きさなのである。
上記のように手動で個別のクロス集計を行うのではなく、
全変数に対して自動でこの比較をして、不公平度が大きい順にサンプルを分けていく手法が決定木(decision tree)である。
比較対象には同質性が必要
ケース4
ページ | 流入数 | CVR |
---|---|---|
記事A | 500 | 2% |
記事B | 400 | 1% |
記事C | 300 | 5% |
ケース5
ページ | 流入数 | CVR |
---|---|---|
記事A | 500 | 2% |
トップページ | 400 | 1% |
カテゴリ1 | 300 | 5% |
「そもそもページの役割が違うのだから比較しようもない」
つまり比較するためには、ある程度同じ枠内でのものでないと比較できない
統計の手法では
- 違うかどうかを判断する
→独立性の検定、ゼロ仮説の検定 - 違いの大きさを評価する
→(回帰)係数の値
という流れが普通である。
あくまで統計の手法(仮説検定)の考え方であって、他にもっといい考え方がないかの議論は別途必要ではあるが、データ分析のある意味正しい主流の考え方という意味ではこれがスタンダードである。
先のように違いが大きくてもボリューム(n数)が小さい場合、統計的に有意には出ないことがある。
「少々違いが大きくても、それだけのデータでしかなければ、たまたまの結果であることも十分あるよね。それだけのデータでは何ともいえない」
だから仮説検定の手順を取る必要がある。
有意差が出た場合、晴れて「違いがある」と言えるようになる。
次にその大きさ、インパクトの大きさを評価する。
「違いはれっきとしてある。しかし違い自体は小さい。」
ということもよくある。
逆に「○○と△△には違いがない」というのも立派な知見となる。
今後「△△」に対するアクションを取る必要がなくなる、無駄なアクションを取らなくなるからである。
ポジティブな結論が出ないケースも知見としては有用であることは忘れてはならない。往々にして
「テストマーケティングの結果、これだけはやってはいけないということが分かった」
ということはある。
分布の違いに着目
CVR、平均値のような代表値だけでなく、分布の形状の違いに着目するのもあり。
- 上位の貢献度→2:8なのか3:7なのか、テールの厚さ
- 1万PV以上のページ数
時間に着目する
- 傾向=トレンド、周期性を見つける
- 構造の変化、スパイクを発見したら、原因を把握
データ分析 の記事一覧