回帰分析とその派生手法、数理モデリング、発展的な統計解析手法

いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。 数理モデリング 数理モデリングの考え方 因果関係を定量化 「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。 X=説明変数(独立変数) Y=被説明変数(従属変数、目的変数) いわゆる「回帰分析」である。 目的 因果関係とインパクトの大きさの特定 予測 モデリングの手続き モデル式の選択(単回帰、ロジット、…) 従属変数の特徴(分布の形状、ばらつき方)によって適切なモデルを選択する パラメータの推定 さまざまな推定法がある(最尤法、最小二乗法) そのモデルでいいか検証 あてはまりのよさ(fit) 決定係…

続きを読む →

比較のための統計解析手法~さまざまな仮説検定から分散分析、多重比較

分析手法 目的とデータの性質に基づいて手法を選択 目的 違いがあるか知りたい=A/Bテスト (因果)関係を知りたい=何が効くかを知りたい 予測 分類 従属変数があって、それを分類するもの(クラス分類) 独立変数のみで、似ているものをまとめるもの(クラスタリング) レコメンド データの性質(手法の前提条件) 離散か連続か 正規性 等分散性 従属変数の分布の形状 http://readingmonkey.blog45.fc2.com/blog-entry-262.html 仮説検定 仮説検定とは? 基本的に比較するための方法 「A/Bテスト」→理論的に正確な手順がある。 ※比較する対象は2つ。3つ…

続きを読む →

運用型広告の入札単価の考え方、集客施策におけるマクロとミクロの視点

入札単価調整あれこれ 入札(Bid)は基本ではあるが奥が深い。 きちんと広告が表示されるかどうか、意図した露出機会を得られるかどうか CPAが許容範囲内かどうか これらは入札によってコントロールされる。運用型広告の入札はセカンドプレイスオークションであるため、入札単価と実際に課せられる単価は異なる。これを想定して入札単価を決める必要がある。 近年ではDSPのシステム側で入札単価を調整してくれる自動入札機能もある。入札単価の決定自体は人間よりもシステムのほうが相性もいいため、自動入札機能を持つDSPについては自動化アルゴリズムに任せるのがいいかもしれない。 ただし手動入札しかできないDSPもある…

続きを読む →

データドリブンな広告運用と、その背後にある技術・統計の理論

データに基づいた広告運用をするのであれば、データを適切に扱うための技術(方法論)に則る必要がある。データドリブンな運用に必要な技術を、使われる文脈とコアとなるキーワードととともに紹介する。 データドリブンな運用とは? 「いろいろやって効果のいいものに寄せる」 が基本。ただし制約条件はいろいろある(予算など)。 テクニカルには 統計学+数理計画法 ということになる。 「いろいろやっていいものを見つける」が統計の役割。 「(制約条件の中で)いいものに寄せる」すなわちコストアロケーションが数理計画の仕事である。 昨今、統計がもてはやされているが、これとは別に数理計画という要素があることは知っておくの…

続きを読む →

ディスプレイ、検索連動型広告の運用ので最初に考えること、アカウント構築

予算、目的、戦略を抑える ディスプレイ広告、検索連動型広告(リスティング広告)、ソーシャル広告など、インターネット広告は今や運用型広告が中心になりつつある。運用が必要になるわけだが、プラットフォームも多数あり、考慮しなければならないことが多い。 そこで広告運用で背後にある考え方、筋の通ったロジックを整理して説明する。これらを踏まえておけばまあ何とかなるし、逆に何ともならないものは仕方がない(諦めざるを得ない)。 広告配信システムがどのような動きを見せるのか、それに対してどのように向き合えばいいか。運用が自動化にシフトしている今も変わらず重要なことを説明していく。 まず最初のポイントは予算、目的…

続きを読む →

運用型広告を扱う広告主が持つべき視点~目標設定、予算、クリエイティブ

専業代理店・運用会社というのは運用のプロであり、 広告主が提示した情報に基づいて、広告主が指示した目標を目指して運用してくるところが多い。 一方で広告主側としては運用以外のところで、運用がうまくまわるように手配するのが仕事。 できる広告代理店であればプランナーがそのあたり全体を考えて回してくれるが、専業代理店や運用会社は役割特化になってしまってそのような機能は期待しにくい。 具体的には (おおまかな)ターゲットと目標の設定 予算のアロケーション クリエイティブ 計測仕様の策定と指示 このあたりが広告主が考えるべきこととなる。そして 運用の精緻化 これは運用会社の仕事となる。 運用を委託される側…

続きを読む →

機械学習の種類と特徴、ビジネスにおけるデータ分析の意味

機械学習 「明示的にプログラムしなくても学習する能力をコンピュータに与えること」 つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。 具体的には適切な分類、予測、レコメンド、異常検知を行う。 また複数の選択肢から適切な選択を行わせるものもある。 学習の仕方による分類 教師あり学習 材料のデータと答えのデータを与えることで、正解率を高めていくものである。 さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類/予測するケース。ここでは結果が教師データになる。 たとえばEメールの本…

続きを読む →

実際の事象におけるデータの分布と確率分布、一部のデータから全体を推測する考え方

確率分布 これまで「分布」という言葉が何度も出てきたが、この「分布」とは確率分布のことを指している。ここでは具体的なさまざまな確率分布を紹介する。 まず確率分布の定義であるが、確率分布とは、確率変数の各々の値に対する、その生起しやすさをプロットしたものである。そして確率変数とは、確率的に取る値が変わる変数を指す。 発生する事象が確率的に変化するものを想像しよう。その生起しやすさを表すのが確率分布である。 厳密な議論は省略してどのような事象があてはまるか、分布に対するイメージがわかることを目的とする。 離散型確率分布 ベルヌーイ分布 1回の試行で表が出るか裏が出るか 一か八か 成功確率 $p$ …

続きを読む →

記述統計~統計的にデータを見る視点

記述統計 統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。 記述統計とは 記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。 全てのデータを見るのでデータマイニング的なアプローチ。 仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。 後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。 データの種類 データは特徴によって分類される。 種類に…

続きを読む →

データ分析の目的、考え方、フレームワークと統計

データ分析の考え方 昨今もてはやされている「データ分析」というキーワード。 これを読んでいる方々はデータ分析に対してどのようなイメージをお持ちだろうか? データ分析がビジネスの課題を何でも解決してくれるのだろうか? データ分析には役割と守備範囲、正しい手法というものが決まっている。 間違った使い方をすると間違ったインサイトを導き出すことになる。 何でもデータ分析が解決してくれるわけではなく、データ分析の守備範囲とそうでない部分は峻別しなければならない。 データ分析を正しく理解して実務に役立てていくために実務上、最低限抑えておけばいいところをまとめていく。 そもそもデータ分析とは何なのかを整理し…

続きを読む →