アクセスログファイルからのデータ抽出とCSV化、SQLiteへの取込

さまざまな形式のアクセスログファイルから、 分析集計しやすいようにCSVファイルへの変換、さらには簡易データベースであるSQLiteへの取り込みを解説する。 CSVファイルにする テキスト形式のログファイルを扱いやすいCSVに変換する。 NCSA combined形式 テキストファイルにすればExcelなどの表計算ソフトやPostgreSQLなどのデータベースにも取り込むことができる。自由自在になる。 バーチャルホスト名を含まないNCSA combined logから以下の8項目をタブ区切りテキストで書き出す。 アクセス元のアドレス ユーザー名 日時 ページのパス ステータスコード 送信バイト…

続きを読む →

サーバログ型アクセス解析の特徴、ログの構造と取得方法、ユーザID

今では誰もが簡単にアクセス解析をできるようになった。 Googleアナリティクスという無料のツールがあり、そのタグをHTMLファイルに記入することできれいな分析結果の画面が手に入る。有料だがAdobe Analyticsを導入しているサイトも多い。 最近は分析というと、こういったツールの画面を見ることが中心になってしまっている。 ところがそこに出てくるのはGoogleやAdobeによって加工・集計された数字だ。Googlebotなどの検索ロボットのアクセスも除外されてしまう。実は裏側にはログがあって、それを加工・集計して見たいアウトプット(媒体ごと流入数一覧、コンバージョンを生んだランディング…

続きを読む →

回帰分析とその派生手法、数理モデリング、発展的な統計解析手法

いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。 数理モデリング 数理モデリングの考え方 因果関係を定量化 「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。 X=説明変数(独立変数) Y=被説明変数(従属変数、目的変数) いわゆる「回帰分析」である。 目的 因果関係とインパクトの大きさの特定 予測 モデリングの手続き モデル式の選択(単回帰、ロジット、…) 従属変数の特徴(分布の形状、ばらつき方)によって適切なモデルを選択する パラメータの推定 さまざまな推定法がある(最尤法、最小二乗法) そのモデルでいいか検証 あてはまりのよさ(fit) 決定係…

続きを読む →

比較のための統計解析手法~さまざまな仮説検定から分散分析、多重比較

分析手法 目的とデータの性質に基づいて手法を選択 目的 違いがあるか知りたい=A/Bテスト (因果)関係を知りたい=何が効くかを知りたい 予測 分類 従属変数があって、それを分類するもの(クラス分類) 独立変数のみで、似ているものをまとめるもの(クラスタリング) レコメンド データの性質(手法の前提条件) 離散か連続か 正規性 等分散性 従属変数の分布の形状 http://readingmonkey.blog45.fc2.com/blog-entry-262.html 仮説検定 仮説検定とは? 基本的に比較するための方法 「A/Bテスト」→理論的に正確な手順がある。 ※比較する対象は2つ。3つ…

続きを読む →

運用型広告の入札単価の考え方、集客施策におけるマクロとミクロの視点

入札単価調整あれこれ 入札(Bid)は基本ではあるが奥が深い。 きちんと広告が表示されるかどうか、意図した露出機会を得られるかどうか CPAが許容範囲内かどうか これらは入札によってコントロールされる。運用型広告の入札はセカンドプレイスオークションであるため、入札単価と実際に課せられる単価は異なる。これを想定して入札単価を決める必要がある。 近年ではDSPのシステム側で入札単価を調整してくれる自動入札機能もある。入札単価の決定自体は人間よりもシステムのほうが相性もいいため、自動入札機能を持つDSPについては自動化アルゴリズムに任せるのがいいかもしれない。 ただし手動入札しかできないDSPもある…

続きを読む →

ディスプレイ、検索連動型広告の運用ので最初に考えること、アカウント構築

予算、目的、戦略を抑える ディスプレイ広告、検索連動型広告(リスティング広告)、ソーシャル広告など、インターネット広告は今や運用型広告が中心になりつつある。運用が必要になるわけだが、プラットフォームも多数あり、考慮しなければならないことが多い。 そこで広告運用で背後にある考え方、筋の通ったロジックを整理して説明する。これらを踏まえておけばまあ何とかなるし、逆に何ともならないものは仕方がない(諦めざるを得ない)。 広告配信システムがどのような動きを見せるのか、それに対してどのように向き合えばいいか。運用が自動化にシフトしている今も変わらず重要なことを説明していく。 まず最初のポイントは予算、目的…

続きを読む →

運用型広告を扱う広告主が持つべき視点~目標設定、予算、クリエイティブ

専業代理店・運用会社というのは運用のプロであり、広告主が提示した情報に基づいて、広告主が指示した目標を目指して運用してくるところが多い。 一方で広告主側としては運用以外のところで、運用がうまくまわるように手配するのが仕事。できる広告代理店であればプランナーがそのあたり全体を考えて回してくれるが、専業代理店や運用会社は役割特化になってしまってそのような機能は期待しにくい。 具体的には (おおまかな)ターゲットと目標の設定 予算のアロケーション クリエイティブ 計測仕様の策定と指示 このあたりが広告主が考えるべきこととなる。そして 運用の精緻化 これは運用会社の仕事となる。 運用を委託される側は全…

続きを読む →

機械学習の種類と特徴、ビジネスにおけるデータ分析の意味

機械学習 「明示的にプログラムしなくても学習する能力をコンピュータに与えること」 つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。 具体的には適切な分類、予測、レコメンド、異常検知を行う。 また複数の選択肢から適切な選択を行わせるものもある。 学習の仕方による分類 教師あり学習 材料のデータと答えのデータを与えることで、正解率を高めていくものである。 さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類/予測するケース。ここでは結果が教師データになる。 たとえばEメールの本…

続きを読む →

実際の事象におけるデータの分布と確率分布、一部のデータから全体を推測する考え方

確率分布 これまで「分布」という言葉が何度も出てきたが、この「分布」とは確率分布のことを指している。ここでは具体的なさまざまな確率分布を紹介する。 まず確率分布の定義であるが、確率分布とは、確率変数の各々の値に対する、その生起しやすさをプロットしたものである。そして確率変数とは、確率的に取る値が変わる変数を指す。 発生する事象が確率的に変化するものを想像しよう。その生起しやすさを表すのが確率分布である。 厳密な議論は省略してどのような事象があてはまるか、分布に対するイメージがわかることを目的とする。 離散型確率分布 ベルヌーイ分布 1回の試行で表が出るか裏が出るか 一か八か 成功確率 $p$ …

続きを読む →

記述統計~統計的にデータを見る視点

記述統計 統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。 記述統計とは 記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。 全てのデータを見るのでデータマイニング的なアプローチ。 仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。 後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。 データの種類 データは特徴によって分類される。 種類に…

続きを読む →