Googleアナリティクスなどのツールにとらわれないウェブ解析の基本的な考え方

ツールを問わずやりたいのはアクセス解析 Googleアナリティクスは無料でアクセス解析、ウェブ解析ができるツールで、手軽に使えるような環境からよく「Googleアナリティクスの使いかたを学びたい」という声が出てくる。 有料なので使う人はあまり多くはないが、アクセス解析ツールといえばAdobe Analyticsも同じ仲間であり、やることは同じである。 重要なのは「Googleアナリティクス」という固有のツールの使い方を知ることではなく、アクセス解析/ウェブ解析の目的とプロセスを学ぶことである。ツールの違いは方言みたいなもので、使うときに知識として学べばいい。そうしておけばGA、AAだけでなく、どんなツールにも対応できるし、ログ解析にも応用できる。 逆にそれを知らないと、情報量が多い、画面構成が複雑であるアクセス解析ツールに惑わされて 肝心のやりたいことをできない、出すべき情報を得るのに無駄に時間がかかってしまう。 ということで、まずはアクセス解析の基本的な考え方を整理する。 分析の基本的な考え方 アクセス解析/ウェブ解析の前に、そもそも分析とはどういうものかを踏まえておく必要がある。これについては以下のページを参照のこと。シリーズの後のページまでは読まなくてもいいが、このページの内容は押さえておこう。 https://www.marketechlabo.com/objectives…

Continue reading →

アドホックなウェブ解析が簡単に―GoogleアナリティクスとGoogle Data Studioの探索機能

ついにGoogleアナリティクスの無料版で、マウスのドラッグ&ドロップでディメンションや指標を選択し、自由にレポートを作れるようになった。 アドホックなウェブ解析の変遷 ある程度まともにウェブ解析をやっている方であればGoogleアナリティクスやAdobe Analyticsの画面の定型的なレポート、あらかじめ定義されたレポートを見るだけでなく、知りたい指標についてその都度(アドホック)に 対象データを絞り込む(スライス) 切り口を変えて見る(ダイス) 細分化して見る(ドリルダウン) 切り口を掛け合わせて見る 新しい指標を作ってそれを見る などをすることが多いのではないだろうか。 Adobe Analyticsの基本機能としてワークスペース(Workspace)というものが2年ほど前?に現れた。Adobe Analyticsのデータに対して、ディメンションや指標をドラッグ&ドロップでレポートのレイアウトに配置して可視化する(ExcelのピボットテーブルのようなUI)、レポートを作る機能である。 これによって簡単に先のような分析を実現することが可能になった(それ以前もAd Hoc Analysisという機能があったのですが、これは別契約が必要だった)。 しかし依然GoogleアナリティクスではカスタムレポートをCSVでダウンロードする、APIでデータを抽出するなどして、それをExce…

Continue reading →

メディアサイトのアクセス解析と重要な指標、コンテンツ分析の着眼点

旧来からあるニュースメディアなどのサイトに加え、雑誌もwebメディアを持つようになってきている。また最近ではオウンドメディアも乱立しているなど、数多くのメディアサイトがひしめき合っている。 こういったサイトではお問い合わせ、資料請求といった目先のコンバージョンがない。会員登録などはあったとしても、サイト全体のゴールというほどの位置づけではない。 こういった目先のコンバージョンポイントのないメディアサイトのアクセス解析で考慮することを解説する。 メディアサイトの分析で考慮すること メディアサイトのイシュー メディアサイトの運用の主眼はPV数を増やすことに置かれていることが多い。 それ以外ではユーザ数を増やす、滞在時間を上げる、会員数を増やすなどである。 それを実現するためのサイト内での施策は コンテンツ 何がウケるのか、どんな記事を書いたらいいのか UI 基本的にページ遷移させることに主眼 メニュー等共通パーツ テンプレートごと 記事ごと リンク ページ分割 キャンペーンや広告(タイアップ)の企画 オウンドメディアの場合、将来のコンバージョンにつながるユーザの獲得ということが重要になる。 とはいえメディアである。メディアとしての役割が果たせないとわざわざオウンドメディア施策をやる意味はないので、上記のことは考慮しなければならない。 ページの分類 メディアサイトの構造はどうなっているの…

Continue reading →

webサイトの訪問履歴をCRM的な観点で見る

Webサイトの分類とKPIの方向性 目的のあるサイト 特定分野のポータルサイト、情報サイト(比較サイト、不動産ポータルなど) リードを送る 企業サイト ブランド紹介、理解 実店舗誘導 ECサイト リード獲得型(問合せ、資料請求) キャンペーン、プロモーションサイト 知ってもらう 参加してもらう 会員向けサイト 特定の行動 アクティブ率を高める →目的の達成数がKGIになる。KPIはそれを構成する要素。 基本的には目的達成までのカスタマージャーニー、コンセプトダイアグラムを描き、各ステップの到達数を見ていくのがいい。 目的の種類によってセッション限りで達成する場合と、ある程度のリードタイムをもって達成する場合がある。その場合は訪問間隔や訪問回数などCRM観点も意識する。 目的のない(暇つぶし)サイト 動画 ニュース 2chまとめ キュレーション ソーシャルメディア →訪問者の特定の行動がマネタイズに結びつかない以上、KGIは広告収入が主なものとなる。 KPIは媒体価値を高めるものとしての閲覧系の指標 目的なし(暇つぶし)系のサイトのKPI 目的なし(暇つぶし)系のサイト、メディアサイトのKPIを追う。 訪問者の特定の行動がマネタイズに結びつかない以上、KGIは広告収入が主なものとなる。 KPIは媒体価値を高めるもの 媒体価値というのは基本的に訪問者に対して与える影響度の大きさというこ…

Continue reading →

アクセスログデータの前処理、ユーザIDとセッションの生成、URLの集約

この記事は連載「アクセスログの生ログ分析」の全 5 ページ中 4 ページ目です。

アクセスログデータの前処理 これまでの手順で取り込んだログデータはそのままでは分析に使いにくい。 今後の分析がやりやすいように、ある程度の前処理が必要になる。 ここでは前処理のポイントになるものを列挙する。 分析対象とするリクエスト行の抽出/削除 取り込んだままのログデータに不要な情報が含まれることがある場合、必要に応じてそれらを削除する。アクセスログファイルからのデータ抽出時にフィルタリングしていない場合、ここで削除する。 ボットの抽出/削除 画像の削除 ユニークユーザとセッションの作成 疑似ユニークユーザ セッション 集計単位URLの指定 URLの分割 ダミーパラメータの除外 URLごとのPV数を集計する際、同じページとして扱うURLを集約 分析に必要な変数を追加 デバイス スマートフォン、PC、タブレット 流入元識別 広告、自然検索、直接流入、… リファラを使う 流入元識別用のダミーパラメータを使う(広告のキャンペーンコードなど) その他分類(ページのトピックなど) コンバージョン コンバージョンページへのアクセスをCV完了に ランディングページ セッションの開始ページがランディングページ ページ閲覧時間 このように変数(特徴量)を追加することで、実用的な分析ができるようになる。 ユーザIDが会員情報などと紐付けられていれば、属性ごとの行動も把握できる。 疑似ユニークユーザと…

Continue reading →

アクセスログデータをデータベース(PostgreSQL)に取り込む

この記事は連載「アクセスログの生ログ分析」の全 5 ページ中 3 ページ目です。

セッションやユーザの識別にはSQLiteでは対応していないウィンドウ関数が必要になるし、データのサイズが大きくなるとSQLiteでは不安なところもある。 ということで、データサイズがある程度大きくなっても対応可能で、オープンソースでは珍しくウィンドウ関数など集計・分析機能に優れたPostgreSQLへアクセスログを取り込む方法を解説する。 アクセスログをPostgreSQLに取り込む NCSA拡張形式のログを取り込む 環境の準備(linux) SQLiteと違って環境の準備が必要になる。 PostgreSQLのインストール、initdbが完了している前提で ユーザを作成 $ su postgres $ createuser xxx データベースを作成 ログにはそもそもマルチバイト文字は含まれないので文字コードSQL_ASCIIを強制してデータベースを作成する。 通常initdbで文字コードUTF-8が暗黙のうち指定されるので、新しく作るデータベースの文字コードはデフォルトでUTF-8となる。 データベースの文字コードがUTF-8だとデータの文字列にバックスラッシュを含むときにエスケープシーケンスと勘違いする。 そうなるとバックスラッシュを含むデータをインポート時にエラーを起こして取り込めない。 文字コードSQL_ASCIIを明示してcreatedbし、すべてのデータを非マルチバイト…

Continue reading →

アクセスログファイルからのデータ抽出とCSV化、SQLiteへの取込

この記事は連載「アクセスログの生ログ分析」の全 5 ページ中 2 ページ目です。

さまざまな形式のアクセスログファイルから、 分析集計しやすいようにCSVファイルへの変換、さらには簡易データベースであるSQLiteへの取り込みを解説する。 CSVファイルにする テキスト形式のログファイルを扱いやすいCSVに変換する。 NCSA combined形式 テキストファイルにすればExcelなどの表計算ソフトやPostgreSQLなどのデータベースにも取り込むことができる。自由自在になる。 バーチャルホスト名を含まないNCSA combined logから以下の8項目をタブ区切りテキストで書き出す。 アクセス元のアドレス ユーザー名 日時 ページのパス ステータスコード 送信バイト数 参照元 ブラウザ sed -e ‘s/^\(.*\) .* \(.*\) \[\(.*\)\] “.* \(.*\) .*” \(.*\) \(.*\) “\(.*\)” “\(.*\)”$/\1\t\2\t\3\t\4\t\5\t\6\t\7\t\8/g’ /var/log/httpd/access_log > /tmp/log.csv # オプション`-E`(拡張正規表現対応)を使うと sed -E ‘s/^(.*) .* (.*) \[(.*)\] “.* (.*) .*” (.*) (.*) “(.*)” “(.*)”$/\1\t\2\t\3\t\4\t\5\t\6\t\7\…

Continue reading →

サーバログ型アクセス解析の特徴、ログの構造と取得方法、ユーザID

この記事は連載「アクセスログの生ログ分析」の全 5 ページ中 1 ページ目です。

今では誰もが簡単にアクセス解析をできるようになった。 Googleアナリティクスという無料のツールがあり、そのタグをHTMLファイルに記入することできれいな分析結果の画面が手に入る。有料だがAdobe Analyticsを導入しているサイトも多い。 最近は分析というと、こういったツールの画面を見ることが中心になってしまっている。 ところがそこに出てくるのはGoogleやAdobeによって加工・集計された数字だ。Googlebotなどの検索ロボットのアクセスも除外されてしまう。実は裏側にはログがあって、それを加工・集計して見たいアウトプット(媒体ごと流入数一覧、コンバージョンを生んだランディングページの一覧など・・・)を出しているのである。 今みたいに高度なアクセス解析ツールがなかった昔は直接生ログ解析を行っていた。生ログを加工・集計するソフトがあって、そういったソフトを通じて集計データを見て分析を行っていた。 今ではそんな必要がなくなってきているが、それでも実は生ログを見ないと分からないこともある。 ということで、webサーバのログの取得・加工といった基本的な手順から、集計・分析を通じて、最後生ログを直接読み込まないとできないことにアプローチしていく。 Googlebotの挙動を把握 同時に見られるページ、遷移の分析(アソシエーションルール) セッションをまたいだユーザの動きの分析…

Continue reading →

About Me

Option合同会社 マーケティングテクノロジスト 柳井 隆道 フリーランス(一人会社)で事業会社、広告代理店などのデジタルマーケティングの支援に従事。特に「テクノロジーやデータの力を使ってマーケティング活動を強化するお手伝い」に注力している。 データ計測の設計、実装から分析、時にはマーケティングオートメーションや広告運用などの施策との連携まで扱う。 アクセス解析に限らず、時には実店舗の顧客データベースからのデータ抽出や分析なども行う。GoogleアナリティクスもAdobe Analyticsも扱い、RやPythonやSQLを書いたりもする。 実際の仕事はクライアント企業に常駐して行うことも多く、時間をともにして並走しながら進める形が多い。

Continue reading →