ポストサードパーティcookie時代のソリューションとプライバシー

Googleは2024年中のChromeのサードパーティcookie廃止に向けて動いている。AppleはすでにITPによってサードパーティcookieはデフォルトで使えなくなっているということで、2024年をもってほぼすべてのウェブブラウザでサードパーティcookieが無効化されることになる。 そんな中さまざまな自称「ポストcookie」「cookieレス」ソリューションが出てきているのだが、それらはどれも完全にサードパーティcookieを代替するわけではなく、これまでサードパーティcookieが担ってきた役割を部分的に違う方法で実現しようとしているものにすぎない。ここではソリューションの種類…

続きを読む →

GA4探索レポートのディメンションと指標名の英日対訳表

GA4の探索レポートにおけるディメンションと指標名の英語(オリジナル)と日本語の画面で表示される訳語の比較表。中には怪しい訳があるので、オリジナルの単語の意味に照らし合わせて扱ったほうがいいものもある。 ディメンション Dimension name ディメンション名 スコープ Attribution アトリビューション Campaign キャンペーン イベント Campaign ID キャンペーン ID イベント Default channel grouping デフォルト チャネル グループ イベント Google Ads account name Google 広告のアカウント名 イベント…

続きを読む →

機械学習用のLinuxインスタンスの環境構築(GCEやEC2などクラウド)

最近では機械学習の計算のためにLinuxマシンを構築しては消し、を繰り返すことが多い。サーバの構築と消去が柔軟に可能なことからもEC2やGCEなどクラウドのインスタンスをよく使うということも影響している。 この記事では一般的なサーバ構築の記事では紹介されていない、クラウドのインスタンスで意外と盲点になる点を中心に、機械学習の計算用サーバとして安定した運用をするために最低限必要な設定をまとめた。 Linuxで最初にやっておくべき設定 Amazon EC2やGoogle Compute Engingなどのクラウドインスタンスのデフォルトの設定では不都合があるため、設定を追加する必要がある。 スワッ…

続きを読む →

GA4無料版と有料版のBigQueryエクスポートの違い

2種類のBigQueryエクスポート GA4ではユニバーサルアナリティクスと異なり、無料版でもBigQueryエクスポートを使えるようになったのが大きな変化である。 このBigQueryエクスポートについて、Googleのヘルプページでは以下の記述がある。 1日1回、すべてのデータのエクスポートが行われます。さらに、データのエクスポートは1日を通して継続的に実行されます(詳しくは下記の「ストリーミング エクスポート」をご覧ください)。 https://support.google.com/analytics/answer/9358801 1日1回、すべてのデータのエクスポート データのエクスポ…

続きを読む →

GA4/Firebaseのログをフラット化する汎用クエリ

GA4(Firebase)のログを扱う際、ネストされているイベントパラメータやユーザープロパティをフラット化しないと使いにくい。ところが格納されているパラメータやプロパティは決まっているわけではないため、通常はそれをハードコーディングで指定することが多い。つまり使用しているパラメータやプロパティに応じてその都度クエリを手動作成することになる。 しかしそれでは面倒なので、どんなイベントパラメータやユーザープロパティを使っていても、それがどんな型であっても、オールマイティにフラット化するクエリを作る。存在するパラメータやプロパティに基づいて動的にクエリを作って実行する。このクエリひとつあればどんな…

続きを読む →

GCPのIAMポリシー

GCPのIAMポリシー(権限設定) GCPにおける階層と言葉の定義 組織 (フォルダ) プロジェクト 各種リソース Cloud Storage BigQuery Compute Engine : プロジェクトとリソースを中心に考える。 フォルダや組織はプロジェクトを便宜的に束ねるもの。フォルダや組織は設定しなくてもいい →後述するが、組織/プロジェクト/リソース単位で権限設定ができる アカウント アカウントには2種類 ユーザーアカウント Googleのログイン画面からログインできるアカウント 人間ユーザ。異動や退職とともにアカウントがなくなるケースも想定する必要がある 一部のGoogleアカウ…

続きを読む →

Rにおける代表的な一般化線形モデル(GLM)の実装ライブラリまとめ

一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … …

続きを読む →

Googleアナリティクス4のBigQueryエクスポート仕様

GA4のBigQueryエクスポートの仕様とデータの扱い方を説明する。GA4のログはネストされたレコードなど特殊な形式になっており、そのままでは扱いにくいのでいくつかテクニックがある。 BigQueryへのエクスポート設定 GA4の管理画面で設定するが、手順はこちらの記事を参照。 テーブルの場所 GA4のBigQueryエクスポート設定で指定したプロジェクト データセット「analytics_999999999」(「999999999」の部分はプロパティID) テーブル名 前日までのデータ(日付別に)「events_20210101」 「20210101」の部分は日付 今日のデータ、前日未集計…

続きを読む →

高度な計測に使えるGTMの黒魔術とタグアシスタントの裏技

マニュアルには書いていないGTMとGoogleアナリティクスの高度な使い方。とりあえず設定しておくと便利な変数やトリガーの使い方に加え、データレイヤーを徹底的に使いこなす。さらには計測だけでなく検証の手間を大幅に省くタグアシスタントの裏技を紹介する。最後にGTMを使ったGoogleアナリティクスの高度なcustomTaskや推奨カスタムディメンションも触れる。 GTM設定の黒魔術 便利な変数 ページビューID ページビュー固有のID 一度ページを読み込んでから、次に読み込むまでの間で保持されるID そのIDをさまざまなツールに送ればそれをキーにデータ連携できる。 ツールA,B,Cの間でIDを連…

続きを読む →

BigQueryでGA4/Firebaseのログを使って機械学習

使うデータセット Firebaseのパブリックデータが以下にあるのでこれを使う。 firebase-public-project.analytics_153293282.events_* 0612~1003の114日分のデータ 基本集計(EDA) イベントの数の種類別カウント select event_name, count(0) from `firebase-public-project.analytics_153293282.events_20181003` group by 1 order by 2 desc; スクリーンビューのスクリーン別カウント select (select ep….

続きを読む →