目次
2種類のBigQueryエクスポート
GA4ではユニバーサルアナリティクスと異なり、無料版でもBigQueryエクスポートを使えるようになったのが大きな変化である。
このBigQueryエクスポートについて、Googleのヘルプページでは以下の記述がある。
1日1回、すべてのデータのエクスポートが行われます。さらに、データのエクスポートは1日を通して継続的に実行されます(詳しくは下記の「ストリーミング エクスポート」をご覧ください)。
https://support.google.com/analytics/answer/9358801
- 1日1回、すべてのデータのエクスポート
- データのエクスポートは1日を通して継続的に実行されます
2種類のエクスポートがある。
これらは設定画面の「頻度」に対応している。
前者は1日1回、前日のデータを全部処理(再計算)して出力されるデータ。
後者はニアリアルタイムで処理して出力されるデータである。
ニアリアルタイムデータでは重複や欠損の行が一部含まれる可能性があるのと、流入元アトリビューション処理ができておらず、traffic_source.***
列が一部欠損している。
このテーブルには、その日に発生したセッション アクティビティのレコードが保持されます。ストリーミング エクスポートはベスト エフォート型の処理であり、イベントの遅れやアップロードの失敗などにより、データに漏れが生じる場合もあります。データは 1 日を通して継続的にエクスポートされます。セッションが複数のエクスポート周期にまたがっていると、テーブルにはそのセッションのレコードが複数保存されることがあります。
BigQuery のストリーミング エクスポートには、新規ユーザーについては次のユーザー アトリビューション データは含まれません。
traffic_source.name(レポート ディメンション: ユーザーのキャンペーン)
traffic_source.source(レポート ディメンション: ユーザーの参照元)
traffic_source.medium(レポート ディメンション: ユーザーのメディア)
1日1回の再計算の中ではこれらを処理し、より正確なデータを生成しなおす。
より正確なデータ、Googleのアトリビューションと同じロジックのtraffic_source.***
の情報が欲しければ1日1回のエクスポートを使うのが望ましいということになるが、実際にはリアルタイムのデータだけで意思決定に十分なデータが入手できると考えていい。それよりJavaScriptの発火タイミングなどによる欠測の頻度の方がはるかに高い。
BigQueryエクスポート設定のパターンと出力されるテーブル
BiqQueryエクスポート設定では2個のチェックボックスがあった。2個のいずれかを選択するのではなく、それぞれチェックを入れる形式である。つまり以下の3パターンの出力設定がある。
- ニアリアルタイムのデータのみ
- 1日1回再計算データのみ
- ニアリアルタイム+1日1回再計算
それぞれについて生成されるテーブル名を見ていく。
まずデータセット名はいずれもanalytics_計測ID
となる
ニアリアルタイムデータのみ
生成されるテーブル名
events_intraday_YYYYMMDD
(YYYYMMDD
の部分は毎日の日付が入る)
(例)
- 2022年3月1日の日中は
events_intraday_20220301
: 2022年3月1日のリアルタイムデータ
- 2022年3月2日の日中は
events_intraday_20220301
: 2022年3月1日の全データ(不完全かも)events_intraday_20220302
: 2022年3月2日のリアルタイムデータ
- 2022年3月3日の日中は
events_intraday_20220301
: 2022年3月1日の全データ(不完全かも)events_intraday_20220302
: 2022年3月2日の全データ(不完全かも)events_intraday_20220303
: 2022年3月3日のリアルタイムデータ
というテーブルが存在することになる。
1日1回再計算データのみ
生成されるテーブル名
events_YYYYMMDD
(例)
- 2022年3月1日の日中はテーブルなし
- 2022年3月2日の日中は
events_20220301
: 2022年3月1日の全データ(完全)
- 2022年3月3日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_20220302
: 2022年3月2日の全データ(完全)
というテーブルが存在することになる。
ニアリアルタイム+1日1回再計算
生成されるテーブル
- 当日→
events_intraday_YYYYMMDD
- 前日まで→
events_YYYYMMDD
(例)
- 2022年3月1日の日中は
events_intraday_20220301
: 2022年3月1日のリアルタイムデータ
- 2022年3月2日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_intraday_20220302
: 2022年3月2日のリアルタイムデータ
- 2022年3月3日の日中は
events_20220301
: 2022年3月1日の全データ(完全)events_20220302
: 2022年3月2日の全データ(完全)events_intraday_20220303
: 2022年3月3日のリアルタイムデータ
というテーブルが存在することになる。
前日までのリアルタイムデータが消去されている。
無料版と有料版の違い
GA4の無料版と有料版とで機能にいくつか違いはあるが、BigQueryエクスポートに関わるところでは以下の2点が挙げられる。
- 1イベントで送れるカスタムパラメータが25個まで
- 無料版では1日のエクスポートが100万イベント(行)まで
https://support.google.com/analytics/answer/9826983
1は以前はカスタムパラメータ数は無制限でカスタムディメンションとして設定できるものが25個だったが、2021年を通じて計測できるパラメータ数自体が減少した。以下はとあるプロパティでページビューに対して計測できた(BigQueryにエクスポートできた)ユニークなカスタムパラメータ数の履歴である。
2020年の12月には設定したすべてのパラメータを計測できていたが、2021年は年間を通じて50個となり、2022年に最終的に32個になった。デフォルトで計測されるパラメータ7個に加えて25個だけが記録されるようになったのである。
後者は上で説明した1日1回の再計算エクスポートである。ニアリアルタイムのエクスポートについては無料版・有料版ともに制限はない。
有料版を検討する一つの材料としてどうぞ
※筆者が自分で調査したものであり、GA360のサポートとは関係ない情報です
アクセス解析 の記事一覧