GA4無料版と有料版のBigQueryエクスポートの違い

2種類のBigQueryエクスポート

GA4ではユニバーサルアナリティクスと異なり、無料版でもBigQueryエクスポートを使えるようになったのが大きな変化である。
このBigQueryエクスポートについて、Googleのヘルプページでは以下の記述がある。

1日1回、すべてのデータのエクスポートが行われます。さらに、データのエクスポートは1日を通して継続的に実行されます(詳しくは下記の「ストリーミング エクスポート」をご覧ください)。

https://support.google.com/analytics/answer/9358801

  • 1日1回、すべてのデータのエクスポート
  • データのエクスポートは1日を通して継続的に実行されます

2種類のエクスポートがある。
これらは設定画面の「頻度」に対応している。

前者は1日1回、前日のデータを全部処理(再計算)して出力されるデータ。
後者はニアリアルタイムで処理して出力されるデータである。

ニアリアルタイムデータでは重複や欠損の行が一部含まれる可能性があるのと、流入元アトリビューション処理ができておらず、traffic_source.***列が一部欠損している

このテーブルには、その日に発生したセッション アクティビティのレコードが保持されます。ストリーミング エクスポートはベスト エフォート型の処理であり、イベントの遅れやアップロードの失敗などにより、データに漏れが生じる場合もあります。データは 1 日を通して継続的にエクスポートされます。セッションが複数のエクスポート周期にまたがっていると、テーブルにはそのセッションのレコードが複数保存されることがあります。

BigQuery のストリーミング エクスポートには、新規ユーザーについては次のユーザー アトリビューション データは含まれません。

traffic_source.name(レポート ディメンション: ユーザーのキャンペーン)
traffic_source.source(レポート ディメンション: ユーザーの参照元)
traffic_source.medium(レポート ディメンション: ユーザーのメディア)

1日1回の再計算の中ではこれらを処理し、より正確なデータを生成しなおす。
より正確なデータ、Googleのアトリビューションと同じロジックのtraffic_source.***の情報が欲しければ1日1回のエクスポートを使うのが望ましいということになるが、実際にはリアルタイムのデータだけで意思決定に十分なデータが入手できると考えていい。それよりJavaScriptの発火タイミングなどによる欠測の頻度の方がはるかに高い

BigQueryエクスポート設定のパターンと出力されるテーブル

BiqQueryエクスポート設定では2個のチェックボックスがあった。2個のいずれかを選択するのではなく、それぞれチェックを入れる形式である。つまり以下の3パターンの出力設定がある。

  • ニアリアルタイムのデータのみ
  • 1日1回再計算データのみ
  • ニアリアルタイム+1日1回再計算

それぞれについて生成されるテーブル名を見ていく。

まずデータセット名はいずれもanalytics_計測IDとなる

ニアリアルタイムデータのみ

生成されるテーブル名

  • events_intraday_YYYYMMDD

YYYYMMDDの部分は毎日の日付が入る)

(例)

  • 2022年3月1日の日中は
    • events_intraday_20220301: 2022年3月1日のリアルタイムデータ
  • 2022年3月2日の日中は
    • events_intraday_20220301: 2022年3月1日の全データ(不完全かも)
    • events_intraday_20220302: 2022年3月2日のリアルタイムデータ
  • 2022年3月3日の日中は
    • events_intraday_20220301: 2022年3月1日の全データ(不完全かも)
    • events_intraday_20220302: 2022年3月2日の全データ(不完全かも)
    • events_intraday_20220303: 2022年3月3日のリアルタイムデータ

というテーブルが存在することになる。

1日1回再計算データのみ

生成されるテーブル名

  • events_YYYYMMDD

(例)

  • 2022年3月1日の日中はテーブルなし
  • 2022年3月2日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
  • 2022年3月3日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_20220302: 2022年3月2日の全データ(完全)

というテーブルが存在することになる。

ニアリアルタイム+1日1回再計算

生成されるテーブル

  • 当日→events_intraday_YYYYMMDD
  • 前日まで→events_YYYYMMDD

(例)

  • 2022年3月1日の日中は
    • events_intraday_20220301: 2022年3月1日のリアルタイムデータ
  • 2022年3月2日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_intraday_20220302: 2022年3月2日のリアルタイムデータ
  • 2022年3月3日の日中は
    • events_20220301: 2022年3月1日の全データ(完全)
    • events_20220302: 2022年3月2日の全データ(完全)
    • events_intraday_20220303: 2022年3月3日のリアルタイムデータ

というテーブルが存在することになる。
前日までのリアルタイムデータが消去されている。

無料版と有料版の違い

GA4の無料版と有料版とで機能にいくつか違いはあるが、BigQueryエクスポートに関わるところでは以下の2点が挙げられる。

  • 1イベントで送れるカスタムパラメータが25個まで
  • 無料版では1日のエクスポートが100万イベント(行)まで

https://support.google.com/analytics/answer/9826983

1は以前はカスタムパラメータ数は無制限でカスタムディメンションとして設定できるものが25個だったが、2021年を通じて計測できるパラメータ数自体が減少した。以下はとあるプロパティでページビューに対して計測できた(BigQueryにエクスポートできた)ユニークなカスタムパラメータ数の履歴である。

2020年の12月には設定したすべてのパラメータを計測できていたが、2021年は年間を通じて50個となり、2022年に最終的に32個になった。デフォルトで計測されるパラメータ7個に加えて25個だけが記録されるようになったのである。

後者は上で説明した1日1回の再計算エクスポートである。ニアリアルタイムのエクスポートについては無料版・有料版ともに制限はない。
有料版を検討する一つの材料としてどうぞ

※筆者が自分で調査したものであり、GA360のサポートとは関係ない情報です

アクセス解析 の記事一覧