Googleアナリティクスのサンプリングにご注意!事象と原因、対処法とは
Googleアナリティクスでは膨大なデータ量を取り扱うことができます。
しかし、あまりに膨大な量だとデータを処理するのにも時間がかかりますし、時間がかかる分、「遅いなぁ…」とイライラしてしまう事もあるかと思います。
それを避けるために、Googleアナリティクスには「サンプリング」というものがあります。
これは膨大なデータを処理するにあたり、ストレスなくレポートを表示するためのものなのですが、サンプリングに関しての知識がないと大変なことになる場合もあります。
そこで今回は、Googleアナリティクスの「サンプリング」について、その事象とサンプリングが起こる原因、そして対処法についてを紹介していきます。
特に、大規模なサイトや、長期間でデータを見ることが多い人は知っておくべき知識ですので、この記事を参考にしてみてください。
サンプリングとは?
Googleアナリティクスにおける「サンプリング」とは膨大な量のデータから一部を取り出し、そのデータを基に統計学的に抽出する機能の事です。
Googleアナリティクスのヘルプにわかりやすい表現がありますので紹介します。
たとえば、100 エーカーの範囲に自生している木の本数を推定する場合、木の分布が均一であれば、1 エーカーの本数を数えて 100 を掛けるか、0.5 エーカーの本数を数えて 200 を掛ければ、全体の本数を的確に予測することができます。
引用:データのサンプリングについて-Googleアナリティクスヘルプ
また、サンプリングがかかっている場合は、以下の画像のようにレポート画面の「盾」の色に変化があり、黄色になっている場合はサンプリングがかかっています。
冒頭でも少しお伝えしましたが、Googleアナリティクスでは膨大な量のデータを蓄積、閲覧することができますが、デフォルトのレポートにない指標(アドバンスセグメントやセカンダリディメンション等)を指定した場合、新たに計算し直すため処理に時間がかかります。
膨大なデータを処理する時間が、ユーザーにとってストレスになってしまう可能性があるため、Googleアナリティクスではサンプリングという手法を用いて、ユーザーのストレスを無くし、レポートを表示するようにしています。
ただし、サンプリングがかかる場合、一部の数値を基に算出されるため、実際の数値と比べ誤差が生じる場合があります。
次に、実際にサンプリングがかかってしまう条件をご紹介します。
サンプリングがかかる条件
以下に当てはまる場合、Googleアナリティクスではサンプリングがかかってしまいます。
- Googleアナリティクス:選択した期間でプロパティ単位のセッションが50万件以上
- Googleアナリティクス360:選択した期間でビュー単位のセッション数が1億件以上
ただし、上記だけではサンプリングはかからず、上記に加えデフォルトレポートにはないフィルタやセグメント、セカンダリディメンションを適用したアドホックレポートを使用するとサンプリングが発生します。
また、サンプリングがかかった場合、以下の2つのオプションを選択することができます。
- 精度優先
- 速度優先
このオプションに関しては文字通り、サンプリングの精度を優先するか、データの抽出速度を優先するかの違いになります。
精度優先: サンプル数を最大にして、完全なデータセットのサンプルとして最も精度が高いデータが使用されるようにします。
速度優先: サンプル数を減らし、データの抽出が迅速に行われるようにします。
引用:データのサンプリングについて-Googleアナリティクスヘルプ
以上が、サンプリングがかかる条件になります。
サンプリングの注意点
サンプリングがかかったデータを見る際は、以下のような注意点があります。
- 実数値との誤差がある
- スプレッドシートと連携していてもサンプリングがかかる
一つずつご紹介していきます。
実数値と誤差がある
サンプリングがかかってしまうと、実数値と誤差が生じてしまうことがあります。
これは僕が実際に経験した例ですが、とあるECサイトのデータを見ていた時に、実数値とサンプリングでは、収益の傾向が逆転しているという事がありました。
収益自体をGoogleアナリティクスの数値で報告することはありませんが、収益の傾向や速報値として見ていることがありました。
そしてこれはECサイトの特徴かもしれませんが、例えば新商品の発売やセール期間など、一時的に売り上げが伸びる場合があります。
それに対し、サンプリングで抽出した部分の数値が売れている日であれば、その数値を基にした場合、誤差が大きくなってしまいます。
これにより、毎月のレポートでは今年の10月の方が売れていなかったのに対し、サンプリングした数値では今年の方が売れているという結果になっていたことがありました。
例えば、大規模サイトなどを取り扱う場合、昨年よりも売れているのか、売れていないのかで動き方が変わってくる事も考えられます。
その為、サンプリングされている場合は誤差があることを認識し、あくまで参考数値として扱うのが良いでしょう。
スプレッドシートと連携していてもサンプリングがかかる
別の記事でご紹介しているスプレッドシートを用いたレポートの集計方法でも、サンプリングがかかることがあります。
例えば、スプレッドシートで数値を自動で更新できるように設定しても、数値を持ってくるためのレポートでサンプリングがかかっていた場合、スプレッドシート上でもサンプリングがかかった数値が表示されます。
一つの例を出すと、スプレッドシートを作成した時点ではサンプリングがかかっておらず、そのままスプレッドシートで運用し続けたとします。
月日が過ぎ、データが溜まっていった結果、自動的にGoogleアナリティクスの方でサンプリングがかかってしまい、その結果スプレッドシートの方でもサンプリングがかかった数値が反映されてしまいます。
スプレッドシートのアドオンで数値を更新する場合、更新するたびに現状の数値に上書きされていきます。
その為、サンプリングがかかる前の数値が上書きされてしまい、以前のデータが全てサンプリング後の数値に置き換えられてしまう可能性もありますので、注意が必要です。
サンプリングの対処法
サンプリングされたレポートをなるべく出さないようにする対処法としては期間を短くしてレポートを出力するという方法があります。
つまり、長期間のレポートを一気にまとめるのではなく、例えば月ごと等、期間を細かくしまとめていくことで、サンプリングを回避することができます。
通常のGoogleアナリティクスであれば、プロパティ単位でセッション数が50万件を超えなければサンプリングがかかることはないため、期間を細かくし、サンプリングがかかっていないデータを繋ぎ合わせる方法です。
これは少し手間のかかる作業ではありますが、サンプリングがかかっていないデータを繋ぎ合わせることで実数値のデータを作ることができます。
例えば、必要な指標をExcel等にダウンロードし、期間を変更した後、またダウンロードし、と繰り返していく作業になってしまいますが、スプレッドシートなどでもう少し効率的に行う事も可能です。
まとめ
今回この記事でご紹介したことをまとめると以下のようになります。
- サンプリングが発生する場合の条件がある
- サンプリングがかかると実数値と誤差が生じるため注意が必要である
- 実数値でのデータをまとめる場合は少し工夫が必要
サンプリング自体は、一部の実数値を基に作成されるため、よほどのことがない限り、大きな誤差はないでしょう。
しかし、私が経験したように、特にECサイトではその少しの誤差が致命的になってしまうケースもあります。
そのため、サンプリングがかかっている数値を見る場合は、参考程度にしておき、実際に実数値とどのくらいの乖離があるのかを知っておいた方が良いでしょう。