Crux в BigQuery

Узнайте, как структурируются данные CrUX в BigQuery.

Введение

Необработанные данные отчета Chrome UX Report (CrUX) доступны в BigQuery , базе данных, размещенной в Google Cloud.

CrUX на BigQuery позволяет пользователям напрямую запрашивать полный набор данных, начиная с 2017 года, например, для анализа тенденций, сравнения веб-технологий и сравнения доменов.

Данные структурированы по ежемесячному выпуску, а также по ряду сводных таблиц, обеспечива��щих простой доступ для запроса данных.

Данные BigQuery являются основой CrUX Dashboard , которая позволяет визуализировать эти данные без написания SQL-запросов.

Доступ к набору данных

Для использования BigQuery требуется учетная запись Google Cloud и базовые знания SQL. Доступ к набору данных CrUX в BigQuery можно получить бесплатно и исследовать его в пределах уровня бесплатного пользования , который обновляется ежемесячно и предоставляется BigQuery. Кроме того, новые пользователи Google Cloud могут иметь право на регистрационный кредит для покрытия расходов, выходящих за рамки бесплатного уровня. Обратите внимание, что для проекта Google Cloud необходимо предоставить кредитную карту. См. раздел «Зачем мне предоставлять кредитную карту?». .

Если вы впервые используете BigQuery, выполните следующие действия для настройки проекта:

  1. Перейдите к «Создать проект» в консоли Google Cloud .
  2. Дайте новому проекту имя, например «Мой отчет Chrome UX», и нажмите «Создать».
  3. Предоставьте свою платежную информацию, если будет предложено.
  4. Перейдите к набору данных CrUX в BigQuery.

Теперь вы готовы начать запрашивать набор данных.

Организация проекта

Данные CruUX по BigQuery публикуются во второй вторник следующего месяца. Каждый месяц выпускается в виде новой таблицы в chrome-ux-report.all . Также имеется ряд материализованных таблиц, в которых представлена ​​сводная статистика за каждый месяц.

Подробная схема таблицы

Необработанные таблицы для каждой страны и all набор данных представлены по годам и месяцам.

Необработанные таблицы

Необработанные таблицы имеют следующую схему:

  • origin
  • effective_connection_type
  • form_factor
  • first_paint
  • first_contentful_paint
  • largest_contentful_paint
  • dom_content_loaded
  • onload
  • layout_instability
    • cumulative_layout_shift
  • interaction_to_next_paint
  • navigation_types
    • navigate
    • navigate_cache
    • reload
    • restore
    • back_forward
    • back_forward_cache
    • prerender
  • experimental
    • permission
      • notifications
    • time_to_first_byte
    • popularity

Схема материализованной таблицы

Материализованные таблицы предназначены для облегчения доступа к сводным данным по ряду ключевых измерений. Гистограммы не предоставляются, вместо этого данные о производительности агрегируются по фракциям по оценке производительности и значению 75-го процентиля. В этом примере показан набор примерных строк из таблицы metrics_summary :

ггггмм источник fast_lcp avg_lcp медленный_lcp p75_lcp
202204 https://example.com 0,9056 0,0635 0,0301 1600
202203 https://example.com 0,9209 0,052 0,0274 1400
202202 https://example.com 0,9169 0,0545 0,0284 1500
202201 https://example.com 0,9072 0,0626 0,0298 1500

Это показывает, что в наборе данных 202204 90,56% реальных действий пользователей на https://example.com соответствовали критериям хорошего LCP и что грубое значение LCP для 75-го процентиля составляло 1600 мс. Это немного медленнее, чем в предыдущие месяцы.

Предоставляются четыре материализованные таблицы:

metrics_summary
ключевые показатели по месяцам и странам происхождения
device_summary
ключевые показатели по месяцу, происхождению и типу устройства
country_summary
ключевые показатели по месяцу, происхождению, типу устройства и стране
origin_summary
список всех источников, включенных в набор данных

metrics_summary

Таблица metrics_summary содержит сводную статистику для каждого источника и каждого ежемесячного набора данных:

yyyymm
Месяц периода сбора данных
origin
URL источника сайта
rank
Приблизительный рейтинг популярности (по состоянию на март 2021 г. )
[small|medium|large]_cls
доля трафика по порогам CLS
[fast|avg|slow]_<metric>
доля трафика по пороговым значениям производительности
p75_<metric>
Значение 75-го процентиля показателей производительности (миллисекунды)
notification_permission_[accept|deny|ignore|dismiss]
часть поведения разрешений на уведомления
[desktop|phone|tablet]Density
доля трафика по форм-фактору
[_4G|_3G|_2G|slow2G|offline]Density
доля трафика по эффективно��у типу ��ое��ин��ния
navigation_type_[navigate|navigate_cache|reload|restore|back_forward|back_forward_cache|prerender]
доля типов навигации

device_summary

Таблица device_summary содержит агрегированную статистику по месяцу, происхождению, стране и устройству. Помимо столбцов metrics_summary есть:

device
Форм-фактор устройства

country_summary

Таблица country_summary содержит агрегированную статистику по месяцам, странам происхождения, странам и устройствам. Помимо столбцов metrics_summary есть:

country_code
Двухбуквенный код страны
device
Форм-фактор устройства

origin_summary

Таблица origin_summary содержит список всех источников в наборе данных CrUX; он обновляется ежемесячно последним списком источников в наборе данных и имеет один столбец: origin .

Экспериментальный набор данных

Таблицы в экспериментальном наборе данных представляют собой точные копии таблиц YYYYMM по умолчанию, но в них используются более новые и продвинутые функции BigQuery, такие как секционирование и кластеризация , которые позволяют писать запросы быстрее, проще и дешевле.

country

Набор данных experimental.country содержит агрегированные данные из наборов данных country_CC с дополнительным столбцом yyyymm для даты набора данных. Схема идентична необработанным таблицам с добавлением столбцов date и country_code , что позволяет выполнять запросы сравнения на уровне страны во времени без объединения ежемесячных таблиц.

global

Набор данных experimental.global содержит агрегированные данные из all набора данных с дополнительным столбцом yyyymm для даты набора данных. Схема идентична необработанным таблицам с добавлением даты, что позволяет выполнять запросы сравнения во времени без объединения ежемесячных таблиц.