Статистическая значимость

23 219
Оглавление

Чтобы эффективно внедрять изменения, недостаточно опираться только на итоги А/В-тестирований. Они могут показывать случайные результаты, которые не соответствуют действительности. Чтобы исключить вероятность ошибки, маркетологи учитывают важный показатель — статистическую значимость.

Рассказываем, как правильно рассчитать его в маркетинговых исследованиях, что такое уровень значимости, и какие проблемы могут возникнуть при использовании метода.

Что такое статистическая значимость

Статистическая значимость — количественный показатель того, что результаты исследования не случайны и могут быть признаны достоверными. Его часто применяют в маркетинге, когда важно убедиться в чистоте эксперимента и понять, насколько можно доверять результатам исследования.

Обязательно завершайте А/В-тестирование рекламных объявлений, посадочных страниц и других объектов проверкой статистической значимости и только после этого переходите к их внедрению.

Другими словами, при изменении маркетинговой стратегии этот метод позволяет оценить возможные результаты не интуитивно, а провести объективное исследование, отталкиваясь от конкретных целей.

Виды гипотез

Метод применяют, когда предстоит проверить гипотезу — предположение о том, как на самом деле будет работать изменение.

Например, у компании упала конверсия рекламного баннера, который еще месяц назад показывал хорошие результаты. Маркетолог убежден, что это связано с креативом — он устарел и больше не привлекает внимание целевой аудитории.

В этом случае гипотеза маркетолога звучит так: «Замена рекламного креатива поможет повысить конверсию баннера и увеличить продажи продукта». Однако одной догадки недостаточно, поэтому необходимо провести А/В-тестирование и определить действительную статистическую значимость.

Основные виды гипотез:

  • Нулевая гипотеза (Н0). Теория о том, что между наблюдаемыми событиями нет связи. Такую гипотезу принимают по умолчанию и считают верной, пока не докажут обратное.


В случае с маркетологом, который предлагает заменить рекламный креатив, нулевой гипотезой станет теория, что обновление не приведет к росту конверсии рекламного баннера.

  • Альтернативная гипотеза (Н1). Догадка, которую принимают как факт при опровержении нулевой гипотезы. Другими словами, альтернативная (экспериментальная) гипотеза — это то, что мы хотим доказать. 


Возвращаясь к примеру с рекламным креативом, альтернативной гипотезой станет предположение маркетолога, что его изменение поможет повысить конверсию баннера и увеличить продажи.

Критерии

Для обоснования гипотез применяют метод статистической проверки, основанный на распределении Стьюдента — t-критерий Стьюдента. Его используют, чтобы сравнить усредненные показатели двух гипотез и на основе полученных результатов сделать вывод, чем они отличаются друг от друга в статистическом отношении.

Критерии значимости для проверки двусторонних гипотез называют двусторонними, а для анализа односторонних гипотез — соответственно, односторонними.

Как оценить статистическую значимость

Приведем пошаговую инструкцию по оценке значимости в маркетинге:

  • Определите гипотезы. Выберите вопрос, на который необходимо получить ответ, а затем сформулируйте нулевую (Н0) и альтернативную (Н1) гипотезы.

Помните, что нулевая гипотеза — предположение, которое предстоит опровергнуть, а альтернативная — догадка, которую нужно подтвердить.

  • Установите уровень значимости (α-уровень). Теперь важно рассчитать, насколько данные должны отличаться от обычных показателей, чтобы их можно было принимать за значимый результат.

Значимость задает специалист, который проверяет догадку. Обычно используют значения 0,01 (1%) или 0,05 (5%).

Со значимостью тесно связан уровень доверия (p-уровень), который показывает вероятность принятия верной гипотезы. Чем выше уровень значимости (и, соответственно, ниже уровень доверия), тем точнее итоги проведенного исследования.

Для проверки большей части теорий достаточно принимать за значимость 0,05 (5%), а уровень доверия понижать до 0,01 (1%).

  • Выберите критерий. Определите, какой t-критерий Стьюдента применять в расчетах — односторонний или двусторонний. Выбор зависит от поставленной цели.

Если до теста вы допускаете, что различие гипотез может оказаться как положительным, так и отрицательным, применяйте двусторонний критерий. Если вы опираетесь на дополнительные источники (например на результаты предыдущих исследований), воспользуйтесь односторонним критерием.

В маркетинговых тестах обычно используют односторонний критерий, потому что он позволяет получить более точные результаты.

  • Рассчитайте объем выборки. Для этого нужна статистическая мощность (β) — вероятность отклонения нулевой гипотезы, если альтернативная гипотеза верна. Чем выше этот показатель, тем ниже риск совершения ошибки второго рода — принятия нулевой гипотезы при том, что она ложная.

Распространенный предел мощности — 80%.

  • Определите стандартное отклонение (s). Вычислите, насколько велик разброс данных. Для расчета стандартного отклонения (s) используйте формулу ниже.

, где:

  • ∑ — означает, что показатели необходимо суммировать;

  • xi — равен отдельному полученному показателю (значению i); 

  • µ — отражает среднее значение для группы;

  • N — показывает общее число данных.


Расшифровка формулы:

  • разделите сумму всех значений признака на объем выборки, чтобы получить среднее арифметическое (xi);

  • отнимите полученное среднее значение от каждого элемента выборки (xi – µ);

  • возведите в квадрат все полученные разницы ((xi – µ)2);

  • суммируйте квадраты (∑);

  • разделите полученную сумму на число элементов в выборке (N – 1);

  • извлеките квадратный корень из частного (√).


  • Рассчитайте статистическую значимость. Определите возможный разброс между двумя группами данных (sd) по формуле.

, где:

  • s1 — стандартное отклонение в группе 1;

  • N1 — объем выборки в группе 1;

  • s2 — стандартное отклонение в группе 2;

  • N2 — объем выборки в группе 2.


Далее найдите t-оценку по формуле, представленной ниже.

, где:

  • µ1 — среднее значение для группы 1;

  • µ2 — среднее значение для группы 2;

  • sd — разброс между обеими выборками.


За µ1 принимайте большее среднее значение, иначе t-оценка будет отрицательной.

Теперь рассчитайте степень свободы полученной выборки. При t-оценке степень свободы устанавливается по объему выборки, поэтому суммируйте объемы двух выборок и вычтите из полученного значения 2.

После расчетов оцените значимость по таблице значений критерия Стьюдента. Найдите раздел с полученной степенью свободы и посмотрите соответствующее значение. Если оно попадает в уровень значимости 0,01% или 0,05% (в зависимости от выбранного показателя), значит — ваши рассчеты статистически значимые. Вы доказали альтернативную гипотезу. 

Возможные проблемы

Определение статистической значимости — базовый инструмент в маркетинге, который применяют при A/B-тестах. Однако его использование может вызывать следующие проблемы:

  • Сомнительная достоверность исследования. Предметы A/B-тестирования — переменные данные, поэтому бывает невозможно предугадать, почему клиент выбрал один из двух рекламных креативов. Например, он мог кликнуть на креатив как из-за его оригинального оформления, так и случайно.

  • Отсутствие объяснений. Результаты исследования позволяют получить статистические данные, но не дают выяснить, почему произошло именно так, а не иначе. Иначе говоря, установить причину, почему целевой клиент выбрал определенный рекламный креатив.

  • Завышенные ожидания от альтернативной гипотезы. В долгосрочной перспективе ее использование может оказаться не таким удачным, как во время тестирования. Возможны ситуации, когда альтернативная гипотеза не была объективно лучше, а просто оказалась более выигрышной.

  • Завершение A/B-тестирования, как только одна из вариаций начинает заметно «побеждать». Это может привести к false-positive — получению ложноположительного результата, даже если на этом этапе его оценивают как статистически значимый.

Примеры использования

Статистическая значимость позволяет отличать иллюзорные результаты от реальных и внедрять полезные изменения. Смысл инструмента заключается в том, чтобы определить, имеет ли разница между двумя вариантами какое-то основание, или она оказалась случайной.

Допустим, вы хотите изменить дизайн интерфейса продукта. Дизайнер предлагает внести несколько доработок в навигацию, цветовую палитру и алгоритм взаимодействия с вкладками. Проведенное A/B-тестирование показало, что при сравнительном тесте конверсия у первого варианта на 12,4% выше, чем у второго — означает ли это, что изменения можно внедрять?

Ответ — нет. Сначала необходимо рассчитать статистическую значимость и убедиться, что результаты не случайны и могут быть достоверными. Вносить изменения без оценки показателя опасно. Любой A/B-тест — это эксперимент, поэтому сначала убедитесь в подлинности полученных данных.

Коротко о главном

  • Статистическую значимость применяют при проведении A/B-тестов, чтобы убедиться в чистоте эксперимента и понять, насколько можно доверять его результатам.

  • Чтобы оценить показатель, сформулируйте гипотезы, установите уровень значимости, выберите t-критерий, определите объем выборки, вычислите стандартный разброс данных, рассчитайте статистическую значимость и найдите показатель в таблице значений критерия Стьюдента. Если он попадает в выбранный уровень значимости (0,01% или 0,05%), вы подтвердили альтернативную гипотезу. 

  • Если вы не получили статистически значимый результат, откажитесь от альтернативной гипотезы или продлите тестирование на несколько недель, чтобы получить дополнительные данные. Если сомневаетесь в результатах исследования, спустя несколько месяцев проведите новый тест и повторно рассчитайте показатель.

Актуальное

260
AHT (Average Handling Time)
AHT (Average Handling Time) отражает среднее время, которое требуется оператору для обработки одного обращения клиента.
261
Customer Value Management
CVM переводится как управление потребительской ценностью. Customer Value Management - это не просто как продать больше, но как создать долгосрочные отношения с клиентами, основанные на их потребностях и ожиданиях.
271
Call Abandonment Rate
Простым языком: это «показатель отказа», когда клиент бросает трубку не дождавшись ответа. Call Abandonment Rate — показывает долю звонков, во время которых позвонивший клиент положил трубку, не дождавшись ответа специалиста.
731
FRT (First Response Time)
FRT — время прошедшее с момента получения запроса до момента, когда был дан первый ответ, важный индикатор качества обслуживания клиентов и эффективности работы команд колл центров и контакт центров.
906
CSAT (Customer Satisfaction Score)
CSAT (Customer Satisfaction Score) широко используется командами колл центров и контакт центров для оценки удовлетворенности клиентов обслуживанием.
1 214
FCR (First call resolution rate)
Показатель оперативности решения запросов при первом обращении, может быть полезен для отслеживания и повышения эффективности обслуживания клиентов службой поддержки