Чому результати вдалих A / B тестів в реальності не такі хороші

Що таке A / B тестування
Помилки при проведенні A / B тестів
Одночасний запуск безлічі тестів
висновок

У січні 2014 року Мартін Гудсон з аналітичної компанії Qubit, опублікував звіт під назвою «Результати більшості вдалих A / B тестів вводять в оману». Керрі Баттерс вирішила проаналізувати ситуацію і зрозуміти, чи так це насправді.

Що таке A / B тестування

У світі UX і юзабіліті зазвичай під A / B тестами розуміють порівняння різних версій веб-сторінки з метою з'ясування, яка з них показує кращі результати. В ході тесту двом групам людей показують різні версії сторінок, а під результатами зазвичай мають на увазі те, наскільки добре їм вдасться взаємодіяти з інтерфейсом сайту.

Наприклад, можна провести тестування сторінки із закликом до дії (CTA), розмістивши його в різних місцях або використавши для його оформлення інший шрифт, колір і опис.

A / B тестами перевіряються й інші аспекти веб-сторінок:

заголовки та описи продуктів;
форми;
оформлення сторінок;
зображення;
текст (короткий або довгий);
кнопки.

Мартін Гудсон з Qubit стверджує, що результати, отримані за допомогою таких тестів, найчастіше виявляються помилковими і очікувані поліпшення (наприклад, збільшення конверсій) ніколи не відбувається.

Помилки при проведенні A / B тестів

Перш за все, для проведення тесту, який покаже правдиві результати, необхідна наявність значної вибірки (тобто числа людей, що беруть участь в експерименті) - статистична точність зростає з її збільшенням.

На жаль, не кожен сайт може похвалитися великим трафіком, тому домогтися великої вибірки вдається далеко не завжди. Але і проведення тесту за участю малого числа людей з великою ймовірністю призведе до отримання результатів, які виявляться не застосовуються на практиці.

Другий важливий аспект A / B тестування - це тривалість проведення експерименту. Дуже часто виникає спокуса припинити тест, коли досягнутий позитивний результат, але це зменшує статистичну точність експерименту. Якщо тест проводився на протязі короткого часу, то ймовірність отримання хибних результатів дуже велика, і замість очікуваних поліпшень, все може стати тільки гірше.

Одночасний запуск безлічі тестів

Ще одна поширена помилка полягає в запуску великої кількості тестів. Керрі Баттерс впевнена, що це погана ідея з тієї причини, що при проведенні 20 тестів, у середньому, лише один з них покаже позитивний результатат, при 40 тестах, число вдалих результатів, в середньому, не перевищить двох - ймовірність вдалого результату тесту складає лише 5%.

Компанія AppSumo проводила тестування варіантів оформлення листа своїй email-розсилки. Тільки 1 з 8 експериментів показав прийнятне зміна результатів в кращу сторону.

У AppSumo приблизно 5000 відвідувачів в день, тому при проведенні тестів вибірка була не такою великою. Представникам компанії вдавалося досягати добрих показаталей (збільшення числа зібраних поштових акаунтів для розсилки, подвоєння числа замовлень), але життя внесло свої корективи.

Протестовані гіпотези, які повинні були привести до гарних результатів, повністю провалилися. Для цього є кілька причин:

користувачі не хочуть читати текст;
в заклику до дії містилися незрозумілі відсотки, замість зрозумілих доларів;
спливаючі і миготливі вікна дратували відвідувачів сайту.

Для того, щоб добитися конверсії при наявності вищеописаних мінусів бренд повинен бути дуже відомим і шанованим.

На зображенні нижче представлений результат тестування (негативний) гіпотези, яка полягала в тому, що пропозиція знижки простимулює користувачів підписатися на розсилку.

На зображенні нижче представлений результат тестування (негативний) гіпотези, яка полягала в тому, що пропозиція знижки простимулює користувачів підписатися на розсилку

У реальності, такий банер привів лише до погіршення конверсії на цільовій сторінці - число людей, що залишають свої email-адреси, знизилося.

Керрі Баттерс говорить, що email-адреса для багатьох користувачів все ще є досить важливою річчю, якої не так просто поділитися. Саме тому стимул для того, щоб куди його ввести, повинен бути значним - абстрактні відсотки тут не підходять, краще чітко написати вигоду «в грошах».

Як правильно проводити A / B тести

Перед проведенням тесту Баттерс радить приділити час планування експерименту і визначення того, як саме повинні досягатися позитивні результати (наприклад, збільшення конверсій). На думку фахівця SitePoint, потрібно також визначитися і з засобом аналізу результатів - подібний сервіс є у Google.

Для того, щоб отримати статистично достовірні результати потрібно почекати, поки тест триватиме якийсь час, і не припиняти його по досягненню бажаних показників. Баттерс вважає підходящої тривалістю тесту кілька тижнів або навіть місяців.

Крім того вона рекомендує:

тестувати не більше однієї сторінки (або елемента на сторінці) за раз;
вибирати для тестування сторінки з високим показником відмов;
Чи не чекає статистично достовірних результатів до досягнення позначки в 1000 користувачів, які брали участь в експерименті;
пам'ятати про наявність кривої навченості для A / B тестів;
попередньо вивчати клієнтів і відвідувачів сайту;
бути терплячим і не дивуватися невдачі.

Баттерс переконана, що проведення A / B тесту, який призведе до поліпшення результатів не тільки під час експерименту, а й в реальному житті, неможливо без попереднього аналізу аудиторії бізнесу. Дуже важко дати людям те, що вони хочуть, не маючи уявлення про їхні потреби.

висновок

Автор дослідження Qubit Мартін Гудсон говорить, що після проведення тесту варто його повторювати, щоб перевірити ще раз результати. Крім того, він заявляє про те, що очікування поліпшень від реалізації протестрованной гіпотези, завжди перевищують реальні результати, які вона може дати - це особливо актуально для тестів з невеликим числом брали участь в них людей.

На думку Керрі Баттерс, A / B тести - це корисний інструмент, який може приносити хороші результати при правильному використанні. Крім того, його особливість полягає в тому, що навіть якщо все зробити правильно, можна не добитися позитивного результату - до цього також потрібно бути готовим. Однак попередня підготовка і аналіз, правильна постановка цілей і органзаціі процесу тестування, значно підвищують шанси на успіх.

Редакція ЦП поцікавилася у вітчизняних професіоналів, чи проводять вони A / B тести, і які методи підвищення точності результатів використовують:

Андрій Зайцевменеджер по продукту Aviasales.ru

A / B тестування - це дуже потужний і ефективний інструмент, але він вимагає знань і дотримання певних правил.

Якщо ними нехтувати, то ви отримаєте і правильні дані, а отже зробите неправильні висновки і приймете неправильні рішення, врешті-решт втратите гроші.

До описаного в статті вище постулатам хочу додати 3 важливих аспекти, які часто спотворюють уявлення про результати тестів у початківців маркетологів і продуктологов:

Перше - це розуміння закономірностей і математичної статистики в цілому. Не завжди велика кількість трафіку - це добре. Як правило, динаміка зміни основних показників зводиться до побудови sin / cos графіка, і часто при одних цифрах показники можуть зближуватися на певних екстремуму, а при інших сильно розходитися в значеннях. Те ж саме можна спроектувати і на час проведення тестів (якщо час є для вас основним критерієм). Також при моделюванні такого аналізу не варто забувати про можливі статистичних погрішності (для більш глибокого занурення в дану тему рекомендую ознайомитися з книгою «Прикладна математична статистика», Кобзар О.І.).

Ще один момент - дуже важливо виділяти для проведення тестування пріоритетну групу трафіку. Користувачі, які прийшли з різних каналів, а також нові користувачі і постійні, як правило, мають абсолютно різні поведінкові патерни і можуть зовсім по-різному реагувати на зміни, взаємодіяти з сервісом або продуктом. Дуже важливо спочатку визначити правильні ключові канали та групи тестованих користувачів. (Для більш глибокого занурення в дану тему рекомендую ознайомитися з книгою «Підвищення ефективності інтернет-реклами. Оптимізація цільових сторінок для поліпшення конверсії», Т.Еш).

І останній важливий нюанс, про який не варто забувати, це тимчасові умови. Погодьтеся, що якість і кількість трафіку досить сильно відрізняється в суботу вночі і о 12 годині дня в понеділок. В ідеалі має сенс розглядати все тимчасові умови життєдіяльності сервісу при проведенні тестування або ж хоча б орієнтуватися на максимально наближені до сприятливим продуктивним умов.

Пам'ятайте, чим більше різних факторів закономірностей і умов ви врахуєте при початковому моделюванні і плануванні тестів, тим точніші і якісні дані ви зможете отримати, а, отже, зробити правильні висновки.

Інокентій Нестеренкокерівник агентства Topright.ru

Стаття дуже розумна. І справа навіть не стільки в тому, що відбувається в реальності, а в тому, що більшість маркетологів романтично відноситься до A / B тестів як до чіткого методу, не розуміючи його обмежень. Гуманітарію (суджу по собі) складно зрозуміти, що A / B тест повертатися не число, а діапазон значень навколо числа, і чим менше конверсій, тим більш широкий діапазон, і тим гірше дані (див. довідку про стандартне відхилення). Крім того, чим більше варіацій бере участь в тесті, тим повільніше накопичується інформація.

Так, звичайно, Google з їх обсягами трафіку дуже зручно розповідати про A / B тести, вони можуть там хоч колір заголовків перевіряти і достовірні дані повернуться за день.

На малих вибірках (скажімо, більшість російських b2b-сайтів працюють з малою кількістю конверсій) результати A / B тестів мають брудний вигляд, і часто не можна напевно сказати, де правда. Це чисто математична проблема, яка посилюється, якщо є бажання перевірити якісь нюанси. Всім, крім великих гравців ринку електронної комерції і популярних сервісів, ми рекомендуємо порівнювати тільки два радикально різні варіанти дизайну (скажімо, старий і новий). Перевіряти колір заголовків на малій кількості трафіку немає сенсу, інакше вийде та сама сумна нісенітниця, про яку пише автор статті.

Ще одна проблема - якщо у тебе 10 конверсій на місяць, а ти хочеш зробити перевірку варіанти на 100 переходи, ти будеш чекати 10 місяців, поки накопичиться результат. За 10 місяців ринок може змінитися так, що вихідні гіпотези втратять актуальність. Тобто в реальності вийде щось не те, але не тому, що дані погані, а тому що сама реальність пішла вперед за час тесту. У цих випадках інтуїція маркетолога і юзабіліті-інтерв'ю працюють краще, ніж інструментальна перевірка.

Fast : Интернет-провайдеры и сети

Чому результати вдалих A / B тестів в реальності не такі хороші

Що таке A / B тестування

Помилки при проведенні A / B тестів

Одночасний запуск безлічі тестів

висновок