Internet Explorer и убийства: о корреляции и причинно-следственной связи в аналитике продукта

Корреляция не подразумевает причинно-следственную связь. Для аналитика эта мысль покажется банальной, однако на практике люди часто принимают решения, забывая об этом правиле.

Посчитать корреляцию просто — порой так и тянет сделать интуитивные выводы о причинно-следственной связи между признаками. Я искренне надеюсь, что в будущем читатель, надумав провести «очевидную» стрелочку от корреляции к причинно-следственной связи, одёрнет себя и подумает снова.

Что такое корреляция?

«Википедия» говорит: корреляция — это статистическая взаимосвязь двух или более случайных величин. При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Мы рассматриваем, как правило, две величины, имея по каждой несколько значений. Допустим, мы рассматриваем показатели однодневного удержания и дохода по проекту за каждый день в течение двух месяцев.

График однодневного удержания и дохода за два месяца

Продвижение медцентров и клиник: три кейса о SEO, TikTok и Instagram*

Как получить измеримые результаты в фарммаркетинге.

Показываем на примерах →

Спецпроект

Мы смотрим, как ведут себя эти величины. Корреляция — мера схожести их поведения:

  • если они одинаково скачут в одну и ту же сторону изо дня в день, то корреляция будет близка к 1;

  • если они постоянно скачут в разные стороны, и уменьшению одной метрики соответствует увеличение другой, то корреляция будет близка к −1;

  • а если их поведение выглядит независимым относительно друг друга, то корреляция близка к 0.

Значение коэффициента корреляции изменяется в интервале [-1;1]. Допустим, корреляция равна 1 (или близка к 1). Означает ли это, что, увеличив один показатель, вы автоматически увеличите другой?

Нет.

В нашем примере (на картинке выше) корреляция составляет 9% — то есть она отсутствует. Значит ли это, что, дабы увеличить доход, мы вольны делать всё что угодно, но рост однодневного удержания нам точно не поможет?

Нет.

Корреляция — это одна из разновидностей связи, но ей совершенно не обязательно быть причинно-следственной. В то же время отсутствие корреляции между двумя величинами ещё не значит, что между ними нет связи. Зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.

Давайте рассмотрим, почему корреляция не означает причинно-следственную связь.

Третья переменная

Канонический пример: положительная корреляция между количеством путешествий на счету школьника и его успеваемостью. Выходит, чтобы ваш ребёнок стал отличником, вам нужно собрать последние средства и срочно отправить его в путешествие.

И снова нет.

Путешествия — дело недешёвое, и для того, чтобы ребёнок много путешествовал, у родителей должны быть деньги. Если у родителей есть деньги, то, скорее всего, у них достаточно высокий уровень образования. А у образованных родителей, как правило, образованные дети. Сами путешествия тут ни при чём. Появились две дополнительные переменные, которых не было в исходном сообщении: уровень образования и доход родителей. А значит, у нас целая цепочка положительных корреляций:

путешествия, уровень дохода родителей, уровень образования родителей, успеваемость ребёнка.

И таких примеров масса:

  • В странах, где у бо́льшей части населения нет доступа к высшему образованию, продолжительность жизни меньше. Значит ли это, что высшее образование увеличивает продолжительность жизни? Нет. Третья переменная здесь — уровень жизни в стране, он влияет и на продолжительность жизни, и на доступность высшего образования.

  • Рассматривая пожары в конкретном городе, можно заметить высокую корреляцию между ущербом от пожара и количеством пожарных, которые принимали участие в его ликвидации. Третья переменная: размер (уровень) пожара. Если пожар большой, то на него требуется много пожарных, и ущерб от него будет больше, чем от небольшого. Это ни в коем случае не означает, что каждый новый пожарный наносит дополнительный ущерб.

  • Есть положительная связь между продажами мороженого в конкретном городе и количеством утонувших.

    Видна положительная корреляция между количеством проданных рожков мороженого и числом утопленников в конкретном городе.

    Съешь мороженое — утонешь? Нет. Третья переменная здесь — температура на улице. Когда жарко, люди покупают мороженое. А ещё люди купаются.

  • При обследовании 33 хирургов и хирургов-ординаторов выяснилось, что те из них, кто чаще и лучше играют в видеоигры, лучше справляются и с тестовой лапароскопической операцией на специальном тренажёре. Авторы делают из этого вывод, что медицинским школам стоит задуматься об использовании видеоигр в обучении. Вывод неправильный: третьей переменной здесь является уровень зрительно-моторных навыков. Хирурги, с хорошими зрительно-моторными навыками, используют их и в играх, и в работе. Обладая такими навыками от природы, они, вероятно, становятся хорошими хирургами.

  • Наконец, важное научное открытие: почти 100% людей, которые ели огурцы, через сто лет окажутся мертвы. Огурец — медленный убийца! (Третью переменную найдите сами.)

    Огурцы убивают, листаем дальше

Случайная корреляция

Посмотрите на этот график:

Очень высока корреляция между количеством людей, утонувших в бассейнах, и количеством фильмов, в которых снялся Николас Кейдж

Выходит, чтобы не утонуть, надо сперва проверить уровень продаж мороженого, а затем посмотреть, в скольких фильмах за год снялся Николас Кейдж!

Николас Кейдж старается принять мысль, что корреляция не подразумевает причинно-следственную связь

А вы не думали, что корреляция между двумя показателями может быть случайной?

Вот ещё один пример, в котором корреляция доведена до абсурда: можно проследить путь от детской аллергии в Австралии до формы дорожных знаков.

К слову, есть интересный инструмент от Google Trends: вы рисуете произвольную кривую, а система выдаёт соответствующий график поисковых запросов:

Или вот ещё один пример: доля браузера Internet Explorer в США и количество убийств в США.

Впрочем, здесь-то как раз всё объяснимо.

Что же делать

То, что сработало для других, не обязательно сработает для вас.

  • Если уйдёте из университета, не факт, что создадите Apple.

  • Если перепишете туториал, не обязательно увеличите доход.

  • Если добавите в название игры слова world, clash, go, это не гарантирует, что игра станет хитом.

Если вы обнаружили связь между двумя показателями, рекомендуем разобраться в деталях: что от чего зависит, что на что влияет (и влияет ли вообще). Из таких взаимосвязей и строится понимание предметной области, её модель в вашей голове.

Если другой продукт провёл A/Б-тест и выяснил, что у красной кнопки больший CTR, чем у зелёной, это не значит, что вам нужно сломя голову менять все кнопки на красные.

Если вы приняли участие в выставке, и после этого приток новых пользователей увеличился на 30%, не спешите подавать заявку на следующую выставку. Лучше детально разобраться в причинах — быть может, дело в сезонности.

Случай из практики

В одной из игр средний доход с пользователя (ARPU) растёт от месяца к месяцу. Не самый плохой сигнал, согласитесь. Параллельно с этим разработчики ежемесячно замеряют Net Promoter Score, чтобы оценить лояльность игроков.

И вот интересный факт: NPS со временем падает! Доход растёт, а лояльность падает.

Чем менее лояльны пользователи, тем больше они платят? Чтобы увеличить доход, надо уменьшить лояльность? Конечно же, нет.

Детализируем NPS по сегментам пользователей в зависимости от срока в игре. Оказывается, в опросе участвуют прежде всего новички. Многие из них вообще не задумывались о том, чтобы платить. Платят другие игроки — давно сформированная база активных пользователей, которые выражают свою лояльность не десяточкой в опросе, а рублём, лучшей из наград.

Поэтому вместо того, чтобы делать ложное умозаключение о причинно-следственной связи NPS и денег, лучше просто пойти и разобраться, почему новички месяц от месяца теряют лояльность. Вероятно, вы найдёте причины низкой лояльности новых пользователей и, устранив их, нарастите пользовательскую базу. А в рядах новых пользователей будут и те, кто охотно заплатит за ваш продукт.

В каком-то смысле факт, что корреляция не подразумевает причинно-следственную связь, объясняет, почему нас до сих пор не заменили роботы. Держите голову на плечах!

А на досуге можете поиграть в игру «Угадай корреляцию» ^__^

Мнение редакции может не совпадать с мнением автора. Если у вас есть, что дополнить — будем рады вашим комментариям. Если вы хотите написать статью с вашей точкой зрения — прочитайте правила публикации на Cossa.

Источник: cossa.ru

Бытовой вопрос