topseored

Контентные сайты и Яндекс: как избежать просадки трафика из-за ПФ, что делать с упавшими позициями?

Чуть больше месяца назад я опубликовал статью с первыми выводами об апдейте Яндекса, после которого многие статейные сайты потеряли значительную часть трафика и дохода. Сегодня расскажу о завершающем этапе исследования и о том, что все это значит для практики.

Какие новые данные появились за месяц?

Во-первых, увеличилась выборка проблемных проектов. Многие владельцы инфосайтов после предыдущего поста написали мне и предложили новые проекты для анализа. Они пригодились для перепроверки сделанных в первой части исследования выводов.

Особенно меня интересовало, правильно ли предположение о том, что позиции и трафик падают на уровне хоста. Напомню, что было всего 4 проекта, где удалось посмотреть достоверную динамику трафика на молодых документах. Сейчас добавилось еще три. Графики везде выглядят похоже, примерно так:

Поэтому первоначальные выводы остаются в силе.

Во-вторых, ряд пострадавших 30 января проектов были задеты еще одним апдейтом  — в самом конце февраля. В  большинстве случаев трафик частично вернулся. Типичный пример:

Важно отметить, что проблемы с мобильным трафиком наблюдается далеко не на всех пострадавших в январе. Поэтому считать вторую просадку прямым продолжением первой («раскатыванием» алгоритма на мобильные) — нельзя.

Рабочая гипотеза: почему дело именно в поведенческих факторах?

Многие скептически восприняли мой вывод о том, что причина просадки — слабые поведенческие факторы. Скептицизм — это прекрасно! См. мой давний пост на эту тему. Однако адекватную альтернативу своей гипотезе из обсуждений выловить не удалось.

Наиболее внятные аргументы против роли поведенческих:

  1. Можно найти сайт с хорошими ПФ, который тоже попал под раздачу.
  2. Яндекс не станет считать кликстрим (историю действий пользователя) ради того, чтобы забанить сколько-то статейников, это слишком дорого для такой мелкой задачи.

По первому пункту есть два контраргумента:

  • Хорошие ПФ или нет — знает только Яндекс. Часто приходится слышать формальные критерии типа «отказов должно быть не больше 20%» или «глубина просмотра от 3 — это отлично». Конечно же, они имеют очень косвенное отношение к реальным ПФ. Об этом ниже.
  • Пока мне никто не показал сайт с высокой лояльностью новых посетителей с поисковых систем, который просел 30 января. Если покажут (желательно не один, а десяток, чтобы было похоже на выборку) — с удовольствием изучу и без проблем признаю что был не прав.

По второму все еще проще. Достоверно известно, что Яндекс накапливает и хранит данные о пользовательском поведении по некоммерческим запросам. Иначе он бы не смог реализовать алгоритмы Палех и Королев. Цитирую:

Например, одна из моделей предсказывала, останется ли пользователь на сайте или уйдет. Другая – насколько долго он задержится на сайте. Как оказалось, можно заметно улучшить результаты, если оптимизировать такую целевую метрику, которая свидетельствует о том, что пользователь нашёл то, что ему было нужно.

https://habrahabr.ru/company/yandex/blog/314222/

То есть: Яндекс вряд ли ставил целью порезать трафик у неугодных сайтов (в выдаче всплыли очень похожие проекты). Но накоплением и анализом пользовательских данных яндексоиды занимаются давно, а применяют их для самых разных задач.

Все дело в обилии рекламы, тизерах и офферах внутри статьи?

Самая популярная гипотеза в обсуждениях — идея, что пострадали сайты, злоупотреблявшие рекламой. Мысль абсолютно логичная, ее подкрепляют разные факты:

  • Почти одновременно с апдейтом популярные браузеры начали блокировать навязчивую рекламу.
  • В Яндекс.Толоке есть задания на определение зарекламленности сайтов.

Многие проекты в моей выборке действительно монетизируются весьма агрессивно. Но есть и проекты, размещающие только скромный контекст (причем в первом экране он занимает меньше трети площади). А еще есть сайты, снявшие почти всю рекламу сразу после просадки (то есть полтора месяца назад) — но посещаемость до сих пор не вернулась. Поэтому непохоже, что мы имеем дело с бинарным признаком (есть «плохая реклама/нет плохой рекламы»).

А вот если предположить, что сайты просели из-за ПФ, то все встает на свои места. И тут нет никакого противоречия с гипотезой о роли рекламы. Смотрите:

  1. Много рекламных блоков — труднее доступ к контенту, пользователи в среднем менее лояльны и активны.
  2. Постепенно у Яндекса накапливается статистика взаимодействия посетителей с сайтом.
  3. Хлоп — и подкрутили алгоритм, который (например) придает статистике ПФ больший вес, чем раньше. Зарекламленные сайты (и не только они) попадали в выдаче.
  4. Расстроенный владелец снял все тизеры и ждет, когда вернутся позиции. А они не возвращаются — потому что накопленные данные по-прежнему играют против него. Новая же статистика собирается медленно (трафик-то упал!).

Разбираться в этих нюансах я стал не только из академического интереса. Для практики нам нужен объективный измеримый критерий. Если мы будем считать, что реклама влияет напрямую, то как понять, что у нас на сайте слишком много рекламы? Или слишком мало (и можно добавить еще, увеличив заработок)? На глазок?

Кстати, не всегда реклама раздражает пользователей. Она может быть и полезной: прочитал статью, разобрался с особенностями товара или услуги — и можно сразу кликнуть по релевантному предложению, не тратя время на переход обратно в выдачу.

Даже если не было всех веских свидетельств в пользу роли ПФ, я бы стал изучать их в поисках рабочего критерия для определения степени зарекламленности. Потому что первично именно впечатление людей от сайта, их удовлетворенность содержимым, включая рекламу. Вряд ли этот базовый принцип поменяется в ближайшие годы.

Ну вот, с идеологией покончили, переходим к статистике.

Чем отличаются сайты, на которых упал трафик от тех, кто не пострадал?

Сразу хочу расстроить любителей простых подходов типа «глубина просмотра больше трех». Вполне очевидно, что «правильная» глубина/показатель отказов/время на сайте сильно варьируются в зависимости от ниши и конкретной информационной потребности пользователя. Когда мне надо найти номер такси, я провожу на хорошем сайте 5 секунд, а на плохом, где этот номер прячут — 30. Хорошую профессиональную статью читаю 15 минут, плохую — 10 секунд. Понимаете разницу?

Поэтому было бы совсем наивно ждать от выборок просевших и устоявших сайтов (то и другое — сборная солянка из разных тематик) не только статистически значимых, но и полезных различий по базовым поведенческим метрикам. Однако для очистки совести я все-таки посчитал медианные значения по выборкам:

Просевшие С нормальной динамикой
6,5% отказов 12% отказов
1.16 глубина просмотра 2,08 глубина просмотра
75 секунд длительность визита 135 секунд длительность визита

Данные различаются, это очевидно. Но что с ними делать? Не стараться же увеличить в два раза показатель отказов? Как-то это немного странно, правда? Табличка нам ничего не дает, только еще больше запутывает.

Что нужно, чтобы получить более полезные данные? Да просто брать показатели, которые можно сравнивать. Различие между которыми что-то нам скажет о реальных посетителях сайта. И такие показатели есть.

Отчет «Блокировщики рекламы» в Яндекс.Метрике

Посмотрите на сравнение поведенческих метрик для пользователей с включенной и отключенной блокировкой рекламы по одному из пострадавших сайтов:

С блокировщиком отказов в два раза меньше! Какое самое простое объяснение? Правильно: без рекламы сайт нравится людям значительно больше.

Это был единичный пример. Как обстоят дела по всей выборке? А вот как:

Разница в базовых поведенческих метриках у пострадавших сайтов ощутимо выше, чем у проектов со стабильным трафиком.

Например, показатель отказов на «нормальных» сайтах для пользователей с блокировщиком ниже всего на 0,1% (медиана). Пострадавшие проекты демонстрируют разницу в 0,25%. Тоже совсем немного, так ведь? Но если брать в выборку только сайты с относительно большим объемом трафика, для которого было определено наличие блокировщика, или взять статистику за более длительный период, разница стремительно растет, доходя до 2-4% (см. ниже объяснение, почему так происходит).

Аналогично для длительности визита. На нормальных сайтах — различия в продолжительности сессий измеряются долями секунды. На пострадавших медианная разница — 16 секунд (не в пользу версии без блокировщика).

Дополнительная проверка с использованием технологий Яндекса

Выявленные различия совсем не означают, что Яндекс ориентируется именно на них. Это только часть общей картины, которая есть у поисковой системы. Для практики же нам важно другое — может ли сравнение сегментов по блокировщикам рекламы стать полезным сигналом для работы над сайтом?

Отвлеченный пример для понимания. Анализ крови дает массу информации о состоянии здоровья. Показатели в нем — это полезный сигнал о проблемах с организмом. Но лечат обычно не для подгонки анализов под идеальные показатели, а чтобы привести в норму тот или иной орган.

Как можно проверить, насколько полезным будет изучение отчета по блокировщикам для коррекции стратегии? Следите за руками:

  1. Берем данные о поведенческих метриках по сегментам «блокировщик есть» и «блокировщика нет».
  2. Обучаем на их основе классификатор сайтов (просадка есть/просадки нет).
  3. Тестируем его на специально отложенной части выборки.
  4. Если модель справляется лучше, чем константный алгоритм, значит, наш набор данных содержит необходимую информацию и эти данные можно использовать.

Я решил, что будет правильным для изучения алгоритма Яндекса воспользоваться инструментами самого Яндекса — молодой, но перспективной библиотекой машинного обучения Catboost.

Основной проблемой тут стала сильная несбалансированность выборки: у меня сколько угодно примеров нормальных сайтов со стабильным трафиком и меньше сотни проблемных проектов (очень неплохая выборка для SEO-исследования, но совершенно недостаточно для адекватного классификатора). К счастью, в методах Catboost есть встроенные параметры для борьбы с несбалансированной выборкой, очень удобно.

Нельзя было выделить для тестовой выборки сколько-нибудь приличное число объектов, не обедняя обучающую.  Поэтому корректно подсчитать точность и полноту не получилось. Однако и без них очевидно, что модель работает не вхолостую. Я сделал 3 захода: оставлял в тестовой выборке 95 нормальных и 5 пострадавших сайтов и обучал бинарный классификатор на оставшихся примерах.

Результаты такие:

  • Во всех случаях алгоритм корректно определил все 95 сайтов со стабильным трафиком.
  • Не было ни одного ложного срабатывания, то есть ситуации, когда «здоровый» сайт был определен как проблемный.
  • В первом тесте не было найдено 2 пострадавших сайта из 5, во втором — 3, в третьем снова 2.

Итоги не позволяют использовать алгоритм в боевых условиях (велик шанс пропустить проблему), но он явно справляется гораздо лучше чем константный. То есть изначальная гипотеза подтвердилась — в наборе данных есть необходимая нам информация! Или ее часть, как минимум.

Конечно, можно было заморочиться с настоящей кросс-валидацией и тонким подбором параметров. Но лично у меня полно других дел. На главный вопрос ответ я получил, другого же от модели и не требовалось.

Практические рекомендации

Подчеркну важный момент. Не надо привязываться к конкретным цифрам. Я специально не стал публиковать полные данные, полученные из сравнения статистики (чтобы не получилось как в прошлый раз с Баден-Баденом). Важна именно разница между тем, как люди воспринимают две версии сайта — с рекламой и без. Если разница существенна — значит реклама мешает. Если разницы нет — не мешают.

Особенно важно это понимать, так как отчет по блокировщикам несовершенен.

  • Сумма визитов с блокировщиком и без блокировщика обычно значительно меньше, чем общий объем визитов. Определить наличие/отсутствие Adblock удается далеко не всегда.
  • Поведенческие метрики в отчете по блокировщикам сильно отличаются от средних по сайту. Как правило, глубина просмотра для визитов, где удалось определить наличие/отсутствие блокировщика выше. Думаю, чем больше страниц просмотрел посетитель, тем проще Метрике разобраться с технологиями его браузера.
  • В конце концов, блокировщики устраняют далеко не всю рекламу и считать, что люди с Adblock видят «чистый» сайт мы можем лишь условно.

Все остальное — просто и очевидно.

Как понять, что сайту грозит понижение в выдаче из-за рекламы?

Если вы владелец сайта, который монетизируется по рекламной модели, имеет смысл регулярно изучать отчет по блокировщикам:

Не забудьте выбрать довольно длительный период для отчета, чтобы он был более статистически достоверным (конечно, если меняли дизайн или размещение рекламных блоков, то начало периода должно быть не раньше даты изменений). Стоит также указать фильтр «Тип источника — поисковые системы», может оказаться полезной и сегментация по устройствам.

Не забывайте, однако, что каждый дополнительный сегмент уменьшает объем выборки пользователей, для которых рассчитываются показатели. По моему опыту, для выборок менее 5000 визитов различия очень часто стираются.

Если разница в поведенческих метриках ощутима, то ваш сайт в зоне риска. Если вы видите, что разница сильно выросла по сравнению, например, с прошлым месяцем — то пора что-то поменять.

Если большой разницы нет и вы хотите добавить еще рекламы — добавьте ее сначала на часть страниц и отследите, не изменятся ли на них поведение пользователей без блокировщиков.

Что делать, если сайт уже просел?

Очевидно — постараться нарастить «хорошую» статистику по пользовательскому поведению для всего сайта. Действовать нужно комплексно:

  • Снизить количество рекламы.
  • Проработать контент на собирающих трафик страницах так, чтобы он лучше соответствовал пользовательским интересам (в том числе тем, что не подразумевались при создании статьи). Опять же берем нашу любимую Метрику, смотрим поисковые запросы, по которым приходят/приходили люди на конкретную статью, ищем темы, плохо раскрытые в контенте. Для облегчения процесса используем инструмент дооптимизации важных страниц. Обратите внимание на кейс оживления заброшенного сайта с помощью сервиса (см. ближе к концу, где приводится статистика по изменению доли отказов).
  • Проработать подборки публикаций так, чтобы облегчить пользователю их восприятие, сделать страницы категорий более логичными и структурированными.
  • Добавить новые качественные материалы по темам, для которых в нише нет адекватного контента (везде будут плохие ПФ, а у нас — хорошие).
  • Доработать страницы с максимальным количеством отказов и наибольшей разницей в поведении для пользователей с блокировщиком и без.

Разумеется, нужно оценивать рентабельность всех этих действий. Если сайт не имеет мало-мальски приличной структуры, то его переработка может обойтись дороже, чем создание нового проекта.

Как узнать больше об улучшении ПФ и эффективной монетизации статейников?

Предвижу много вопросов к этим рекомендациям. Однако подробное руководство по улучшению ПФ на статейниках и их монетизации с максимальным доходом и минимальным риском тянет еще на одну здоровенную статью (и 10 — 15 часов работы). В принципе я готов ее написать, хотя тема мне уже немного надоела. Поэтому для начала хочу понять, насколько вообще это интересно читателям, имеет ли смысл тратить время.

Сделаем так. Если вас интересует инструкция:

  1. Поделитесь ссылкой в соцсети, блоге или Telegram-канале на этот пост.
  2. Пришлите мне адрес записи со ссылкой через Google-форму.
  3. Оставьте там же свой e-mail.

Если наберется 100 или больше желающих — я напишу руководство и разошлю его по указанным ящикам. А потом, спустя 2-3 месяца — опубликую в основной рассылке блога.

В заключение

Главные выводы:

  1. Падение посещаемости на статейниках после апдейта 30 января связано с поведенческими факторами, в первую очередь с негативной реакцией пользователей на обилие рекламы. Это подтверждается динамикой трафика на проектах, снявших рекламу, значительными различиями в ПФ по выборкам, классификатором на основе Catboost.
  2. Полезный критерий для анализа поведения — отчет по блокировщикам рекламы. Разница даже в базовых метриках может быть весьма информативной. Конечно, никто не запрещает использовать и более сложные показатели, например, долю «длинных кликов» или показатели конверсии. Изучение различий в поведении между пользователями с блокировщиком и без него стоит использовать в процессе принятия решений о размещении рекламных блоков.
  3. Для возврата посещаемости требуется комплексная работа, направленная на улучшение ПФ. Весьма вероятно, что просто снять часть рекламы будет недостаточно. Хотя бы потому, что то же самое сделают и пострадавшие конкуренты.

P.S. Большое спасибо всем, кто давал сайты на анализ! Они весьма помогли. Если буду писать руководство — обязательно вышлю его вам (делиться ссылкой необязательно).

Также планирую написать пост с краткими замечаниями и советами по предоставленным проектам — без указания url, только с id Метрики (по ней вы сможете понять что это ваш сайт — а другие нет). Рассылать советы в переписке было бы слишком долго, да и некоторые проблемы сходны, так что все разом описать гораздо удобнее. Если не хотите, чтобы сайт попал в такой обзор — просто удалите мой доступ к нему.

UPDATE 17.03.2018

Получаю много комментариев со скриншотами отчета по блокировщикам, где показатели не вписываются в описанную картину. Кажется, тут есть глобальное недопонимание. Объясняю еще раз, по пунктам:

  • Разница в поведенческих метриках в отчете по блокировщикам выявлена на достаточно значительной выборке. Это типичная, медианная картина. Но вовсе не факт, что на вашем конкретном сайте она будет такой же. По статистике курилщики живут меньше. Но кто-то курит с пятого класса и бодрячок в 90 лет. 
  • Отчет по блокировщикам несовершенен. Это не святой Грааль, а дополнительный способ посмотреть на свой проект, узнать о нем что-то новое. У кого-то он сработает, у кого-то нет. Ждете 1-2 универсальные циферки, которые дадут ответ по любой проблеме? У меня для вас плохие новости: на дворе 2018-й год.
  • Я считаю, что обвал трафика произошел из за низких ПФ, одной из причин которых может являться реклама. Ее влияние мы часто можем отследить в статистике. Остальные факторы — не можем. Хорошо, что есть хоть что-то.

Наконец, прежде чем делать любые выводы с отчетом по блокировщикам:

  • Задайте сегмент по одному типу устройств. Если у вас смешаны в кучу десктопы и мобильные — толку от отчета не будет.
  • Задайте сегмент по источнику трафика. Нас интересует поисковый трафик.
  • Задайте сегмент по новизне посетителя. Старые пользователи могли привыкнуть к рекламе.
  • Убедитесь, что набирается хотя бы 5000 визитов с блокировщиками.

В противном случае у вас будет не статистика, а информационный шум.

Сообщение Контентные сайты и Яндекс: как избежать просадки трафика из-за ПФ, что делать с упавшими позициями? появились сначала на Интернет-маркетинг для всех.

Читайте также:

Добавить комментарий