Некоторые синтетические поведенческие факторы ранжирования Яндекса.

Некоторые синтетические поведенческие факторы ранжирования Яндекса.

[Всего голосов: 0    Средний: 0/5]
Если ты воздействуешь на поведенческие факторы естественным или искусственным способом, то данная заметка поможет тебе понять в правильном ли направлении ты двигаешься.

На этот раз почти никакой  отсебятины – список синтетических поведенческих факторов опубликован по доброй воле Яндекса в докладе Through-the-Looking Glass: Utilizing Rich Post-Search Trail Statistics for Web Search. 

Самим Яндексом статья датируется 1-м сентября 2013 года. Была представлена на конференции CIKM 2013, проходившей с 27 октября по 1 ноября 2013 года в Бёрлингейме (США)

На сайте Яндекса упоминание доклада есть, но самого текста до сих пор нет. Поняли, что сболтнули лишнего? 🙂

NB: Выражаю благодарность Илье Зябреву AlterTrader Research ltd за предоставление текста доклада.

Поведенческие факторы ранжирования Яндекса

QueryDomCTR – среднее значение CTR всех документов домена по данному запросу

QueryUrlCTR – среднее значение CTR конкретного документа по данному запросу.

QDwellTimeDev – стандартное отклонение (девиация) от среднего времени пребывания на документе по запросу. Может применяться для отсеивания накруток ПФ.

QDwellTime – этот параметр в докладе не упоминается, но он очевидно используется как фактор ранжирования . Т.к. если мы считаем стандартное отклонение для случайной величины, то должны знать и матожидание (оно же среднее значение) этой величины. Соответственно это среднее время пребывания посетителя на документе по запросу.

AvSatSteps – среднее количество удовлетворённых шагов по сайту. Удовлетворённый шаг – переход по внутренней ссылке после 30 секунд пребывания на документе. Важно, что среднее значение таких шагов всего ~0.2 и меньше на домен не зависимо от тематики сайта.

NB: Как следует из данного доклада Яндекс “знает” к какой тематике принадлежит страница сайта. На основании собственного набора доменов второго уровня с вручную определёнными тематиками (я так понимаю это ни что иное как Я.Каталог, возможно расширенный за счёт Dmoz.org) и c помощью наивного байесовского классификатора любой документ из индекса приписывается к той или иной тематике.

AvDwellTime – общее среднее время пребывания посетителя на документе по разным поисковым запросам.

DwellTimeDev – стандартное отклонение (девиация) времени пребывания на сайте. Так же может использоваться для отслеживания накруток ПФ.

90thDwellTime – это верхний дециль, он же 90-й персентиль среднего времени пребывания на сайте. Позволяет отбрасывать накрученные AvDwellTime и QDwellTime.

10thDwellTime – это нижний дециль среднего времени пребывания на сайте. Позволяет определять дорвеи. Очевидно, что Яндекс ожидает от “белых” вебмастеров улучшений именно тут.

TimeOnDomain – общее время пребывания на сайте. По всем запросам любых документов.

CumulativeDev – стандартное отклонение (девиация) от среднего времени пребывания на сайте

Несколько ехидных замечаний

  1. Ты боишься, что накрутка ПФ снижает конверсию и это негативно влияет на ранжирование? Не гневи SEO-бога – Яндекс умеет считать только satisfied steps. О конверсии он даже не помышляет.  Я уже пытался объяснить почему.
  2. Чтобы удовлетворить  инженеров Яндекса тебе следует крупные статьи разбивать на маленькие.  Очень маленькие. Потому что средний человек читает менее 300 слов в минуту. А инженеров интересует клик через  30 секунд. К этому моменту ты прочитал уже примерно 300 слов в этой небольшой заметке. Для сравнения, хорошей обзорной статьёй считается заметка длинной минимум в 1000 слов.
  3. По той же причине тебе не следует размещать ни внутренних, ни тем более внешних ссылок в начале документа. Чтобы не было неудовлетворённых переходов.

Вместо заключения

Данный доклад Яндекса замечательно объясняет, почему не работает накрутка поведенческих факторов ранжирования по 3-4 запросам. А именно такое количество запросов пытается накручивать обычный (медианный) оптимизатор. Средний – всего 9. Успешный же оптимизатор накручивает в среднем от 40 запросов и выше. Только так можно заметно повлиять например на AvDwellTime и TimeOnDomain.

Для успешного влияния на AvDwellTime нужно накручивать много запросов.
Для успешного влияния на AvDwellTime нужно накручивать много запросов.

Эти данные я приводил в июне 2013 года на конференции по конверсии. Но тот доклад видимо было воспринят исключительно как реклама сервиса.

Непосредственно о ПФ я сбивчиво и путано бормочу с 15:44. Из этого же видео можно узнать о чём я собирался рассказывать в III части списка ПФ. Которую я как-нибудь всё-таки изложу и в письменном виде 🙂

Как теперь стало понятно, инженеров из Яндекса я переоценил – работа над улучшением конверсии снижает количество удовлетворённых шагов, но мужики-то об этом не знают (ц)!

А что ты думаешь о засвеченных в докладе Яндекса поведенческих факторах и естественных или не очень способах воздействия на них?

Поделиться Вконтакте
Плюсануть

46 комментариев к “Некоторые синтетические поведенческие факторы ранжирования Яндекса.

  1. А как бы ты рекомендавал разбивать статьи? Например, текст: “Как накрутить ПФ в Яндексе” – из 2000 слов, что делать с титлами и н1 для второй/третьей/… части? Отдавать эти “продолжения” поисковым системам или нет? Выводить ссылки на вторые/третьи/… части статьи где-либо кроме как на стартовой начальной странице первой публикации?

    1. Семён, я бы не стал затачиваться под Яндекс. И дело даже не в предпочтениях Гугля, а в предпочтениях людей. А они любят большие, красиво оформленные тексты.

      То есть, 2000 знаков надо “разбавить” примерно 6-7 картинками, в нашем гипотетическом примере графиками и скриншотами. Ну и подзаголовки по возможности должны быть наиболее зазывными.

      А дальше работает простой механизм. В большой текст вчитываться лень, но красивое оформление – это однозначный лайк. Сам лайк не стоит ничего, но он означает, что твоя заметка попадёт в ленту всем друзьям лайкнувшего. И если анонс твоей статьи будет очень сочным, то это породит переход(ы) на твой сайт. И вот эти переходы уже оценивается поисковиком.

      Чем больше непоискового трафика на твоём документе/сайте, тем ценнее он по поведенческим факторам. Соответственно при одинаковых текстовых факторах твою заметку отранжируют повыше по релевантным запросам.

        1. У меня нет однозначного ответа. Для целей SEO тоже похоже лучше иметь один большой исчерпывающий документ, чем несколько маленьких, да ещё с похожими заголовками.

  2. А что думаете по поводу кликов внутри страницы?

    Загрузка ajax-скриптов, отправка форм без перезагрузки страницы – это будет засчитано за правильный клик, если на заполнение формы ушло более 30 секунд?

    И наоборот клик в первые секунды, который не привёл к уходу со страницы (тот же ajax, всплывающее окно), может быть как-то интерпретирован во вред?

    1. В докладе Яндекса речь ведётся о шагах по сайту. Без смены URL этот шаг не виден. Клики мышкой или нажатия клавиш на клавиатуре Яндекс собирать может, но вряд ли может отличить простой клик от “полезного” даже при установленной Я.Метрике.

      То есть клик без смены URL это просто клик, но не шаг.

      И вред, насколько я понимаю, это уход со страницы назад в выдачу или закрытие окна браузера быстрее, чем за 10thDwellTime. Это в среднем быстрее, чем за 4 секунды. ЕМНИП, данные от Майкрософт.

  3. Омг, вы о чем вообще? Какая мозоль? Вы пишите “самого текста до сих пор нет. Поняли, что сболтнули лишнего”, при этом сам текст продается за смешную сумму. Тем кто способен понять суть изложенного я думаю не будет в напряг выложить 450 рябчиков.

    1. Этого текста нет в свободном доступе на сайте Яндекса. До сих пор. Хотя он написан 4 месяца назад, а опубликован на конференции – месяц назад. Это факт.

      А дальше в тексте заметки стоит шутка. Снабжённая для не разбирающихся в юморе смайлом.

      Вы ищете чёрную кошку в тёмной комнате, где её заведомо нет.

      1. Тяжело с вами общаться – какие-то у вас мозоли, черные кошки… я умываю руки от дальнейшей дискуссии.

        1. Bakalov, согласен, манера общения и изложения очень странная… и не понятно в итоге: вроде материал интересный, но не раскрыт, а ответы на вопросы крайне расплывчаты и с явной агрессией на задающего.

  4. Все это суета сует.
    Вес каждого из этих факторов – доли процента в среднем по больнице. Накрутки ПФ нежизнеспособны хотя бы поэтому. Только матрикснет, только хардкор.
    Вообще, вряд ли в обозримом будущем стоит ожидать появления факторов или групп факторов, воздействуя на которые можно будет рвать топы.

    1. Станислав, Матрикснет использует текстовые и поведенческие факторы. От ссылочных вроде как отказываются. Менять текстовые факторы в угоду поисковика не очень хорошо – будут страдать продажи. И, кстати, ПФ тоже.

      Так что чуть ли не единственный приемлемый для коммерческих сайтов способ воздействия на позиции в выдаче – это ПФ. Раньше – безусловно ссылки.

      Теперь что касается весов факторов. С одной стороны, как следует из доклада вклад QueryDomCTR выше BM25. Это вклад в улучшение функции потерь (loss function) на этапе обучения.

      А с другой – никто не знает вклада каждого отдельного фактора из 800 доступных в формулу MatrixNet. И тем более, никто не знает вклада группы факторов.

      Так что суета конечно куда-то суёт, но для достижения позиций в топе воздействовать на что-то всё-равно придётся.

      1. Артем, согласен с тобой, что поведенческие факторы сейчас под прицелом и многие будут стараться воздействовать на них.
        Но я не согласен с тобой, что это единственное на что можно влиять после отмены ссылок..
        В этом году у меня, например, в планах проведение масштабных экспериментов по исследованию влияния юзабилити факторов на выдачу. Я считаю что Яндекс анализирует ряд факторов, отвечающих за юзабилити сайтов. Я составил список из нескольких десятков факторов, комбинируя которые буду исследовать их влияние на ранжирование -)
        А есть еще коммерческие факторы, сильно актуальные для екомерса, например..

        1. 1. Назови, пожалуйста, хотя бы один UX фактор, который не измеряется поведением посетителей.
          2. Коммерческие факторы либо есть либо их нет. Например, магазин либо является официальным дистрибьютором какого-то бренда либо нет. То есть ты не сможешь оптимизировать КФ.

          1. 1. Их много. Возьмем например листинг товаров.
            а) площадь, занимаемая описанием товара по отношению к площади карточки товара. Физический смысл – восприятие информации. Туда же:
            б) пространство между блоками в описании товаров.
            итд итп, таких факторов около 20 у меня.

            2. Коммерческих факторов много, сам знаешь. В статье Яндекса их около десятка, и на многие из них можно влиять.

  5. Спасибо за статью. Конечно, ничего не понятно, но все равно интересно 🙂 Только можно без путаницы? То есть понятно,что я все равно саму решу что делать на моих сайтах. Но сначала писать, “лучше разбивать тексты на маленькие”, потом “та нет, пишите большие содержательные документы”, на выходе получаем каламбур.

    1. Спасибо за комментарий.

      Путаницы нет. Раздел про разбивание текстов на части озаглавлен Ехидные комментарии. Там указан простейший способ воздействия на AvSatSteps. Это явно не ожидаемый яндексоидами, но вполне допустимый способ .

      Но я нигде не говорил, что так поступать лучше и вообще хорошо 🙂

      В следующий раз постараюсь быть более прямолинейным в выражении своих мыслей 🙂

      1. Спасибо, буду признателен. Мне кажется или Вы сильно уходите в технические вопросы? То есть можно пытаться все просчитывать формулами,манипулировать кликами, переходами и т. д., а можно писать полезные статейки, к товарам давать описание содержательное, доходчивое и интересное, делать обзоры товаров, вместо стандартного набора характеристик как у всех. Я к тому что можно,например, просчитывать плотность слов, подсовывать ролик в конце статьи для увеличения времени проведенного на сайте – работать на показатели. А можно трудится над толковым содержанием. Или четкий и понятный ответ на вопрос пользователя это плохой способ продвижения? Немного путано, но думаю Вы поймете суть вопроса.

        1. Полезный контент это безусловно хорошо, но с точки зрения оптимизации есть более простое, а, главное, более эффективное решение. Об этом я обязательно расскажу в одной из заметок. Но – чуть позже.

  6. Станислав, вот возьмём к примеру: “пространство между блоками в описании товаров”.

    Как ты собираешься верифицировать, что 20 пикселей лучше/хуже чем 70 пикселей между блоками?
    Как Якоб Нильсен в 90-е: ибо видите ли так мне больше нравится, потому что я самыйкрутойвмиреэкспертпоюзабилитиинемогуошибаться?

    Или всё-таки в терминах ПФ: больше добавлений в корзину т.е. переходов по внутренним ссылкам и, главное, возвратов на сайт довольных кастомеров?

    1. Как буду верифицировать – это пока секрет -) Но в принципе ничего сложного в процедуре нет.

      1. Ну я не имел ввиду тебя персонально.

        Традиционно в UX есть два подхода:

        1) Взять N успешных магазинов и посчитать среднее расстояние между блоками. Но это неверный подход. Т.к. не верно утверждение, что эти магазины успешны, потому что у них расстояние между блоками больше/меньше чем N пикселей. Но верно другое утверждение: эти магазины успешны, несмотря на расстояние между блоками.

        2) Взять N пользователей, поставить перед ними задачу достижения какой-то цели на сайте и записать их действия. Раньше на видео, теперь модно отслеживать действия с помощью eye-tracker’ов.

        Второй вариант для поисковика предпочтительнее. Ему не нужно принимать решение что помогло/помешало добраться до цели. В частности не нужно ни высчитывать расстояние между блоками, ни оценивать по пятибалльной шкале измеренное расстояние.

        Достаточно всего лишь оценивать относительное количество посетителей, добравшихся до цели.

  7. Стас, понимаешь какая тут штука, одна “ширина колонки” может работать в январе и совсем не поможет в мае! Мы входим в новую эру динамических сайтов, и одним оформлением дизайна картинками в стиле: “зима”, “весна”, “лето” и “осень” – не обойтись.

    На некоторых страницах уже несколько лет ведётся замер CTR по различным графическим образам, расположенных статично. Показатели постоянно плавают и в этих изменениях прослеживаются как минимум два важных фактора: временная сезонность и календарные события.

    В одних случаях актуальны сами графические образы, в других факторы цвета, в третьих антураж и т.д.

    1. “CTR по различным образом” – это не верификация.
      Антураж графические образы сходу непонятно как формализовывать. -)

      Вообще, как мне кажется, я не про это. Динамические сайты динамическими сайтами, но классический ML в поисковых системах никто не отменял -)

      Я попробую пояснить подробнее, как я себе представляю ситуацию.
      – Есть группа десятков асессоров, оценивающая коммерческие сайты по нескольким параметрам.
      – Есть аналитики, придумавшие факторы, которые могут формализовать эти оценки.
      – Есть функция обучения, которая принимает на вход факторы, и выдает результат – степень совпадения с асессорскими оценками. Для каждого нового фактора функция дает ответ хороший этот новый фактор или плохой.

      – Есть я, у которого есть некий выдуманный из головы первичный набор факторов категории “юзабилити”, которые могут хорошо “попасть” в реальную модель, а могут не очень. Задача провести серию экспериментов и выяснить какие факторы попадают в модель лучше, а какие хуже. Придумать новые факторы и повторить эксперименты.

      Процедура эта, на мой взгляд, простая и не сложная в реализации.

      1. >Процедура эта, на мой взгляд, простая и не сложная в реализации.

        А на мой взгляд очень сложная. Если будет хотя бы добротная методология такой оценки факторов – это уже будет мега круто. А если ещё и рабочая софтинка: придумал параметр -> скормил его оценщику -> получил вердикт или хотя бы какую-то сравнительную оценку с другим хорошо считаемым параметром, то можно будет рвать топы 🙂

        Реализуешь – хотя бы похвастайся.

        1. Софтинки не будет, конечно.
          Стоимость реализации можно оценить как несколько тысяч долларов + работа прогера в течение нескольких месяцев + моя работа по часу в день или по дню в неделю. Как-то так.

          Если получится, конечно похвастаюсь -)
          Но насчет рвать топы – это слишком.. так, подправить кое-где несправедливость -)

      2. Тест Люшера – верификация психоэмоционального состояния, а CTR по статичным образам – нет! 🙂

        Беда вся в том, что каждый на ситуацию смотрят с разных сторон, метрикснет затачивают под модели поведения пользователей, которые при определённых мотивационных акцентах и некотором психоэмоциональном состоянии поступают определённым образом, а сеошники потом из черного ящика пытаются выудить формулу сеошного счастья, тыкая пальцем в небо, раздвигая ширину колонки в верстке.

  8. Спасибо, Артём. У вас один из лучших SEO блогов. Минимум воды и ненужной мути.

    За инфу по конкретным поведенческим факторам отдельное спасибо.

  9. Артем, Вы в первом комменте упомнули про переходы с социалок. Ситуация: у меня, на коммерческом сайте, три последних месяца, количество хостов из ВК и Одноклассников – это 40-55% от общей массы посетителей. Из закладок 20-30%. При этом из Яндекса стабильные 15%, Гугл 3%. То есть цифра с поисковиков не растет как в процентном, там и простом значении. Количественный рост исключительно по брендовому и иже с ним запросам. Переходящие с социалок меньше 6 просмотров (в среднем) не делают. А ведь апдейты ПФ уже были. Или 3 месяца это совсем не срок и чтобы “пройти Боруссию” нужно еще несколько сезонов обождать? 🙂

    1. Руслан, трёх месяцев, чтобы порвать Боруссию, как Баварию ранее, более, чем достаточно. Только надо отдавать себе отчёт, что за счёт одного лишь Халка выкрутится не удастся. Как никогда важна командная игра 🙂

      Вы неверно думаете, что улучшаете все ПФ. Средние 6 просмотров хотя бы по 15 секунд каждый – это 90 секунд минимум. То есть среднее время пребывания посетителя на сайте стремится скорее всего к двум минутам. Или того больше. А теперь изучите не среднее время пребывания на сайте натурального посетителя с поиска, а распределение времён таких посетителей. Вы обязаны увидеть, что происходит форменный ая-яй-яй 🙂

      А судя по отношению Яндекса к Гуглю как 5 к 1 у вас ещё и очевидные проблемы с сайтом.

  10. Артем, не совсем ясно, зачем накручивать удовлетворенные шаги:)
    накрутить, то накрутим, но у нас эталонная модель имеет вполне определенные значения этого параметра.
    Манипулировать можно, но саму суть можно узнать только предположив ситуацию по удовлетворенным шагам у конкурентов – основываясь на перелинковке и расположении ссылок.

    1. Я вроде не говорил про обязательность накрутки 🙂

      Я уже как-то писал про то, что конверсия (удовлетворение клиента) далеко не всегда происходит в сети. Гораздо чаще она происходит по телефону. При этом идеальный с точки зрения бизнеса сайт расскажет всё на одной посадочной странице и побудит посетителя совершить звонок, где менеджер в индивидуальном порядке склонит потенциального клиента к сделка.

      Хорошая энциклопедия тоже рассказывает всё по искомому термину в пределах одной страницы. То есть satisfied steps y «хорошего» сайта может быть много меньше, чем у «плохого».

      Заметка в общем-то про то, что satisfied steps — это очередная не годная к использованию метрика. Ну и про официальный список поведенческих факторов ранжирования 🙂

  11. Уведомление: Палится ли Мовебо?
  12. Артем, спасибо за науку: про то, что ссылка в первых фразах документа может раздражать пользователя и отрицательно влиять на поведенческий фактор, как-то не догадывалась. И при перелинковке всегда старалась поставить ее именно в начало документа. Буду иметь в виду.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *