Почему вредно знать о BM25?

Почему вредно знать о BM25?

Click to rate this post!
[Total: 14 Average: 2.9]

Директор? Да пошёл ты в жопу, директор!
Не до тебя сейчас (© Масяня)

Не очень понимаю людей, придерживающихся стратегии контент-маркетинга в стиле поручика Ржевского: «Я — Д’Артаньян, а вы все — …мушкетёры».

В двух словах, некий директор SEO-компании взялся утверждать, что  рынок SEO, которое не наука и не искусство, а всего лишь ремесло, умер. Потому что никто не готовит подмастерий. Кроме, видимо, самого директора.

Что само по себе странно, т.к. если кто-то берёт сайты на продвижение и достигает обещанных хотя бы на словах результатов, значит на рынке существует достаточное количество обученных ремесленников. Не являющихся Д’Артаньянами, но туго знающих своё ремесло.  А значит рынок жив.

Так может быть дело не в рынке, а в директоре?  Давай попробуем разобраться почему это так.

Один из вопросов,  который задаёт  директор соискателю:

Вы знаете, что такое ГЕОзависимые и ГЕОнезависимые запросы?

Да, знаю. Это анахронизм периода начала второй половины первого десятилетия 21 века. Когда в интерфейсе Яндексе существовала галочка «сайты из региона», не применялись переформулировки запросов в нынешних объёмах и не использовалась технология Спектр.

Сегодня, слава птицам, каждый запрос может быть и геозависимым и геонезависимым одновременно.  Это когда поисковик знает по поведению пользователей, что для кого-то данный запрос является информационным. То есть  кого-то интересует ответ на вопрос что это такое. И лучшим ответом  будет энциклопедия. В этом случае запрос трактуется и модифицируется поисковиком как геонезависимый.

А для других пользователей этот запрос является транзакционным. То есть они уже знают что это такое, но хотят узнать где и по какой цене эту штуковину приобрести.  Жителя Петербурга мало интересуют предложения из Москвы. И тот же самый запрос трактуется и модифицируется как геозависимый. С добавлением к исходному запросу топонима, а так же слов цена и купить. Пример? Пусть будет запрос гидромодуль.

То есть для оптимизатора важно знать как исходный запрос пользователя был изменён поисковиком.  А если применяется СПЕКТР, то любой изначально геозависимый запрос превращается поисковиком  в геонезависимый лёгким движением руки добавлением к исходному запросу довеска своими руками или фото. Или другим модифицирующим довеском, например что такое.

И это всё в рамках одного исходного запроса. Таким образом, [bctt tweet=»геозависимостью обладает не запрос, а ответ на него» via=»no»]

Оптимизатор может сам принять решение, как продвигать сайт по запросу: как по информационному или как по транзакционному. И выберет для оптимизации разные документы с сайта. Или создаст новые. И если продвижение не ограничивается одним Default-city, а подразумевает продвижение сразу по нескольким регионам, то лучше выбрать информационный вариант. Чем париться с перечислением всех регионов на странице.

А что хотел узнать у соискателя господин директор? Работал ли соискатель на рынке в дветысяче-лохматом году?

Перейдём к другому вопросу директора:

Вы знаете, что такое BM25?

Да-да-да. Это семейство ранжирующих функций, которые сильно влияли на позиции сайтов в вебпоиске. До изобретения PageRank.  Ещё знаю, что среди пресловутых 800 факторов ранжирования Яндекса данное сочетание букв применяется чаще других. Однако знания о BM25 скорее вредны для оптимизатора. И вот почему.

  1. И в этом случае гораздо важнее знать переформулировки исходного запроса.  Тот самый гидромодуль для хорошего ранжирования требует присутствия в документе, к примеру, слова чиллер. Можно ли извлечь данный факт из знания о BM25? Нет.
  2. Попытка оптимизировать документ под BM25, то есть подобрать «оптимальную» плотность ключевых слов в разных частях документа, вероятнее всего ухудшит метрики качества текста (читабельность, естественность, применение общеупотребимых и редких слов, синонимов и т.д. )  Влияние этих метрик на ранжирование ничуть не меньше, чем BM25. Это основы борьбы с дорвейным автогенерённым контентом.
  3.  Вообще любые попытки угодить поисковику больше, чем посетителю, вероятнее всего скажутся на ранжировании негативно.  Всё дело в поведенческих факторах ранжирования. То есть оптимизатору гораздо важнее знать как побудить посетителя к взаимодействию с сайтом, чем о BM25.

Спрашивал ли директор о признаках качественного и не очень качественного текста, о том как влиять на кликабельность сниппетов и нужно ли это делать, как побуждать посетителя взаимодействовать с сайтом? Нет.

Выводы:

Сегодня гораздо проще взять толкового копирайтера, чем искать реликтового seoшника, знающего о TF/IDF и BM25. Где найти такого копирайтера — отдельный вопрос. Но переучивать и его будет не легко. И обучить этого копирайтера азам оптимизации. Вместо того, чтобы обучать сеошника копирайтерскому ремеслу (не путать с продажей знаков за рубли).  Готовый оптимизированный текст, вышедший из под пера такого копирайтера, должен содержать все ключевые слова из переформулировки поисковой системы. Каковые можно и нужно определять автоматически, без человеческого участия.

Количество же повторений конкретного слова в тексте должно определяется исключительно коммерческой целесообразностью. А не мифической формулой, коэффициенты которой либо неизвестны вовсе, либо определяются с точностью плюс-минус лапоть. Текст должен побуждать посетителя купить, а не поблевать на экран.

Дополнительно такой текст хорошо прогнать через сервис Главред  (или его аналоги). Чтобы окончательно избавиться от воды, свойственной многим копирайтерам. Особенно пишущим тексты по ТЗ от seoшников. И заодно сделать этот текст 100% уникальным. В среднем по больнице такой текст проблем с ранжированием иметь не будет.

Если дизайнер, верстальщик и админ не запороли ПФ на корню.

Вышеизложенные соображения, на мой взгляд, очевидны для каждого практикующего сеошника. Директора же, застопорившегося в своём профессиональном развитии, как впрочем и положено начальнику, сосредоточенному на управлении, от собеседований по существу профессии лучше отстранить. Или я не прав?

Поделиться Вконтакте
Плюсануть
Posted in SEO

27 комментариев к “Почему вредно знать о BM25?

      1. Я больше про саму подачу поста 🙂

        Возможно, рассказ вспомнился и не к месту, читал его больше десяти лет назад, может чуток и подзапамятовал, что там к чему. Но почему-то он вдруг тут вспомнился, а таким событием не грех и в комментариях поделиться.

    1. Толковому копирайтеру достаточно проинтервьюировать 2-3 экспертов в области. Я имел опыт работы с лондонским копирайтером. Он брал 100 фунтов за лист А4 и несколько недель времени. Общался с заказчиком, потом с конкурентами заказчика. Итоговый текст согласовывал с экспертом. Вряд ли он становился экспертом в области, но в тему погружался. В общем-то это обычная работа добросовестного журналиста.
      На постсоветском пространстве понятие копирайтера девальвировано.

  1. Когда пишешь про поведенческие, то не забывай про фотографии и про визуальные, ассоциативные образы, дополняющие хороший контент и будоражащие воображение пользователя.

    1. Сергей, фотографии это очень ОК. Но поисковик фотографию оценивать не умеет. Поведение для него это QDwellTime и AvSatSteps (и десятки других параметров). Фотография на них может повлиять, а может и не повлиять. Особенно стоковая 🙂

  2. TF/IDF и BM25 считаю штуками ненужными, ибо они пользователю не важны вообще. И могут лишь сказаться на тексте который будет иметь вид чегото научного……Вобщем, лишь навредят. Многие пишут в текстах большие тексты в вхождениями …..»купить холодильник в чебоксарах»……. для робота. А человек на такую страницу придет находясь в Чебоксарах и так. А когда есть семантично правильная кнопка действия «купить,заказать,в корзину и т.д.» то само собой разумеющаяся что пользователь хочет сделать транзакт. Текстовая фактор сейчас все менее играет роль чем в каменных двухтысячных годах. Сейчас юзабилити, удобство и полнота инфы влияют. А вот того кто напишет человеческим языком просто и понятно плюсы и преимущества например какого нибудь проволочного резного станка….такого копирайтера искать и искать…Ну и чтобы и читалось легко и захотелось купить после прочтения текста 🙂

    Вангую ты про этого директора на Роем прочитал там холивар развился в ветке этой статьи.

      1. Дело не в том что круто. Просто писать въевшиеся всем технические характеристики не оч правильно. Да они должны быть, но не замудреном языке. К тому же очень важно провести технико-экономическое обоснования почему например именно этот станок, его преимущества выделить, просто текстом дать понять что он делает сколько стоит что дает и все. Ничего лишнего. Фото, видео. Сравнения с аналогами. Больше ничего не надо. Мне вот оч интересно что будет в СЕО лет через эдак 15. Ведь все сводится к визуалу например.

      2. Про сравнения с аналогами согласен. Вопрос в том, кто будет сравнивать? Продавец конкретного станка слабо знает даже свой станок, чего уж ждать о знании аналогов? А производитель станка ещё с советских времён занимается производством, а не сбытом. И отдела маркетинга не имеет.

        SEO, если выделить из него модное словосочетание data mining, было и будет очень тонкой специализацией на стыке знаний веб-мастера и веб-админа. Устранение помех с пути робота, тюнинг производительности связки веб-сервер< --->веб-клиент, семантическая разметка содержимого. Раньше были только keywords и descriptions, сейчас есть расширенная микроразметка. Дальше сущностей для разметки будет только больше.

      3. Ну как сказать. В силу бюджетов и в силу совместных усилий стараюсь работать и вести проекты. Да, обычно очень часто а именно 90% заказчиколв даже цены не хотят давать, а при этом хотят что на сайт по целевым транзакт-запросам приходили. лол. Толку то? Чел придет по запросу. Увидит что нехуя нет и уйдет к другим у которые есть)))) Трудно вести диалоги на тему контента тем более текстового с заказчиками и брать «основу». Есть и «такие» что фото для интернет-магазина дают сфотканное на телефон в 1.3М пикс.

      4. К слову, уникальное фото, пусть даже на телефон, может производить лучшее впечатление, чем фото из каталога производителя, растиражированное на тысячах сайтов. И был печальный опыт, когда клиент заказал фото у профессионала, а получилось так, что лучше бы в фотошопе коллаж сделали. Клиенты любят тотально экономить на всём. Увы.

      5. Мое рабочее утро начинается обычно с просмотра сайтов как: fwa, csswn\innwers, awwwards и т.д. Так вот. Там визно «Запад» и качество контента не т о что у нас в РФ. Оооочень много чем отлично. Дело не в экономии. дело в том что сейчас все кричат — пощиции, сео шмео, юзабилити, пф. А как? Сделав ПФ на заготовке? Но и на контенте должно быть тоже все айс. Контент должен решать и он решает. Сео инвестиция, вложишь, получишь. А те что кричат мол гарантий нет, не правы. За весь мой опыт работы не разу не было чтобы не было какого либо результата в плане пользы сайту, а потом и заказчику. Просто надо подходить к проектам так как с своему личному а не на авось, в этом и есть главная ошибка сеошников и студий/агентсв.
        Не важны Тицы, Пиары, ИДФы и БМы, важно другое — польза от сайта измеряемая в конечено проставленный kpi. Ну например. Хочу увеличить посещалку сайта за 3 месяца на 20%. Тестю гипотезы. Делаю. Тестю. Чтото убираю/добавляю. Опять тестю. Очень многие этим пренебрегают. Даже студии считают про прописали роботс, удалил дубли, покупают ссылки — вот вам и сео платите нам по 50к в месяц. Хотя это не оптимизация сайта. Она единоразова а не постоянна. А вот аналитика, редактура, процесс обращивания уже процесс более трудоемкий и результативный. Но зачем? Если можно напряччся немножко и доить постоянно сами знаете кого. Ну кому как, я лично привык на результат работать причем ощутимый, как трафиком, как позициями, как конверсиец, там и много чем еще. В сайтах нет предела совершенству и огромное пространство для фантазии. Ну это моя личная позиция. У кого как.

      6. Подход хороший, спорить не буду. Только при таком подходе всё может закончится концентрацией только на своих, а не чужих проектах, нет?

      7. У меня мало своих проектов. Большинство проектов которые я веду клиентские. Я не концентрирую их. Делая для клиентов как для себя по нескольким причинам:
        1) клиентоориентированность
        2) работа на результат
        3) долгосрочные отношения
        4) сарафан
        …и еще 100500 причин

        Дело в большинстве случаят в самих клиентов: в виду их лени или самодурства. Вот в данный момент я веду проект дилера одного по продаже большоног оборудования. Сайт оптмиизирован по самые яйца (кроме контента). Т.к. на копирайтера он тратиться не хочет говорит буду сам писать. Что он пишет -шлак. Но дело не мое пусть пишет его желание. Далее, на сайте стояли цены. Было порядка 2-3 лида в день по Метрике. Коллтрека не стоит так что про звонки ничего не могу сказать но они наверняка были. Потом он цену убрал. Не хочу говорит светить. Так вот конверсия и упала после этого, и трафик снизился с гугла и Яндекса, т.к. стояла разметка товарная и фиды xml маркетские которые в выдаче цену показывали (делая сниппет выделяющимся и красивым среди других)….Да и контента на сайте кот наплакал. Но аже при таком раскладе позиции топыч. Но дело его. Я не вмешиваюсь. Я уже 100500 раз ему говорил как надо но он не слушает. Результат как видишь очевиден.
        Но будь хороший контент и полнота его раскрываемости, было бы по другому.

  3. >>>>должен содержать все ключевые слова из переформулировки поисковой системы. Каковые можно и нужно определять автоматически, без человеческого участия.
    И где такую разбивочку заполучить автоматом?

    1. Всё есть в SERP’е. Где получить — не знаю. Я пользуюсь инхаузным копипастом 🙂
      Планирую… Нет скорее мечтаю освоить Python для автоматизации.

    2. Вордстатом. Например у тебя интернет магазин по продаже бараньих яиц. Представим что кластер запросов по кею баранья яйца содержит такую выборку:
      баранья яйца купить
      баранья яйца купить цена
      баранья яйца купить в интернет магазине
      баранья яйца цена
      баранья яйца отзывы
      баранья яйца от производителя

      Теперь представим что есть станица этого товара. Где написан текст что эти баранья яйца очень вкусные и хорошие отменного качества и по низкой цене относительно. Что ими все довольны о чем говорят отзывы и есть в продаже этого магазина и всегда в наличии прямо с фермы.
      Также на странице указано что они стоят 100 рублей и имеется кнопки «Купит аля в корзину», купить в 1 клик и задать вопрос или оставить отзыв
      Далее идут отзывы которые говорят о том что они очень вкусные отменного качества и прибавляют мужских сил мужикам.)
      Исходя из этого, твоя 1 страница уже отвечает на все эти запросы что указаны выше. Вообще старая сеошная тема 1 запрос-1 страница применима сейчас разве что к дорвеям.

      А вот ращзбивочку получать ручками и работая при этом головой. Ведь не надо а иногда и вредно смешивать информационный и коммерческие запросы на одной странице. Луячше перелинковкой делать. Автоматизированные сервисы что занимаются кластеризацией дают шлак. Так что руками это делать. Да, это время, но и качество в лучшую сторону будет.

  4. Зря вы приплели в статью некоего абстрактного директора. Как в вашей сфере есть неочевидные окружающим вещи, так и в сфере собеседований есть неочевидные вам моменты.
    «А что хотел узнать у соискателя господин директор? Работал ли соискатель на рынке в дветысяче-лохматом году?» Не поверите, но да, именно и могло интересовать человека. Или это был вопрос с подвохом, ответ на который сразу выдает с головой всю профподготовку соискателя.
    Про ВМ25 директор спросил буквально «знаете ли вы что это такое». Все. Ответьте «да, знаю» и спросите зачем ему это, и только на основании _ответа_ можно делать выводы о компетенции директора, а не на основании факта, что вам задали такой вопрос. (На собеседовании вообще могут спросить, когда вы в последний раз били кого-то, это же не значит, что директор маньяк и на корпоративах там кулачные бои.) А так вы по сути поговорили не с реальным человеком, а с придуманным вами образом.
    У работников современной IT и около-IT сферы есть огромная проблема — вы категорически не умеете общаться с людьми. Про карты реальности что ли почитайте… Или там базовый курс коммуникации пройдите. А то сотрудника невозможно найти грамотного и без короны на башке — какой вопрос ни задашь, все не так.
    Если директор существует и собеседование действительно было — вы его благополучно провалили. Потому что вы _не разговариваете_ с человеком, вы разговариваете с его образом в своей голове. Я, например, не хочу, чтобы мой сотрудник придумывал мне мои мысли. А потом еще и выводы какие-то делал.

    1. Тут проблема совсем в другом. Дело в том, что работник либо даёт результат, либо не даёт. Умеет заготавливать чурки из полена, либо не умеет. Рекрутёр же пытается выяснить, знает ли работник, что эта операция называется «бить баклуши». То есть он ищет не ложкаря, а филолога. А потом кричит на весь рунет, что работников нет.

      1. И как, простите, определить, какого качества чурки человек заготавливает, не спрашивая того ни о чем? И да, мне важно знать, что значение слов «бить баклуши» в моей голове совпадает со значением в голове сотрудника, иначе когда я дам реальное задание, то могу получить не тот результат. А вы, при первой попытке это сделать, сразу встаете на дыбы.
        Я, например, для начала могу задать подобный по уровню вопрос из сферы рендеринга на CPU, и ждать реакции соискателя. Правильного ответа на этот вопрос _нет_. В ответ я жду что угодно: что человек в этом не шарит, но имеет богатый опыт с GPU и CUDA, я жду встречных вопросов в стиле «а что, у вас сейчас есть подобный проект?», или что мы перейдем к обсуждению плюсов и минусов таких систем. Если я намеренно сделала ошибку в формулировке вопроса — я жду, что человек эту ошибку заметит, уточнит вопрос, как-то отреагирует… В целом, я жду _диалога_.
        А по факту что? Соискатель делает морду обиженным кирпичом, на собеседовании ничего толком не говорит, а потом приходит домой и в фейсбучке выкладывает постик, какие в компании N идиоты: до сих пор рендерят на CPU, когда есть CUDA.
        Печально это все.
        P. S. К сожалению, вам недоступно понимание всего, что я тут говорю, просто потому, что у вы не владеете даже основами переговоров. Буквально «программно не поддерживаете».

  5. Артем, что-то у вас оповещения плохо работают — то в спам, то вообще не приходят)

    1. ГНЗ И ГЗ это не анахронизм.
    Это свойство ИМЕННО запроса (одно из многих), а не конкретного ответа не него.
    Свойство, подразумевающее, что для пользователей из разных регионов ЧАСТЬ результатов будет отличаться. Понимаете? Вы можете продвигать информационный ответ по запросу, но вы НЕ МОЖЕТЕ повлиять на другие результаты в выдаче, зависящие от ГЗ или ГНЗ классификации. Именно поэтому, это свойство запроса, а не ответа.

    1б) С чего вы взяли, что такие слова как «цена», «купить» и «топоним» приписываются к исходному запросу в переколдовке?

    1в) Вы серьезно думаете, что этот вопрос ничего не можете сказать о кандидате? Какова вероятность, что кандидат знающий ответ на вопрос, будет «лучше» того, кто не знает? Я думаю, отличная от нуля.

    БМ25
    2) Почему Вы решили, что «гидромодуль» требует для хорошего ранжирования «чиллер» ? Синонимами они не являются.
    3) Понимание таких вещей как бм25 и тд, дает хоть какое-то представление о том, как пс могут ранжировать и классифицировать тексты и т.д.
    Если почитать работы яндекса с ромип (про бм25ф), то становится ясно, что лучше вписывать запрос в точной форме, что расстояние между слова тоже играет какую-то роль (пусть и малозначимую) и тд и тп, всё это позволит создать структуру страницы более/чуть более оптимизированную под пул запросов, нежели отсутствие этого знания.

    Скорее всего кандидат, не знающий ответов на простые вопросы, типа «ГЗ или ГНЗ», БМ25 и т.д. является или тупой пробкой, который делает что-то не задумываясь о причинах и следствиях, либо новичком. Если он новичок — ок, можно пустить собеседование по другой ветке, с целью определить его СПОСОБНОСТИ, а не имеющиеся знания (их понятно, пока что нет).
    Вообще, собеседование можно сравнить с ранжированием — чем больше вопросов задашь, тем более полную картину о кандидатах получишь, что позволит принять лучшее решение.

    1. Винер, спасибо за развёрнутый комментарий.

      1. Этот пост пятничный. Шуточный. Провокационный. Результат удовлетворительный 🙂 Это один из самых популярных моих постов в соцсетях.

      Если интересно моё личное мнение, то я считаю, что лидер рынка должен брать толковых студентов и обучать их самостоятельно, без оглядки на конкурентов. А не жаловаться на то, что конкуренты не готовят ему специалистов. Понятно, что это пиар, но очень грубый.

      2. Все данные я беру из SERP’а. Если в топе по запросу гидромодуль только документы про гидромодули для чиллеров, то слово чиллер придётся упомянуть. Есть такой старый добрый термин — устойчивое словосочетание. Сейчас модно использовать другой термин — латентные семантические связи.

      P.S: я постараюсь улучшить доставляемость писем с моего сервера, но как правило в спам письма попадают потому, что пользователи раньше помечали похожие письма как спам. То есть я мало на что повлиять могу.

      1. Вот кстати, что касается связки гидромодуль + чиллер и подобных — интересно, какой фактор все-таки главенствует, заставляя поднимать в выдаче документы определенного типа (где есть «чиллер», например)?
        Это кликовые (юзеры кликают чаще на те доки, где есть чиллер, вот они и выше), либо действительно че-то типо lsi?
        Вообще, интересен вопрос построения политематичных выдач — когда запрос неоднозначный, а в выдаче по несколько документов разных типов (инфо, коммерс и тд).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *