- Что такое машинное обучение?
- Вид целевой функции обучение с учителем
- Что такое регрессия
- Группы факторов ранжирования
- Текстовые факторы
- Ссылочные факторы
- Поведенческие факторы
- Запросные факторы
- Документные факторы
- Персональные факторы
- Коммерческие факторы Яндекс и EEAT факторы Google
- Классы решающих функций
- Нейронные сети
- Предикаты
- Ансамбли
- Этапы улучшения модели ранжирования
- Зачем нужны все эти модели, функции, способы в ML
- Практическое задание
- Ссылки на источники
- Пройдите другие SEO-уроки с практическими заданиями в бесплатном курсе
Это второй урок в рамках моего бесплатного SEO-курса по оптимизации сайта в поисковых системах.
Что такое машинное обучение?
Машинное обучение — это способность машины обучаться на собственном опыте. Алгоритмы машинного обучения применяются в поисковых системах для улучшения качества результатов поиска, чтобы находить наиболее релевантные страницы сайтов по запросам пользователей и ранжировать их.
Машинное обучение, условно, можно поделить на 3 группы множеств:
- Способ получения опыта
- Вид целевой функции или т.н. таргет
- Класс решающих функций
Одним из способов получения опыта об объекте (например, продвигаемом документе определенного сайта) является многорукий бандит, который применяется поисковой системой Яндекс.
Касательно разновидностей целевой функции выделяют такие группы, как:
- С учителем
- Без учителя
- Комбинированные
Для задач информационного поиска, как правило, интересны такие целевые функции в рамках группы «С учителем», как:
- Регрессия
- Отношение порядка

Вид целевой функции обучение с учителем
Обучение с учителем — это тип машинного обучения, при котором алгоритмы учатся на основе данных, для которых известны правильные ответы (учительские метки).
В информационном поиске, в частности, это означает, что у нас есть набор запросов и для каждого запроса известны правильные результаты поиска или релевантные документы, которые должны быть возвращены. Обучение с учителем используется для обучения моделей, которые могут ранжировать результаты поиска, чтобы предоставить лучшие ответы на запросы пользователей.
Теперь рассмотрим три подхода к обучению с учителем в информационном поиске:
- Pointwise (по пунктам): в этом методе каждый запрос-документ рассматривается отдельно. Модель обучается предсказывать релевантность документа для конкретного запроса.
Пример: обучение модели, которая выбирает более релевантный документ по запросу, на основе того, который уже выбрал асессор (специалист, который оценивает результаты поиска по запросам), из множества других документов (датасета), которые подаются на обучение.
Но при этом подходе модель не учитывает порядок документов по степени их релевантности. - Pairwise (по парам): здесь модель обучается на основе пар запросов и документов. Задача состоит в том, чтобы определить, какой из двух документов более релевантный для данного запроса.
Пример: обучение модели, которая выбирает более релевантный документ из двух вариантов для каждого запроса. - Listwise (по спискам): В этом методе алгоритм обучается ранжировать все документы для данного запроса одновременно. Задача состоит в том, чтобы определить оптимальный порядок документов в результатах поиска.
Пример: обучение модели, которая упорядочивает список документов по степени их релевантности по запросу.
Все эти методы используют обучение с учителем, но различаются в том, как они учитывают информацию о релевантности и взаимодействии между запросами и документами при обучении модели ранжирования.
Что такое регрессия
Регрессия в машинном обучении — это метод статистического анализа, который используется для моделирования и анализа отношений между зависимой переменной (целевой переменной) и одной или несколькими независимыми переменными (признаками).
Регрессия позволяет предсказывать или оценивать численное значение зависимой переменной на основе значений признаков. Этот метод применяется в различных областях, включая информационный поиск, финансы, экономику, медицину и др.
Пример использования регрессии в информационном поиске
Допустим, нужно создать модель для предсказания рейтинга веб-страниц на основе различных признаков. В качестве признаков (фичей) могут выступать факторы, такие как количество внешних ссылок на страницу, длина текста, наличие ключевых слов и множество других. Данные факторы представляются в виде числовых значений, которые описывают как запрос, так и документ по нему.
Рейтинг страницы (зависимая переменная) будет численным значением, и можно использовать регрессию для построения модели, которая предсказывает рейтинг страницы на основе указанных выше признаков.
Группы факторов ранжирования
Факторы ранжирования в информационном поиске включают в себя различные аспекты, которые учитываются при определении релевантности документов поисковой системой для конкретных запросов пользователей.
Текстовые факторы
Текстовые факторы ранжирования — эти факторы оценивают текстовое сходство (релевантность) между запросом пользователя и содержанием документа. Они включают в себя анализ ключевых слов, фраз (их количество, словоформы, словопозиции, в каких зонах расположены слова), семантических сходств (близость), контекст. Чем больше текстовое сходство между запросом и документом, тем выше его текстовая релевантность.
Ссылочные факторы
Ссылочные факторы ранжирования основаны на ссылках, как внутренних (расположенных внутри сайта), так и внешних ссылок (указывающих на сайт в целом или конкретный документ из других источников), а также на их количестве и качестве. Документы, на которые ссылаются более авторитетные и релевантные источники, могут иметь более высокую ссылочную релевантность.
Поведенческие факторы
Поведенческие факторы учитывают поведение пользователей при взаимодействии с результатами поиска, конкретным сайтом и его документом. Они включают в себя такие параметры, как:
- Внешние поведенческие — клики на страницы результатов поиска, переформулировки запроса, взаимодействие со сниппетами на выдачи.
- Внутренние поведенческие — время, проведенное на странице (длина клика), взаимодействие с документами (например, прокрутка страницы, просмотр видео, переходы по ссылкам на другие страницы), возврат в выдачу.
Запросные факторы
Запросные факторы — это факторы, которые учитывают запрос пользователя. Они включают в себя такие параметры, как длина запроса, наличие ключевых слов, семантическая структура запроса, тип запроса, тематика, частотность, конкуренция, геозависимисть и т.д. Запросные факторы помогают определить, какие документы наиболее релевантны для конкретного запроса пользователя.
Документные факторы
Документные факторы оценивают характеристики самих документов. Они включают в себя такие параметры, как длина документа, его возраст, структура страницы (например, заголовки, списки, анкоры), качество и уникальность контента, наличие изображений, видео и других медиа-элементов. Документные факторы помогают определить, насколько документ соответствует запросу.
Персональные факторы
Персональные факторы учитывают индивидуальные характеристики пользователя, его предпочтения и историю взаимодействия с поисковой системой. Они могут включать в себя личные настройки пользователя, его местоположение, историю поиска и просмотра, а также контекст запроса (например, устройство и время суток). Персональные факторы позволяют предоставить пользователю персонализированные результаты поиска.
Коммерческие факторы Яндекс и EEAT факторы Google
Чтобы не повторяться, рекомендую ознакомиться с информацией в материале про коммерческие факторы ранжирования Яндекс и факторы EEAT Google.
Каждый из этих факторов играет важную роль в определении релевантности документов для конкретных запросов, и их комбинация позволяет предоставлять более точные и релевантные результаты поиска.
Классы решающих функций
Классы решающих функций в информационном поиске представляют собой наборы функций или алгоритмов, которые используются для принятия решений о релевантности (или нерелевантности) документов для конкретного запроса. Эти функции оценивают, насколько хорошо каждый документ соответствует запросу и определяют порядок ранжирования результатов поиска.
Выбор и настройка подходящей решающей функции является ключевой задачей в задачах ранжирования результатов информационного поиска.
Наиболее распространенными классами решающих функций в информационном поиске являются:
- Нейронные сети
- Предикаты
- Ансамбли
Нейронные сети
Нейронные сети в информационном поиске представляют собой вычислительные модели, которые моделируют сложные зависимости между данными, включая запросы пользователей и текстовые документы, чтобы улучшить ранжирование результатов поиска и качество самих поисковых систем.
Нейронные сети в информационном поиске могут использоваться для:
- Анализа семантики запросов.
- Извлечения признаков из текстовых данных.
- Для ранжирования результатов поиска на основе предсказанных релевантностей.
Примеры нейронных сетей, которые используются Google и Яндекс в информационном поиске:
- Google
- BERT (Bidirectional Encoder Representations from Transformers): Google использует модель BERT для понимания семантики запросов и документов. BERT способен анализировать контекст запроса и текста документов в обоих направлениях (с обратной связью) и понимать значения слов и фраз в контексте.
- Яндекс
- CatBoost: Яндекс использует алгоритм машинного обучения с учителем, известный как CatBoost, для задачи ранжирования результатов поиска. CatBoost является градиентным бустингом с категориальными признаками (то, что невозможно описать в виде числовых значений, описывается в виде категорий текстом) и может учитывать множество признаков для ранжирования документов. В его основе лежат наработки алгоритма Матрикснет.
Градиентный бустинг — это метод, при котором поочередно создаются простые модели, которые позволяют улучшить целевую функцию. Вместо того, чтобы сразу же создавать сложную модель, постепенно добавляется и комбинируется множество маленьких моделей.
Т.е. строится определенное количество деревьев, где каждое новое дерево пытается решить ошибки предыдущих деревьев, тем самым снижая ошибки на всей обучающей выборке, для предсказания похожести документа конечному таргету (размеченному асессорами).

Таким образом, происходит постепепенное обучение алгоритма за счет акцентирования внимания на тех случаях, которые были на предыдущем этапе до тех пор, пока не будет максимального приближения к конечному таргету.
При этом, это всего лишь несколько примеров нейронных сетей и алгоритмов машинного обучения, которые используются Google и Яндекс для решения задач информационного поиска.
Читайте подробнее про эти и другие алгоритмы текстового ранжирования в материале: Как делать текстовый анализ в SEO для продвигаемых страниц сайта: алгоритмы, инструкции и пример ТЗ копирайтеру
Предикаты
Предикаты в информационном поиске представляют собой условия или выражения, которые используются для формулировки запросов или фильтрации результатов поиска. Предикаты позволяют пользователю задавать конкретные критерии поиска и настраивать его, чтобы получить более точные и релевантные результаты.
Примеры предикатов в информационном поиске могут быть:
- Ключевые слова: пользователь может использовать ключевые слова в запросе, чтобы указать конкретную тему или контекст поиска. Например, «фотоаппараты Canon», где «Canon» является более значимым для пользователя ключевым словом для фильтрации видов фотоаппаратов.
- Даты: пользователь может указать диапазон дат, чтобы найти информацию, опубликованную в определенный период времени. Например, «новости за последний месяц».
- Местоположение: предикаты местоположения могут быть использованы для поиска ближайших магазинов, ресторанов или других объектов в определенном районе. Например, «рестораны в Бухаресте».
- Типы документов: пользователь может указать типы документов, которые интересуют его, например, «PDF», «изображения» или «новости».
- Параметры цены: в интернет-магазинах можно использовать предикаты для поиска товаров в определенном ценовом диапазоне. Например, «смартфоны до 500 долларов».
- Авторы: можно искать документы, написанные определенными авторами или именами.
Поэтому, предикаты используются вместе с моделями машинного обучения для уточнения запросов или фильтрации данных (помогают ограничивать поиск по определенным характеристикам).
Ансамбли
Ансамбли представляют собой комбинации нескольких моделей или методов для улучшения качества прогнозов или решений. В информационном поиске, ансамбли могут использоваться для ранжирования результатов, объединения разных алгоритмов ранжирования или классификации. Пример: построение ансамбля из нескольких моделей ранжирования.
Наиболее распространенным примером ансамблей в моделях машинного обучения является уже известный нам градиентный бустинг CatBoost в Яндекс. Эта модель комбинирует несколько деревьев решений для улучшения качества прогнозов.
Этапы улучшения модели ранжирования
- Сбор и подготовка данных
- Сбор данных: собираются данные о запросах пользователей, результатах поиска и их релевантности. Это могут быть данные из логов поисковой системы или специально собранные данные по типу текстов документов или ссылочного графа.
- Подготовка данных: данные обрабатываются и готовятся для анализа. Это включает в себя удаление дубликатов, обработку текстовых данных и разделение данных на обучающую и тестовую выборки.
- Экспертная оценка релевантности
- Экспертная оценка: эксперты (ассессоры) оценивают релевантность результатов поиска по конкретным запросам.
- Построение модели ранжирования
- Выбор модели: Выбирается модель машинного обучения или алгоритм ранжирования, который будет использоваться для предсказания релевантности результатов поиска.
- Обучение модели: Модель обучается на основе данных об оценках релевантности от асессоров и других признаков (фичах, аспектах).
- Оценка и валидация
- Модель оценивается на тестовой выборке для оценки ее точности и качества ранжирования.
- Интеграция дополнительных факторов
- Дополнительные признаки: кроме экспертных оценок релевантности, в модель можно интегрировать другие факторы, такие как наличие ключевых слов, их количество и словоформ на странице, авторитетность и достоверность документа, клики по нему и др.
- Итеративное улучшение
- Оценка результатов: результаты модели регулярно оцениваются с использованием таких метрик, таких как DCG и nDCG, Pfound, о которых мы поговорим на уроке по оффлайн-метрикам качества поиска.
- Обратная связь: оценки результатов и обратная связь от пользователей используются для дальнейшего улучшения модели ранжирования.
- Мониторинг и обновление
- Мониторинг: работа модели мониторится в реальном времени, чтобы обнаруживать изменения в качестве ранжирования и принимать меры по их коррекции.
- Обновление: модель может периодически обновляться с учетом новых данных и изменяющихся потребностей пользователей.
В Яндекс обучение поисковой системы проводится за счет:
- внутренней службы асессоров;
- удаленных специалистов из сервиса Яндекс.Толока, toloka.ai и Яндекс.Знания.
Реферер Толоки в логах сайта означает, что документ был оценен и его оценка далее ушла на обучение. Асессоры Толоки напрямую не влияют на результаты выдачи. В Яндекс используются следующие рефереры асессоров:
- ifrema-yang.yandex
- iframe-tasks.yandex
В Google же существует штат рейтеров (асессоров), которые, иногда, могут влиять напрямую на результаты выдачи. Заходы на сайт можно отследить с помощью рефера raterhub.com.
Их оценки используются для:
- оценки результатов качества поиска;
- построения метрик для оценки качества поиска;
- машинного обучения;
- настройке формулы ранжирования.
Зачем нужны все эти модели, функции, способы в ML
Нам, как SEO-специалистам, нужно понимать, как используется машинное обучение в поисковых системах и на что оно влияет. В общих чертах, не вдаваясь в сложные математические формулы.
И понимать то, что с внедрением алгоритмов машинного обучения в поиске, проводимые SEO-работы и достигаемый результат стали более трудо- и временнозатренее. Потому что:
1. Для каждого поискового запроса строится своя уникальная формула ранжирования — поэтому, при выборе поискового запроса или группы запросов для оптимизации страницы сайта обязательно проводите группировку по ТОПу поисковой выдачи, чтобы понимать тип запроса/группы запросов, какие страницы преобладают в ТОПе (например, коммерческие или информационные). В уроках про сбор семантики мы также научимся это делать.
Если большинство страниц в ТОП-10 по запросу коммерческие, то и вам желательно делать коммерческую страницу, подстраиваясь под факторы на этих страницах для проработки вашего дизайн-шаблона и групп факторов, рассмотренных выше.
Но, тип запроса может меняться со временем. И это может быть видно на основе мониторинга позиций продвигаемых поисковых запросов, когда, например, запрос вылетел из ТОП-10, тип выдачи поменялся и в ТОП-10 преобладают больше информационных страниц, которые заменили коммерческие. В таком случае и вам нужно подстроиться снова под изменившиеся реалии на выдаче.

2. Нужно воздействовать сразу на все факторы одновременно, чтобы прокачивать сразу доменные факторы (его траст) — поэтому, вам нужно максимально раскрыть каждую продвигаемую категорию/раздел за счет создания качественных дополнительных страниц, чтобы увеличить запросный индекс (количество поисковых запросов в поисковой системе, по которым ранжируются страницы вашего сайта). Улучшить коммерческие и функциональные факторы. Проработать EEAT факторы. Постепенно инициировать простановку внешних ссылок для улучшения позиций в Google и заниматься улучшением поведенческих факторов под Яндекс.
3. Внедряем изменения на продвигаемых страницах итерациями (периодическими подходами) и фиксируем тренд за определенной промежуток времени — изменили вхождения, отправили на пересканирование страницу через панели веб-мастеров, проверили через неделю изменение по позициям продвигаемых ключевых слов/фраз и через 2-3 недели по поведенческим факторам и только после делаем выводы — масштабировать то, что вы внедрили далее или откатывать назад изменения, если они не дали положительного результата.
4. Результат может появиться на сразу, нужно время для накопления данных — смотрите, что писал выше.
5. Нет четкого понимания, сколько точно нужно вхождений запросов в текст, внешних ссылок, кликов (если накручиваете поведенческие) — потому что есть только понятие диапазона допустимых значений, в котором и работаем, чтобы не допустить наложения антисмап-фильтров и санкций.
Поэтому, при оптимизации страниц по запросам подстраиваемся под средние (медианные значения) по ТОПу, ведем учет по каждой продвигаемой странице, чтобы понимать, сколько, чего и куда было добавлено, чтобы можно было далее оперативно улучшать (например, добавить еще вхождений ключевых слов/фраз и/или внешних ссылок) или откатывать назад страницу, если изменения сыграли в минус.
Поисковой системе же данные модели, функции и способы нужны для того, чтобы помочь находить лучшие документы по запросам. Для этого используется машинное обучение на основе заранее проставленных оценок экспертов (т.н. асессоров) и машина учится на этих оценках. Т.е. асессор ставит себя на место пользователя и оценивает документ по конкретному запросу в соответствии с определенной инструкцией.
Таким образом, имеется произвольная выборка документов и выборка с размеченными документами асессорами. Эти две выборки (датасеты) подаются в модель обучения, которая предсказывает, что, например, документы с оценкой равной или больше 1 — релевантные, а с оценкой меньше 1 — нерелевавантные. И на основе полученных оценок модель ранжирует данные документы.
Например, у того же Яндекса есть разные модели (нейронные сети), которые могут предсказывать различные аспекты качества текста и кликов по таким документам на выдаче. И собрав данные, они передаются в нейронку Catboost для того, чтобы она на основе этих собранных данных предсказала релевантность документа запросу для его ранжирования.
Например, одним из таких аспектов является экспертная оценка релевантности документов, которая проведена асессорами (это прямые оценки смысловой связи запроса и документа, которые ставятся людьми на основе понимания текста, особенно для тематик, где нужны специальные знания в узкой области по типу юриспруденции, медицины, строительства, программирования).
Другим аспектом является качество документа, его авторитетность и достоверность. И по комбинации таких аспектов высчитывается итоговая релевантность документа.



Практическое задание
- Отдохнуть и перечитать материал еще раз
- Ознакомиться с дополнительными материалами по ссылкам, указанным по ходу урока и, при желании (дополнительно), в разделе ниже «Ссылки на источники»
Ссылки на источники
Пройдите другие SEO-уроки с практическими заданиями в бесплатном курсе
