Это перевод материала Natzir Turrado. В этом материале мы рассмотрим внутреннюю работу Google — инструмента, которым мы пользуемся ежедневно, но который мало кто понимает по-настоящему.
После недавней утечки документов по антимонопольному иску против Google у нас появилась уникальная возможность изучить алгоритмы работы Google. Некоторые из этих алгоритмов уже были известны, но интерес представляет внутренняя информация, которая никогда не предоставлялась нам ранее.
Мы рассмотрим, как эти технологии обрабатывают поисковые запросы и определяют результаты, которые мы видим. В этом анализе автор стремился дать четкое и детальное представление о сложных системах, стоящих за каждым поисковым запросом Google, а я — постараться сделать понятный перевод.
Раскрытие алгоритмов Google
Сначала мы сосредоточимся на извлечении всех алгоритмов, упомянутых в двух документах. Первый — это показания Панду Наяка (вице-президента Alphabet), а второй — опровержение профессора Дугласа У. Оарда, касающееся мнений, высказанных экспертом Google, профессором Эдвардом А. Фоксом, в его отчете от 3 июня 2022 года.
В этом последнем документе обсуждался знаменитый и спорный «отчет Фокса», в котором компания Google манипулировала экспериментальными данными, пытаясь продемонстрировать, что данные пользователей не так уж важны для нее.
Мы постараемся объяснить каждый алгоритм, опираясь на официальную информацию, если таковая имеется, а затем поместить извлеченную информацию в схему.
Таблица 6 компонентов ранжирования Google
Название компонента | Используемые данные |
Navboost | Логи запросов и кликов сводятся в таблицы, включая подсчеты из обучения. Затем, судя по всему, рейтинги IS вносят изменения в конечные результаты данного компонента. |
RankBrain | Обучается на основе пар предпочтений по кликам. Затем дорабатывается на основе рейтинга IS. Работает с униграммами и биграммами. |
DeepRank | Предобучен на документе (URL, title и salient terms) и запросах/локалях, а затем на данных о точечных и парных кликах. Затем дорабатывается на основе IS. Работает с фрагментами слов. |
Query based salient terms (QBST) | Обучается на документах и логах запросов/кликов. Интеграция в ранжирование обучена на рейтинге. Работает с униграммами и биграммами. |
RankEmbed-BERT | Обучается на документах, запросах, логах кликов и рейтинге. Используются salient terms и данные Navboost. |
Term Weighting | Обучается на логах запросов/кликов. Интеграция в ранжирование обучена на рейтинге. |
IS — это метрика Information Satisfaction Score, которая на 2021-й год имеет 4-ю версию (IS4), которая высчитывается на основе выставленных оценок ассесоров Google.
Navboost
Для Google это ключевой и один из самых важных факторов. Об этом также стало известно из утечки «Project Veritas» 2019 года, поскольку Пол Хаар добавил это в свое резюме.

Navboost собирает данные о том, как пользователи взаимодействуют с результатами поиска, в частности, через их клики по различным запросам. Эта система регистрирует клики и использует алгоритмы, которые обучаются на основе ассесорских оценок, чтобы улучшить ранжирование.

Идея заключается в том, что если результат часто выбирается (и получает положительную оценку) по определенному запросу, то он, вероятно, должен иметь более высокий рейтинг. Интересно, что много лет назад Google экспериментировал с удалением Navboost и обнаружил, что результаты ухудшились.
Короткая выдержка о Navboost
- Запущен примерно в 2005 году и с тех пор обновляется.
- Записывает данные о кликах по запросам за последние 13 месяцев, включая обучающие данные.
- Обучает функции, предназначенные для максимизации ранжирования результатов поиска.
- Сопоставляет значения сигналов на основе таблиц со скоринговым множителем.
- Различает мобильные и десктопные запросы.
- Учитывает местоположение и тип устройства при ранжировании.
- Математические модели обучаются параметрам, позволяющими максимизировать рейтинг результатов, полученных метрикой IS.
RankBrain
RankBrain, запущенная в 2015 году — это система искусственного интеллекта и машинного обучения Google, которая играет важную роль в обработке результатов поиска.
Благодаря машинному обучению она постоянно совершенствует свою способность понимать язык и намерения, лежащие в основе поисковых запросов, и особенно эффективна при интерпретации неоднозначных или сложных запросов.
Считается, что RankBrain стал третьим по значимости фактором ранжирования Google после контента и ссылок.
Для значительного повышения вычислительных возможностей и энергоэффективности в нем используется блок тензорной обработки (TPU).
Короткая выдержка о RankBrain
- Модель глубокого обучения, используемая в ранжировании Google.
- Обучена на основе предпочтений пользователей по кликам в результатах поиска.
- Настроена на основе данных о рейтингах IS.
- Понимает язык с помощью униграмм и биграмм.
- Рассматривает и анализирует оценки лучших документов.
- Более затратный по сравнению с другими компонентами ранжирования.
- Регулярное обучение на свежих данных по всем языкам и местоположениям.
Можно сделать вывод, что QBST и Term Weighting являются компонентами RankBrain. Поэтому они и включены сюда.
QBST
QBST (Query Based Salient Terms) фокусируется на наиболее важных терминах в запросе и связанных с ним документах, используя эту информацию для ранжирования. Это означает, что поисковая система может быстро распознать наиболее важные аспекты запроса пользователя и определить приоритетность соответствующих результатов. Например, это особенно полезно для неоднозначных или сложных запросов.
В документах QBST упоминается в контексте ограничений BERT. В частности, упоминается, что «BERT не является частью больших систем запоминания, таких как Navboost, QBST и т.д.».
Это означает, что, несмотря на высокую эффективность BERT в понимании и обработке естественного языка, он имеет определенные ограничения, одним из которых является его способность работать с крупными системами запоминания, такими как QBST, или заменять их.
Короткая выдержка о QBST
- Обучается на документах и записях кликов по запросам.
- Интеграция в ранжирования происходит за счет обучения на данных, полученных от асессоров.
- Понимает язык с помощью униграмм и биграмм.
Term Weighting
Term Weighting регулирует относительную важность отдельных терминов в запросе, основываясь на том, как пользователи взаимодействуют с результатами поиска. Это позволяет определить, насколько релевантны те или иные термины в контексте запроса.
Кроме того, взвешивание позволяет эффективно обрабатывать термины, которые очень часто или очень редко встречаются в базе данных поисковой системы, тем самым балансируя результаты.
Короткая выдержка о Term Weighting
- Обучается на записях кликов по запросам.
- Интеграция в ранжирования происходит за счет обучения на данных, полученных от асессоров.
DeepRank
Это шаг вперед в понимании естественного языка, позволяющий поисковой системе лучше понять смысл и контекст запросов. Это достигается благодаря BERT, собственно, DeepRank — это внутреннее название BERT.
Благодаря предварительному обучению на большом объеме данных о документах и корректировке с учетом данных о кликах и оценок асессоров, DeepRank может точно настроить результаты поиска, сделав их более интуитивными и релевантными тому, что ищут пользователи.
Короткая выдержка о DeepRank
- Последнее дополнение к системам глубокого обучения Google.
- Предварительно обучена на данных из документов (URL, title, релевантные термины) и запросов/местоположений.
- Настроен на основе данных о кликах и рейтингах IS.
- Работает с фрагментами слов для понимания языка.
- Обеспечивает улучшение релевантности и понимания языка.
- Учится интерпретации языка и здравому смыслу у людей, которые проводят оценку, т.е. асессорах.
RankEmbed
RankEmbed, вероятно, ориентирована на решение задачи встраивания релевантных признаков для ранжирования. Хотя в документах нет никаких подробностей о его функциях и возможностях, можно сделать вывод, что это система глубокого обучения, предназначенная для улучшения процесса классификации поиска Google.
RankEmbed-BERT
RankEmbed-BERT — это усовершенствованная версия RankEmbed, в которую интегрированы алгоритм и структура BERT. Эта интеграция была проведена с целью значительного улучшения возможностей RankEmbed в понимании языка.
Его эффективность может снижаться, если не проводить переобучение на свежих данных. Для обучения используется лишь небольшая часть трафика, что говорит о том, что нет необходимости использовать все доступные данные.
RankEmbed-BERT, наряду с другими моделями глубокого обучения, такими как RankBrain и DeepRank, вносит свой вклад в итоговое ранжирование в поисковой системе Google, но будет работать после первичного получения результатов (повторного ранжирования).
Она обучается на данных о кликах и запросах и тонко настраивается с помощью данных от экспертов (IS), и ее обучение требует больших вычислительных затрат, чем обучение моделей с прямолинейным движением, таких как RankBrain.
Короткая выдержка о RankEmbed-BERT
- Обучается на документах, запросах, записях кликов и данных экспертов (они же асессоры).
- Использует важные термины и данные из Navboost.
- BERT включается в DeepRank для решения задач классификации.
MUM
Он примерно в 1000 раз мощнее, чем BERT, и представляет собой серьезное достижение в области поиска Google. Запущенный в июне 2021 года, он не только понимает 75 языков, но и является мультимодальным, то есть способен интерпретировать и обрабатывать информацию в различных форматах.
Материал по теме для ознакомления
Мультимодальные возможности позволяют MUM предлагать более полные и контекстные ответы, уменьшая необходимость многократного поиска для получения подробной информации. Однако из-за высокой требовательности к вычислительным ресурсам его использование весьма избирательно.
Короткая выдержка о MUM
- Усовершенствованная модель Al, предназначенная для восприятия языка и информации.
- Признана за свой трансформационный потенциал и высокую энергоемкость.
- Из-за своего размера и медлительности не используется в производстве для каждого запроса.
- Используется для обучения более мелких моделей, специфичных для конкретного производства.
Tangram и Glue
Все эти системы работают в рамках Tangram, который отвечает за сборку SERP с использованием данных из Glue. Речь идет не только о ранжировании результатов, но и об их организации в полезном и доступном для пользователей виде с учетом таких элементов, как карусели изображений, прямые ответы и другие нетекстовые элементы.
Короткая выдержка о Tangram
- Сборка SERP путем организации таких элементов, как веб-результаты, карусели и сниппеты.
- Ранее назывался «Тетрис», смена названия говорит об улучшении организационных возможностей.
Короткая выдержка о Glue
- Работает как минимум с 2013 года.
- Обобщение и расширение Navboost. Взаимодействует с ним при определении и ранжировании контента.
- Унифицированная модель сигналов взаимодействия с пользователем для всех типов результатов поиска.
- Используется в Web, KE (Knowledge Engine или Knowledge Graph Engine) и WebAnswers.
- Учитывает взаимодействия на мобильных устройствах и различных типах результатов поиска.
Наконец, функции Freshness Node и Instant Glue обеспечивают актуальность результатов, придавая больший вес свежей информации, что особенно важно при поиске новостей и текущих событий.
Короткая выдержка о Freshness Node
- Обеспечивает отражение свежести информации в сигналах ранжирования.
- Продвижение обновленного и релевантного контента.
- Instant Glue работает с обычными сигналами Google.
- Склонность к «дедовщине» при оценке характеристик. Т.е. придает функциям слишком большую ценность, основываясь на их прошлых результатах, без учета текущей актуальности.
Короткая выдержка о Instant Glue
- Конвейер реального времени, агрегирующий части сигналов взаимодействия с пользователем.
- Включает только записи за последние 24 часа с задержкой ~10 минут.
- Отражает текущее состояние мира в сигналах ранжирования.
При всем этом Google объединяет эти алгоритмы, чтобы:
- Понять запрос: расшифровать намерения, стоящие за словами и фразами, которые пользователи вводят в строку поиска.
- Определить релевантность: для ранжирования результатов на основе соответствия их содержания запросу с использованием сигналов от прошлых взаимодействий и оценок качества.
- Приоритет свежести: обеспечение того, чтобы наиболее свежая и релевантная информация поднималась в рейтинге, когда это важно.
- Персонализация результатов: подстройка результатов поиска не только под запрос, но и под контекст пользователя, например, его местоположение и используемое устройство. Вряд ли можно придумать что-то более персонализированное.
Из всего, что мы видели до сих пор, считается, что Tangram, Glue и RankEmbed-BERT — это единственные новинки, просочившиеся на сегодняшний день.
Как мы уже видели, эти алгоритмы подпитаются различными метриками, которые мы сейчас разложим по полочкам.
Метрики, используемые Google для оценки качества поиска
В этом разделе мы вновь сосредоточимся на опровержении показаний профессора Дугласа У. Оарда и включим в него информацию из предыдущей утечки — «Проекта Веритас».
Google использует следующие метрики для разработки и корректировки факторов, учитываемых алгоритмом при ранжировании результатов поиска, а также для отслеживания того, как изменения в алгоритме влияют на качество результатов поиска. Цель — попытаться уловить с их помощью намерение пользователя.
1. Метрика IS
Асессоры играют важнейшую роль в разработке и совершенствовании поисковых продуктов Google. Благодаря их работе формируется метрика, известная как «IS score» (Information Satisfaction Score от 0 до 100), которая выводится на основе оценок экспертов и используется в качестве основного показателя качества в Google.
Материал по теме для ознакомления
EEAT Google | Инструкция с практикой. Рекомендую ознакомиться с ответами на частые вопросы в конце материала.
Оценка производится анонимно, когда оценщики не знают, тестируют ли они Google или Bing, и используется для сравнения показателей Google с его основным конкурентом.
Эти оценки IS не только отражают воспринимаемое качество, но и используются для обучения различных моделей в поисковой системе Google, включая алгоритмы классификации, такие как RankBrain и RankEmbed BERT.
Согласно документам, с 2021 года используется IS4. IS4 считается приблизительной полезностью для пользователя и должна рассматриваться как таковая. Она описывается как, возможно, самая важная метрика ранжирования, но при этом подчеркивается, что она является приближенной и подвержена ошибкам, о которых мы поговорим позже.
Также упоминается производная от этой метрики — IS4@5.
Метрика IS4@5 используется компанией Google для оценки качества результатов поиска, в частности, первых пяти позиций. Эта метрика включает в себя и специальные поисковые функции, такие как OneBox (известные как «синие ссылки»). Существует вариант этой метрики, названный IS4@5 web, который фокусируется исключительно на оценке первых пяти результатов поиска в Интернете, исключая другие элементы, такие как реклама в результатах поиска.
Материал по теме для ознакомления
Машинное обучение в поиске и связь с SEO оптимизацией сайта — это урок №2 в рамках моего бесплатного SEO-курса по оптимизации и продвижению сайта в поисковых системах.

Несмотря на то, что IS4@5 полезен для быстрой оценки качества и релевантности верхних результатов поиска, сфера его применения ограничена. Она не охватывает всех аспектов качества поиска, в частности, не учитывает такие элементы, как реклама в результатах. Поэтому данная метрика дает неполное представление о качестве поиска.
Для полной и точной оценки качества результатов поиска Google необходимо учитывать более широкий спектр метрик и факторов, подобно тому, как общее состояние здоровья оценивается по целому ряду показателей, а не только по весу.
На изображении ниже выделены моменты, на которых говорится о следующем:
- IS4 — это аппроксимация полезности пользователя, относитесь к ней как к таковой.
- IS4 — это, пожалуй, самая важная метрика ранжирования Google, но она все же является приближенной и подвержена ошибкам. Мы должны относиться к ней как к таковой и всегда искать реальную потребительскую ценность, подкрепленную тщательным анализом и другими метриками.
Аппроксима́ция, или приближе́ние — научный метод, состоящий в замене одних объектов другими, в том или ином смысле близкими к исходным, но более простыми.

Ограничения асессоров
Специалисты по оценке сталкиваются с рядом проблем, таких как понимание технических запросов, оценка популярности продуктов или интерпретаций запросов. Кроме того, языковые модели, такие как MUM, могут прийти к пониманию языка и глобальных знаний аналогично человеческим, что создает как возможности, так и проблемы для будущей оценки релевантности.
Несмотря на их важность, их точка зрения (асессоров) существенно отличается от точки зрения реальных пользователей. Эксперты могут не обладать специфическими знаниями или предыдущим опытом, которые могут быть у пользователей в отношении темы запроса, что может повлиять на их оценку релевантности и качество результатов поиска.
На основе утечек документов 2018 и 2021 годов удалось составить список всех ошибок, которые Google признает в своих внутренних презентациях.
- Временные несоответствия: несоответствия могут возникать из-за того, что запросы, оценки и документы могут относиться к разному времени, что приводит к оценкам, которые не совсем точно отражают текущую релевантность документов.
- Повторное использование оценок: практика повторного использования оценок для быстрой оценки и контроля затрат может привести к тому, что оценки не будут отражать текущую свежесть и актуальность контента.
- Понимание технических запросов: специалисты по оценке могут не понимать технических запросов, что приводит к трудностям в оценке релевантности специализированных или нишевых тем.
- Оценка популярности: эксперты могут испытывать трудности с определением популярности среди интерпретаций запросов конкурентов или конкурирующих продуктов, что может повлиять на точность их оценок.
- Разнообразие специалистов по оценке: отсутствие разнообразия среди специалистов по оценке в некоторых регионах, а также тот факт, что все они являются взрослыми, не отражает разнообразия пользовательской базы Google, которая включает несовершеннолетних.
- Пользовательский контент: эксперты, как правило, строго относятся к пользовательскому контенту, что может привести к недооценке его ценности и значимости, несмотря на его полезность и актуальность.
- Обучение узлов свежести: они сигнализируют о проблемах с настройкой моделей свежести из-за отсутствия адекватных обучающих меток. Оценщики часто не уделяют достаточного внимания аспекту свежести или не имеют временного контекста запроса. Это приводит к недооценке последних результатов для запросов с новизной. Существующая утилита Tangram Utility, основанная на IS и используемая для обучения кривых релевантности и других кривых оценки, страдает от той же проблемы. Ввиду ограниченности человеческих меток кривые оценки узла свежести при его первом запуске были скорректированы вручную.
Искренне верится, что за эффективное функционирование «Parasite SEO» отвечают оценщики, о чем, наконец, стало известно Дэнни Салливану и о чем он поделился в этом твите, в котором дословно говорится о следующем.
Снова и снова люди отмечают крупные издательства, которым кажется, что они могут писать о чем угодно и получать за это вознаграждение.
Один из ключевых твитов, в частности, звучит так: С этим связана идея о том, что выигрывают «паразитные SEO-сайты» — сайты, которые сдают себя в аренду третьим лицам, а затем на этих сайтах размещается контент, который никогда бы не имел успеха на других сайтах. И суть в том, что крупные сайты выигрывают за оригинальный (но не обязательно ориентированный на людей) контент, но эти два понятия смешиваются.
Если мы посмотрим на изменения в последних рекомендациях по оценке качества результатов поиска, то увидим, что они в итоге скорректировали определение метрики Needs Met и включили новый пример для оценщиков, согласно которому, даже если результат является авторитетным, но если он не содержит информации, которую ищет пользователь, он не должен быть оценен так высоко.
Например, по запросу [starting jets квартал 2001] интент пользователя (его намерение) заключается в том, чтобы найти имя стартового квотербека футбольной команды New York Jets в 2001 году. И видим, что есть результат со страницы сайта https://www.espn.com, но со списком игроков команды New York Jets сезона 2014 года.
И несмотря на то, что это авторитетный сайт сайт, на котором можно найти информацию о футболе NFL, этот документ не содержит информации, запрашиваемой пользователем. Поэтому данный результат не удовлетворяет потребностям пользователя.

2. PQ (Page Quality)
Единственный официальный документ, в котором упоминается PQ — это уже знакомое нам руководство по оценке качества поиска, которое обновляется со временем.
Вот, что говорится об общей оценки качества страницы и оценки с использованием шкалы соответствия ожиданиям в этом руководстве.


Эта информация также передается алгоритмам для создания моделей. Здесь мы видим предложение о такой утечке в «Проекте Веритас».

Интересный момент: согласно документам, специалисты по оценке качества оценивают только страницы на мобильных устройствах.
Об этом уже говорилось в статье про EEAT Google, но для кого-то из вас, возможно, это будет вновинку. Поэтому, важно делать адаптацию макетов страниц под мобильные устройства.
Если только планируете делать проектирование макетов типовых продвигаемых страниц или улучшение текущих, советую ознакомиться с материалом о SEO-проектировании продвигаемых страниц сайта для продвижения в Google и Яндекс.

3. Side-by-Side
Вероятно, речь идет о тестах, в которых два набора результатов поиска размещаются рядом, чтобы эксперты могли сравнить их относительное качество. Это помогает определить, какой набор результатов является более релевантным или полезным для данного поискового запроса. Если это так, то помнится, что у Google был собственный загружаемый инструмент для этого — sxse.

Инструмент позволяет пользователям голосовать за тот набор результатов поиска, который более предпочтителен, тем самым обеспечивая прямую обратную связь об эффективности различных корректировок или версий поисковых систем.
4. Эксперименты в реальном времени
В официальной информации, опубликованной в журнале How Search Works, говорится, что Google проводит эксперименты с реальным трафиком, чтобы проверить, как люди взаимодействуют с новой функцией, прежде чем распространять ее на всех. Они активируют функцию у небольшого процента пользователей и сравнивают их поведение с поведением контрольной группы, у которой эта функция отсутствует. Подробные показатели взаимодействия пользователей с результатами поиска включают в себя:
- Клики на результаты
- Количество выполненных поисковых запросов
- Отказ от запроса (переформулировка)
- Время, необходимое для нажатия на результат
Эти данные позволяют оценить, насколько положительным является взаимодействие с новой функцией, и убедиться в том, что изменения повышают релевантность и полезность результатов поиска.
Однако в слитых документах указаны только две метрики:
- Взвешенные по позиции длительные клики: эта метрика учитывает продолжительность кликов и их положение на странице результатов, что отражает удовлетворенность пользователей найденными результатами.
- Внимание: эта метрика подразумевает измерение времени, проведенного на странице, что дает представление о том, как долго пользователи взаимодействуют с результатами и их содержимым.

Кроме того, в стенограмме показаний Панду Наяка говорится о том, что в компании проводится множество тестов алгоритмов с использованием чередования вместо традиционных A/B-тестов. Это позволяет проводить быстрые и надежные эксперименты, что дает возможность интерпретировать колебания в рейтинге.
5. Свежесть
Свежесть — важнейший аспект как результатов, так и поисковых функций. Важно показывать релевантную информацию, как только она становится доступной, и прекращать показ, когда она устаревает.
Для того чтобы алгоритмы ранжирования отображали в SERP свежие документы, системы индексирования и обслуживания должны быть способны обнаруживать, индексировать и предоставлять свежие документы с очень низкой задержкой.
Хотя в идеале весь индекс должен быть как можно более актуальным, существуют технические и стоимостные ограничения, которые не позволяют индексировать каждый документ с низкой задержкой. Система индексирования определяет приоритеты документов по отдельным путям, предлагая различные компромиссы между задержкой, стоимостью и качеством.
Существует риск, что актуальность очень свежего контента будет недооценена, и, наоборот, контент с большим количеством доказательств актуальности станет менее актуальным из-за изменения смысла запроса.
Роль узла свежести заключается в добавлении исправлений к устаревшим оценкам. Для запросов, ищущих свежий контент, он продвигает свежий контент и снижает оценку устаревшего.
Не так давно появилась информация о том, что Google Caffeine (она же система индексирования) больше не существует. Хотя внутренне старое название по-прежнему используется, то, что существует сейчас, на самом деле является совершенно новой системой. Новый «кофеин» — это набор микросервисов, которые взаимодействуют друг с другом.
Это означает, что различные части системы индексирования работают как независимые, но взаимосвязанные сервисы, каждый из которых выполняет определенную функцию. Такая структура обеспечивает большую гибкость, масштабируемость и простоту внесения обновлений и улучшений.
Возможно, частью этих микросервисов являются Tangram и Glue, в частности, узел свежести и Instant Glue, потому что в другом просочившемся документе из «Проекта Веритас» обнаружено, что в 2016 году было предложение сделать или включить «Instant Navboost» в качестве сигнала свежести, а также визиты Chrome.

На данный момент они уже включили «Freshdocs-instant» (извлеченный из списка pubsub, называемого Freshdocs-instant-docs pubsub, где они брали новости, опубликованные этими СМИ в течение 1 минуты после их публикации), а также корреляцию всплесков поисковых запросов и генерации контента.

В рамках метрик свежести, мы имеем несколько из них, которые обнаружены благодаря анализу:
- Коррелированных NGrams: это группы слов, которые появляются вместе в статистически значимой структуре. Корреляция может внезапно увеличиться во время события или тренда темы, указывая на пик.
- Наиболее важные термины: это особые термины, которые тесно связаны с темой или событием и частота появления которых в документах увеличивается в течение короткого периода, что указывает на всплеск интереса или связанной с ним деятельности.
После обнаружения всплесков могут использоваться следующие показатели свежести:
- Unigrams (RTW): для каждого документа используется title, тексты ссылок и первые 400 символов основного текста. Они разбиваются на униграммы, относящиеся к обнаружению трендов, и добавляются в индекс Хавеймента. Основной текст, как правило, содержит основное содержание статьи, исключая повторяющиеся или общие элементы (шаблон).
- Полчаса с эпохи (TEHH): это мера времени, выраженная как количество получасов с начала времени Unix. Это помогает установить, когда что-то произошло с получасовой точностью.
- Объекты Графа Знаний (RTKG) и Ячейки S2: ссылки на объекты в Графе Знаний Google, которая является базой данных реальных объектов (людей, мест, вещей) и их взаимосвязей.
- Оценка статьи Freshbox (RTF): это может относиться к актуальности документа для новостей и являться показателем, определяющим, насколько актуален и надежен документ по отношению к текущим историям или трендовым событиям.
- Документ NSR (RTN)Этот показатель может также помочь отфильтровать низкокачественный контент или спам-контент, гарантируя, что индексированные и выделенные документы имеют высокое качество и важное значение для поиска в режиме реального времени.
- Географические измерения: признаки, которые определяют географическое местоположение события или темы, упомянутой в документе. Они могут включать координаты, названия мест или идентификаторы, такие как ячейки S2.
Если вы продвигаете СМИ, эта информация имеет ключевое значение и ее рекомендуются учитывать при создании и публикации новостей.
Важность кликов
В этом разделе мы сосредоточимся на внутренней презентации Google, представленной в электронном письме под названием «Единое прогнозирование кликов», презентации «Google – это волшебство», презентации Search All Hands, внутреннем электронном письме от Дэнни Салливана и документах из «Проекта Веритас».
На протяжении всего этого процесса мы видим фундаментальную важность кликов для понимания поведения/потребностей пользователей. Другими словами, Google нужны наши данные. Интересно, что одной из вещей, о которых Google было запрещено говорить, были клики, за исключением случаев обсуждения служебной необходимости с людьми, которые понимают, что эту тему нельзя обсуждать со стороны. Хотя Google и признает, что это спорный момент.

Прежде чем начать, важно отметить, что основные документы, касающиеся кликов, датируются до 2016 года, и с тех пор Google претерпел значительные изменения. Несмотря на такую эволюцию, основой их подхода остается анализ поведения пользователей, считая его сигналом качества. Можно также вспомнить патент, в котором объясняется т.н. модель CAS.

Каждый поиск и клик пользователей способствуют обучению и постоянному совершенствованию Google. Этот цикл обратной связи позволяет Google адаптироваться и «узнавать» о поисковых предпочтениях и поведении, сохраняя иллюзию того, что он понимает потребности пользователей.

Ежедневно Google анализирует более миллиарда новых моделей поведения в рамках системы, предназначенной для постоянной корректировки и превосходства будущих предсказаний, основанных на прошлых данных. По крайней мере, до 2016 года это превышало возможности систем искусственного интеллекта того времени, требуя ручной работы, которую мы видели ранее, а также корректировок, внесенных RankLab.
RankLab — это лаборатория, которая тестирует различные веса сигналов и факторов ранжирования, а также их последующее влияние. Они также могут нести ответственность за внутренний инструмент «Twiddler» с целью ручного изменения IR-оценок определенных результатов или, другими словами, для того, чтобы иметь возможность делать все следующее, представленное на изображении ниже.

В то время, как рейтинги асессоров дают базовое представление, клики предоставляют гораздо более подробную картину поискового поведения.


Это выявляет сложные закономерности и позволяет изучить эффекты второго и третьего порядка.
Эффекты второго порядка отражают возникающие закономерности: если большинство предпочитает подробные статьи быстрым спискам и выбирает их, Google это видит. Со временем он корректирует свои алгоритмы, чтобы отдавать приоритет более подробным статьям в связанных поисках.

Эффекты третьего порядка — это более широкие и долгосрочные изменения: если тенденции кликов отдают предпочтение подробным руководствам, создатели контента адаптируются под это. И начинают создавать более подробные статьи и меньше списков, тем самым меняя характер контента.
В проанализированных документах представлен конкретный случай, когда релевантность результатов поиска была улучшена за счет анализа кликов. Google выявил несоответствие в предпочтениях пользователей, основанных на кликах, в отношении нескольких документов, которые оказались релевантными, несмотря на то, что они были окружены набором из 15 000 документов, считающихся нерелевантными.
Это открытие подчеркивает важность кликов пользователей как ценного инструмента для выявления скрытой релевантности в больших объемах данных.

Google «тренируется на прошлом, чтобы предсказывать будущее», чтобы избежать переобучения. Благодаря постоянным оценкам и обновлению данных, модели остаются актуальными. Ключевым аспектом этой стратегии является персонализация локализации, гарантирующая, что результаты будут актуальны для разных пользователей в разных регионах.
Важно помнить, что этот подход, ориентированный на клики, сталкивается с проблемами, особенно с новым или с контентом, который не часто ищут. Оценка качества результатов поиска — это сложный процесс, выходящий за рамки простого подсчета кликов.
Устройство поиска Google
Исходя из вышеизложенного, можно сформировать мысленный образ того, как мы могли бы разместить все эти элементы на диаграмме. Очень вероятно, что некоторые компоненты архитектуры Google находятся не в определенных местах или не связаны друг с другом как таковые, но можно считать, что в качестве приближения этого более чем достаточно.
Рассмотреть схему в увеличенном размере можете тут.

Google и Chrome: борьба за право быть поисковой системой и браузером по умолчанию
В этом последнем разделе мы сосредоточимся на показаниях свидетеля-эксперта Антонио Рангеля, поведенческого экономиста и профессора Калифорнийского технологического института, об использовании параметров по умолчанию для влияния на выбор пользователей во внутренней презентации, раскрытой «О стратегической ценности домашней страницы по умолчанию для Google» и заявлениях Джима Колотуроса, вице-президента Google, во внутреннем электронном письме.
Как рассказал Джим Колотурос во время внутренних коммуникаций, Chrome — это не просто браузер, а ключевой элемент в загадке доминирования Google в поиске.
Среди данных, которые собирает Google, — паттерны поиска, клики по результатам поиска и взаимодействие с различными веб-сайтами, что имеет решающее значение для совершенствования алгоритмов Google и повышения точности результатов поиска и эффективности целевой рекламы.

По мнению Антонио Рангеля, превосходство Chrome на рынке превосходит его популярность. Он действует как шлюз в экосистему Google, влияя на то, как пользователи получают доступ к информации и онлайн-сервисам. Интеграция Chrome с Google Search, являющимся поисковой системой по умолчанию, дает Google значительное преимущество в контроле потока информации и цифровой рекламы.

Несмотря на популярность Google, Bing не является худшей поисковой системой. Однако многие пользователи предпочитают Google из-за удобства его конфигурации по умолчанию и связанных с ней когнитивных искажений.
На мобильных устройствах влияние поисковых систем по умолчанию сильнее из-за трудностей, связанных с их изменением, потому что для изменения поисковой системы по умолчанию требуется до 12 кликов.

Это предпочтение по умолчанию также влияет на решения потребителей о конфиденциальности. Настройки конфиденциальности Google по умолчанию создают значительные трудности для тех, кто предпочитает более ограниченный сбор данных.
Изменение варианта по умолчанию требует осведомленности о доступных альтернативах, изучения необходимых шагов для изменения и реализации, что представляет собой значительные трудности. Кроме того, поведенческие предубеждения, такие как статус-кво и непринятие потерь, заставляют пользователей склоняться к сохранению параметров Google по умолчанию.
Показания Антонио Рангеля напрямую перекликаются с открытиями внутреннего анализа Google. В документе показано, что настройки домашней страницы браузера оказывают значительное влияние на долю рынка поисковых систем и поведение пользователей. В частности, высокий процент пользователей, у которых Google является домашней страницей по умолчанию, выполняют на 50 % больше поисковых запросов в Google, чем те, у кого его нет.

Выводы
Изучив алгоритмы и внутреннюю работу Google, мы увидели важную роль, которую клики пользователей и оценщики играют в ранжировании результатов поиска.
Клики, как прямые индикаторы предпочтений пользователей, необходимы Google для постоянной корректировки и повышения релевантности и точности своих ответов. Хотя иногда они могут желать обратного, когда цифры не складываются…
Кроме того, асессоры вносят решающий уровень оценки и понимания, который даже в эпоху искусственного интеллекта остается незаменимым.
Сочетание этих двух факторов — автоматической обратной связи посредством кликов и человеческого контроля — позволяет Google не только лучше понимать поисковые запросы, но и адаптироваться к меняющимся тенденциям и информационным потребностям. По мере развития ИИ будет интересно посмотреть, как Google продолжит балансировать эти элементы для улучшения и персонализации поиска в постоянно меняющейся экосистеме с упором на конфиденциальность.
С другой стороны, Chrome — это гораздо больше, чем просто браузер; это важнейший компонент их цифрового доминирования. Его синергия с Google Search и его стандартная реализация во многих областях влияют на динамику рынка и всю цифровую среду. Посмотрим, чем закончится антимонопольный процесс, но они уже более 10 лет не платят около 10 миллиардов евро штрафов за злоупотребление доминирующим положением.
Если вам нужна моя помощь по SEO-улучшению сайта под Google
Напишите мне через форму обратной связи на странице Контакты или перейдите по баннеру ниже.
