Как AI-поисковики выбирают источники для ответов (и почему это не топ-10)

Как AI-поисковики выбирают источники для ответов (и почему это не топ-10)

Пользователи часто думают, будто AI-поисковики просто берут первую страницу выдачи Google и пересказывают её содержимое. Логика вроде бы понятная: раз ссылка наверху, значит, ресурс авторитетный и заслуживает доверия. На деле нейросети работают по совершенно другим принципам. Система вроде Perplexity или поиска с генеративным ИИ вообще не смотрит на привычный топ-10 в том виде, в котором его видит человек.

Алгоритм сначала собирает сотни страниц, оценивает их не по ссылочной массе, а по смысловому соответствию запросу. Дальше начинается сложный анализ: где тема раскрыта полнее, где данные свежее, где ответ вообще есть, а не просто набор ключевых слов. В итоге в ответе могут всплыть ссылки на малоизвестные форумы, личные блоги или свежие исследования, хотя страницы с кучей внешних ссылок и идеальными заголовками останутся за бортом. Получается, что старые методы продвижения, рассчитанные на топ-10, здесь просто не работают. А иначе и быть не могло: ИИ ищет не страницы, а ответы.

От релевантности ссылок к семантическому поиску

Поисковые алгоритмы традиционного типа опираются на индекс обратных ссылок и частотный анализ. Система хранит инвертированный индекс, где каждому слову соответствуют страницы, в которых это слово встречается. Запрос пользователя разбивается на токены, и поисковик выбирает документы с наибольшим количеством совпадений. Дальше вступают факторы ранжирования: количество внешних ссылок, возраст домена, структура URL, наличие ключевых слов в заголовках. Результат сортируется по формуле, где ссылочная масса часто перевешивает качество самого текста.

AI-поиск использует векторное представление данных. Модель машинного обучения преобразует текст запроса в плотный вектор — массив чисел с фиксированной размерностью, обычно 768 или 1024 значений. Такой вектор кодирует семантику запроса. Аналогичная процедура выполняется для документов в индексе, только заранее. Векторы хранятся в векторной базе данных, и поиск сводится к вычислению косинусного расстояния между вектором запроса и векторами документов.

Для этого применяются трансформерные архитектуры. Модель BERT и её последователи обрабатывают запрос целиком, учитывая порядок слов и контекстные связи. В отличие от bag-of-words моделей, где слово «лук» имеет одно значение, трансформер различает контексты: «зелёный лук» и «лук для стрельбы» получат разные векторные представления, потому что окружающие слова меняют семантику центрального токена.

На практике современные поисковые системы используют гибридный подход. Первичный отбор кандидатов часто выполняется через классический поиск по ключевым словам — это быстро и дёшево по вычислительным ресурсам. Затем полученный набор документов ранжируется повторно с помощью нейросетевых моделей. Такая архитектура называется двухэтапным поиском (retrieve & rank). На первом этапе отсеиваются миллионы заведомо неподходящих страниц, на втором — нейросеть точечно оценивает релевантность нескольких сотен оставшихся документов.

Этапы работы AI-поисковика при выборе источника

Процесс отбора источников в AI-поисковиках строится на многоступенчатой архитектуре. Первый этап — retrieval, или поиск кандидатов. Система получает запрос и должна максимально быстро отобрать из миллиардов документов несколько сотен потенциально релевантных. Здесь используются упрощённые модели, потому что прогонять каждый запрос через тяжёлую нейросеть в масштабах всего интернета технически невозможно.

Для первичного отбора применяются два основных метода. Первый — классический инвертированный индекс с булевым поиском. Система выделяет из запроса ключевые термины и ищет документы, где эти термины встречаются. Второй метод — ANN-индексы на основе векторных представлений. Векторные базы данных хранят предвычисленные эмбеддинги документов и умеют быстро находить ближайших соседей к вектору запроса через аппроксимацию. На практике часто используют гибридный подход, объединяя результаты обоих методов.

Второй этап — реранжирование. Несколько сотен кандидатов, полученных на первом шаге, передаются в более тяжёлую нейросетевую модель. Обычно это трансформер типа BERT или его оптимизированные версии. Модель обрабатывает каждую пару запрос-документ и вычисляет скорефункцию — числовую оценку релевантности. Здесь учитываются тонкие семантические связи, которые пропустила первая стадия.

Третий этап — оценка пригодности для генерации ответа. Система анализирует, содержит ли документ фактический ответ на вопрос или просто упоминает тему. Для этого используются модели извлечения ответов (extractive QA), которые находят в тексте фрагменты, непосредственно отвечающие на запрос. Если таких фрагментов нет, документ отсеивается, даже если общая тематика совпадает.

Финальный шаг — агрегация и дедупликация. Из оставшихся источников выбираются несколько наиболее релевантных, причём система следит, чтобы они не дублировали друг друга. Если три сайта пересказывают один и тот же пресс-релиз одинаковыми словами, в ответ попадёт только один из них, остальные отфильтруются как избыточные.

Весь конвейер выполняется в реальном времени для каждого пользовательского запроса. Время обработки обычно не превышает секунды, потому что тяжёлые вычисления на этапе реранжирования применяются только к нескольким сотням документов, а ANN-индексы оптимизированы для быстрого поиска по миллиардам векторов.

Критерии оценки источников: почему старые метрики не работают

Финальное ранжирование источников выполняется по набору параметров, где классические факторы вроде ссылочной массы уступают место анализу содержания. Система оценивает каждый документ по нескольким направлениям одновременно, и только при совпадении большинства критериев источник попадает в финальную выдачу.

  • Свежесть данных. Для запросов, связанных с быстро меняющейся информацией, дата публикации становится определяющим фактором. Если пользователь спрашивает про курс валют на сегодня или новые модели смартфонов, система отдаст предпочтение документам, опубликованным в последние часы. Статьи пятилетней давности отсеиваются автоматически, даже если ресурс обладает высоким ссылочным весом.
  • Авторитетность в тематике. Система анализирует не общую ссылочную массу домена, а его репутацию в конкретной нише. Медицинский блог с подробным разбором исследований получит преимущество перед глянцевым журналом с поверхностной статьёй. Модель оценивает глубину проработки темы, наличие ссылок на первоисточники и экспертный уровень автора.
  • Соответствие типу запроса. Поисковые интенты делятся на информационные, коммерческие, навигационные. Система определяет намерение пользователя и отсеивает документы, не соответствующие этому типу. Для запроса «отзывы на iPhone» страницы с заголовком «купить iPhone» получат низкую оценку, даже если внутри встречаются отдельные отзывы.
  • Полнота ответа. Документы проверяются на наличие прямого ответа на вопрос. Модели extractive QA выделяют из текста фрагменты, релевантные запросу. Если таких фрагментов нет или они слишком общие, документ отсеивается. Приоритет получают страницы, где вопрос разобран детально, с примерами, цифрами и ссылками.
  • Уникальность контента. Из нескольких источников с идентичным содержанием система оставляет только один. Если три сайта перепечатали один пресс-релиз, алгоритм выберет самый ранний по дате публикации или ресурс с наилучшими дополнительными характеристиками. Остальные отфильтровываются как дублирующиеся.

Проблемы и риски отбора источников

Технология семантического поиска и генерации ответов остаётся несовершенной. Алгоритмы допускают системные ошибки, которые влияют на качество итогового ответа. Некоторые проблемы заложены в архитектуре, другие связаны с ограничениями текущих моделей. Понимание этих рисков помогает критичнее оценивать результаты AI-поиска.

  1. Галлюцинации на основе авторитетных источников. Система может извлечь из документа факт, который выглядит правдоподобно, но не соответствует действительности. Если первоисточник содержит ошибку или устаревшие данные, нейросеть включит их в ответ, придав ложной информации дополнительный вес за счёт ссылки на конкретный ресурс. Пользователь видит цитату и считает её подтверждённой, хотя исходный документ просто содержал эту ошибку.
  2. Перекос в сторону свежести. Стремление отдавать приоритет новым документам иногда вредит точности. По свежим темам часто публикуются непроверенные данные, слухи или откровенные фейки. Алгоритм выбирает такую страницу, игнорируя более старую, но выверенную информацию. Особенно остро проблема проявляется в новостной повестке и при обсуждении резонансных событий.
  3. Неспособность оценить реальную компетенцию автора. Система анализирует текст, но не видит, кто его написал. Дилетант, умеющий связно излагать мысли и имитировать экспертный стиль, легко обманет алгоритм. С другой стороны, настоящий специалист, пишущий сложным языком с профессиональным жаргоном, рискует остаться за бортом, потому что модель сочтёт текст слишком специфичным.
  4. Проблема зашумлённых источников. Если большинство доступных документов по теме содержат одну и ту же ошибку или тенденциозную трактовку, алгоритм воспримет это как консенсус. Система не обладает критическим мышлением и не может выявить системный перекос в источниках. В результате в ответе тиражируется точка зрения, доминирующая в информационном поле, независимо от её истинности.
  5. Манипуляции через структурированные данные. Владельцы сайтов адаптируют контент под семантический поиск, размечая страницы микроразметкой и создавая идеально структурированные FAQ-блоки. Технически такие страницы выглядят как идеальные источники ответов, хотя содержание внутри может оставаться поверхностным или даже вредным. Алгоритм охотно берёт готовые блоки, не проверяя глубину проработки темы.
  6. Предвзятость обучающих данных. Модели, которые выполняют реранжирование и оценку релевантности, обучались на размеченных датасетах. Разметка выполнялась людьми с собственными представлениями о качестве контента. Если в процессе обучения предпочтение отдавалось одним типам источников (например, англоязычным или западным медиа), это предпочтение транслируется в работу системы независимо от реальной ценности других ресурсов.
  7. Неполнота индексации. AI-поисковики физически не могут индексировать весь интернет. Глубокая паутина, страницы, закрытые от роботов, недавно опубликованные материалы без внешних ссылок часто остаются за пределами досягаемости. Лучший ответ на вопрос может существовать, но алгоритм его просто не видит и выдаёт то, что есть в индексе, создавая иллюзию полноты охвата.

AI-поисковики вынуждают пересмотреть само понятие источника информации. Раньше сайт или автор несли ответственность за опубликованные данные хотя бы в глазах читателя. Теперь нейросеть становится буфером между создателем контента и потребителем, перераспределяя доверие с конкретных ресурсов на абстрактный алгоритм. Хорошо это или плохо, зависит от конкретной ситуации, но сам факт такого смещения меняет информационное поле сильнее, чем кажется на первый взгляд.

Материал подготовлен редакцией сервиса Rookee.

Начать дискуссию