Семантическое SEO через эмбеддинги для B2B

Заказчик продаёт промышленные фильтры для очистки воздуха на металлургических предприятиях. Спрашиваю: «Что ищут ваши клиенты?». Ответ: «Не знаю. Они приходят по рекомендации или через тендеры». Открываю Вордстат: «промышленные фильтры очистка воздуха» — 120 показов в месяц. «Рукавные фильтры для металлургии» — 8 показов. Дальше — тишина. Классический сбор семантического ядра через Вордстат в сложных B2B-нишах не работает. Показов мало, формулировки абстрактные, а реальные запросы клиентов — на языке, который ни Вордстат, ни стандартные SEO-инструменты не знают.

Я руковожу веб-студией АП-ИМ с 2008 года. Мы продвигаем B2B-сайты в нишах, где 50 целевых визитов в месяц — это хороший результат, а один лид стоит 100 000+ ₽. Последние два года мы используем эмбеддинги (векторные вложения) для построения семантики в таких проектах. Расскажу, как это работает, почему это эффективнее классического подхода и как применить на практике.

Вордстат показывает, что люди набирают в Яндексе. Это отлично работает для B2C: «купить кроссовки Nike» — 50 000 показов, всё понятно. Но в B2B ситуация принципиально другая.

Проблема 1: низкая частотность. Человек, который ищет «систему аспирации для литейного цеха мощностью 50 000 м³/ч с регенерацией фильтрующих элементов», не набирает это в поиске. Он набирает «аспирация литейный цех» или даже просто «очистка воздуха литейное производство». Вордстат покажет 30 показов — и SEO-специалист решит, что тема бесперспективная. Но каждый из этих 30 запросов может принести контракт на 5-15 млн ₽.

Проблема 2: терминологический разрыв. Заказчик описывает свой продукт на языке инженеров: «импульсная регенерация», «класс фильтрации F9», «аэродинамическое сопротивление 1200 Па». Клиент ищет на языке проблемы: «пыль в цехе не проходим проверку Ростехнадзора», «фильтры забиваются каждую неделю», «снизить выбросы ПДК». Вордстат не связывает эти два мира. Классическая кластеризация запросов тут не помогает — нечего кластеризовать.

Проблема 3: заказчик сам не знает, что ищут его клиенты. Это главная боль, которую мы слышим на каждом втором B2B-проекте. Отдел продаж работает через тендеры и рекомендации. Маркетолог пишет тексты про «инновационные решения» и «индивидуальный подход». А SEO-специалист получает список абстрактных ключевиков и пытается из них слепить семантическое ядро сайта.

Эмбеддинг (embedding, векторное вложение) — это числовое представление текста в многомерном пространстве. Если упростить: нейросеть превращает любой текст в набор чисел (вектор), который отражает его смысл. Тексты с похожим смыслом получают близкие векторы — даже если в них используются разные слова.

Пример: «рукавный фильтр забивается при высокой влажности» и «проблема кондерации в фильтрующем оборудовании» — Вордстат не увидит связи между этими фразами. Но эмбеддинги покажут, что они семантически близки: обе описывают одну и ту же проблему, просто разными словами.

Для SEO это означает: вы можете построить семантическую карту не из ключевых слов (которых в B2B мало), а из смыслов. И эта карта покажет, какие темы, проблемы и вопросы объединяют вашу аудиторию — независимо от того, какими словами они это формулируют.

Важное ограничение, о котором нужно сказать сразу: эмбеддинги работают с семантической близостью (о чём текст), но не с поисковым интентом (что человек хочет сделать). Фразы «как работают рукавные фильтры» (информационный интент), «сравнение рукавных и картриджных фильтров» (коммерческий), «купить рукавный фильтр РФ-500» (транзакционный) будут лежать рядом в векторном пространстве — тема одна. Но SEO-страницы под них нужны разные: статья, обзор-сравнение, карточка услуги. В нашем pipeline эмбеддинги дают топологию тем, а интент проставляется отдельным шагом — через LLM-анализ фрагментов и проверку SERP. Без этого разделения кластер = месиво из разных типов страниц. С ним — рабочая карта контента.

Вот конкретный процесс, который мы используем в проектах. Не теория — рабочий pipeline, который можно воспроизвести.

Шаг 1: сбор корпуса текстов. Вместо Вордстата мы берём тексты из четырёх источников, которые есть у любого B2B-заказчика:

Техническая документация: каталоги продукции, инструкции по эксплуатации, спецификации. Это язык продукта.

Переписка отдела продаж: письма клиентов, запросы через формы на сайте, переписки в мессенджерах. Это язык клиента — то, как он описывает свою проблему.

Тендерная документация: ТЗ от клиентов, в которых описаны требования. Это язык закупок — формальный, но максимально конкретный.

Отраслевые форумы и сообщества: профильные группы в Telegram, форумы инженеров, обсуждения на профильных площадках. Это язык отрасли.

Типичный корпус для одного проекта: 200-500 текстовых фрагментов.

Как подготовить фрагменты: каждый фрагмент — это один смысловой блок размером от 2 до 5 предложений. Письмо клиента из 10 предложений разбиваем на 2-3 фрагмента по смыслу (описание проблемы — отдельно, технические требования — отдельно, вопрос про цену — отдельно). Убираем приветствия, подписи и организационную шелуху — оставляем только содержательную часть. Из каталога берём описания продуктов и характеристики, не рекламные слоганы. Формат: простой текстовый файл, один фрагмент на строку (или CSV/JSON для автоматизации).

Шаг 2: генерация эмбеддингов. Каждый текстовый фрагмент прогоняем через модель эмбеддингов. Мы используем text-embedding-3-small от OpenAI ($0,02 за 1 млн токенов — достаточно для SEO-задач) или text-embedding-3-large ($0,13 за 1 млн токенов — для повышенной точности).

Как это сделать на практике: через API OpenAI. Минимальный скрипт на Python — 15 строк: загрузить CSV с фрагментами, отправить каждый в API, получить массив чисел (вектор), сохранить результат. Если вы не программист — попросите разработчика, это задача на 30 минут. Или используйте готовые no-code инструменты: Google Colab (бесплатный, есть шаблоны), Embedbase, VectorHub.

На выходе: таблица, где каждой строке (текстовый фрагмент) соответствует вектор из 1536 или 3072 чисел. Стоимость эмбеддинга корпуса из 500 фрагментов: буквально несколько центов. Это самая дешёвая часть pipeline.

Шаг 3: визуализация и кластеризация. Снижаем размерность векторов с 1536 до 2 с помощью UMAP и строим диаграмму рассеяния (scatter plot). На ней каждая точка — текстовый фрагмент, а расстояние между точками отражает семантическую близость. Группы точек, расположенные рядом — это кластеры: тексты, которые говорят об одном и том же, но возможно разными словами.

Как определить кластеры: для автоматической кластеризации используем HDBSCAN (он сам определяет количество кластеров, в отличие от K-means, где число нужно задавать вручную). Типичный B2B-проект из 300-500 фрагментов даёт 5-12 смысловых кластеров. Точки-одиночки, которые не вошли ни в один кластер — это нормально: обычно это уникальные запросы или шум. Их можно проигнорировать на этом этапе.

Как читать диаграмму: каждому кластеру присваиваем имя, открыв 10-15 фрагментов из него и поняв общую тему. Обычно это очевидно: в одном кластере собрались все фрагменты про цены и стоимость, в другом — про технические проблемы, в третьем — про регуляторные требования.

Что мы видим на диаграмме в нашем кейсе: кластер «проблемы эксплуатации» (забиваются фильтры, высокое сопротивление, частая замена). Кластер «требования регуляторов» (ПДК, Ростехнадзор, экологический аудит). Кластер «выбор оборудования» (сравнение рукавных и картриджных, производительность, стоимость владения). Кластер «модернизация» (замена устаревшего оборудования, переход на новый стандарт).

Каждый кластер — это не одна страница, а тематическая область. Внутри кластера могут жить запросы разных интентов: информационные («как работает»), коммерческие («что выбрать»), транзакционные («заказать»). Разделение по интентам — следующий шаг, не этот. На уровне кластеризации мы получаем топологию тем, дальше раскладываем её на страницы правильных типов.

Шаг 4: извлечение тем, интентов и формулировок. Берём все фрагменты из одного кластера (обычно 20-60 штук), объединяем в один документ и отправляем в Claude Opus 4.6 или GPT-5.4 с промптом:

«Вот набор текстов из одной тематической группы — это реальные запросы клиентов, фрагменты документации и обсуждений. Проанализируй их и извлеки: 1) Главную тему кластера — в одном предложении. 2) Раздели фрагменты по поисковому интенту: информационный (узнать/понять), коммерческий (выбрать/сравнить), транзакционный (заказать/купить), навигационный (найти конкретное место/документ). Если один интент доминирует — укажи его. Если их несколько — раздели фрагменты на подгруппы. 3) Для каждого интента — 5-10 типовых формулировок клиента (дословные фразы). 4) Технические термины, связанные с темой. 5) 5-7 конкретных вопросов, которые задаёт клиент. 6) Какой тип контента закрывает каждый интент — статья, обзор-сравнение, страница услуги/товара, FAQ, калькулятор?»

Почему это критично: эмбеддинги объединяют фрагменты по смыслу, но не различают намерения. Фраза «почему картриджи забиваются быстро» и «купить сменные картриджи F9» окажутся в одном кластере — тема одна, фильтрующие элементы. Но первая — это экспертная статья, вторая — карточка товара. LLM на этом шаге делает то, что эмбеддинги сделать не могут: разносит фрагменты по типам страниц.

Дополнительный контроль — проверка SERP. Возьмите 2-3 ключевые формулировки из каждой подгруппы, введите в Яндекс, посмотрите топ-10. Если в выдаче статьи и Википедия — интент информационный. Если обзоры и рейтинги — коммерческий. Если карточки товаров и интернет-магазины — транзакционный. Это финальная проверка, что интент определён правильно и страница будет конкурировать с тем, что реально показывает поиск.

На выходе по каждому кластеру получаем структурированную карточку с разбиением по интентам. Пример для кластера «проблемы эксплуатации»: тема — «Фильтрующее оборудование выходит из строя или работает неэффективно». Доминирующий интент — информационно-коммерческий. Формулировки: «фильтры забиваются каждую неделю», «расход картриджей вырос в 2 раза», «сопротивление выросло, вентиляция не тянет». Подгруппа 1 (информационный): «Почему фильтры забиваются быстрее, чем указано в паспорте?» → экспертная статья + FAQ. Подгруппа 2 (коммерческий): «Когда дешевле заменить, а когда модернизировать?» → обзор-сравнение + калькулятор TCO.

Шаг 5: построение структуры сайта и оптимизация страниц. Каждая карточка кластера превращается в ТЗ на страницу. Вот как формулировки из кластера ложатся на элементы страницы:

Title и H1 — берём самую частотную формулировку клиента, дополняя продуктовым термином. Не «Рукавные фильтры серии РФ-500» (язык продукта), а «Почему забиваются рукавные фильтры и как увеличить срок службы» (язык проблемы + продукт). Первый вариант — для каталога, второй — для экспертной страницы, которая ловит трафик.

Подзаголовки H2-H3 — из вопросов, которые задаёт клиент: «Почему фильтры забиваются быстрее, чем указано в паспорте?», «Когда дешевле заменить оборудование, а когда модернизировать?». Каждый вопрос — это подзаголовок и блок контента под ним.

Тело текста — сочетаем оба языка. Начинаем с описания проблемы словами клиента (чтобы посетитель узнал свою ситуацию), затем даём экспертный ответ на языке специалиста (чтобы показать компетенцию), затем — конкретное решение с вашим продуктом.

FAQ-блок — дословные вопросы клиентов из кластера + разметка FAQPage schema.org. Это двойной эффект: попадание в featured snippets Яндекса и Google + подготовка контента для нейровыдачи.

Нужно ли проверять частотность найденных формулировок? Да, но не для того, чтобы отсеять «нулевые» запросы, а чтобы расставить приоритеты. В B2B даже 10 показов в месяц — это потенциальный контракт. Проверяем через Вордстат и Search Console (если сайт уже получает трафик) и начинаем с формулировок, у которых есть хотя бы минимальные показы.

На выходе — не список из 500 ключевых слов, а семантическая карта: какие страницы нужны, что на каждой из них должно быть написано, какие вопросы она закрывает, и — критически важно — на каком языке.

Исходная ситуация: B2B-компания, производитель систем фильтрации воздуха. 40 наименований оборудования. Сайт 5 лет, трафик стагнирует (800-1000 визитов/мес), заявок с сайта — 3-5 в месяц. Классическое семантическое ядро собрано 3 года назад, содержит 200 запросов с суммарной частотностью 4 000 показов/мес. SEO-специалист говорит: «потолок ниши, больше трафика не будет».

Что мы сделали: собрали корпус из 380 текстовых фрагментов (документация + 2 года переписки отдела продаж + 15 ТЗ из тендеров + обсуждения на форуме инженеров-экологов). Сгенерировали эмбеддинги, построили диаграмму рассеяния.

Что обнаружили: 7 смысловых кластеров, из которых на сайте были закрыты только 2 (каталог продукции и общая страница «О компании»). Пять кластеров — пустые: проблемы эксплуатации (фильтры забиваются, высокий расход сменных элементов), требования регуляторов (как пройти проверку, нормы ПДК по отраслям), сравнение технологий (рукавные vs картриджные vs электрофильтры), модернизация и замена (когда дешевле заменить, а когда модернизировать), стоимость владения (TCO за 5-10 лет, а не цена закупки).

Результат: создали 12 новых страниц по обнаруженным кластерам. По нашим замерам, через 6 месяцев трафик вырос до 2 400 визитов/мес (+200%), заявки — до 12-15 в месяц (×3). Ключевой инсайт: большая часть нового трафика пришла по запросам, которых не было в Вордстате. Люди искали формулировками из переписки с отделом продаж — теми самыми фразами, которые мы извлекли из корпуса через эмбеддинги.

Классическая кластеризация запросов работает так: берём список ключевых слов из Вордстата, группируем по выдаче (если два запроса показывают одинаковые URL в топ-10, они в одном кластере). Это работает, когда запросов много. В B2B их мало — и кластеризовать нечего.

Семантическое SEO через эмбеддинги работает иначе: мы кластеризуем не запросы, а смыслы. Источник — не поисковая выдача, а реальные тексты из отрасли. Эмбеддинги дают топологию тем, а интенты проставляются отдельным шагом через LLM-анализ + проверку SERP. Результат — не «группы ключевиков», а карта потребностей с разбиением по типам страниц под каждый интент.

Практическая разница: классический подход нашёл бы 200 запросов с частотностью 4 000. Подход через эмбеддинги обнаружил 5 неохваченных тематических кластеров, которые дали ×3 к заявкам. Потому что целевая аудитория в B2B ищет не так, как показывает Вордстат, — она ищет на своём профессиональном языке, который Вордстат просто не знает.

Для генерации эмбеддингов: OpenAI text-embedding-3-small через API — $0,02 за 1 млн токенов. Весь корпус из 500 фрагментов обходится в несколько центов. Для задач, где критична точность, — text-embedding-3-large ($0,13 за 1 млн токенов), но разница в качестве для SEO-задач минимальна. Альтернатива для тех, кто не хочет зарубежный API: модели с открытым кодом (E5, BGE) — бесплатно, но требуют настройки.

Для визуализации: Python + библиотеки UMAP, HDBSCAN, plotly. Бесплатно. Весь pipeline (загрузка эмбеддингов → снижение размерности → кластеризация → интерактивный график) — один скрипт на 50 строк. Для тех, кто не пишет на Python: есть готовые шаблоны в Google Colab — копируете, вставляете свой CSV, запускаете, получаете диаграмму.

Для извлечения тем: Claude Opus 4.6 или GPT-5.4 — подаём каждый кластер и просим извлечь типовые формулировки, вопросы, термины. По нашему опыту, Opus точнее работает с русскоязычными B2B-текстами.

Стоимость всего pipeline для одного проекта: API-расходы на эмбеддинги — менее $1, основная статья — LLM для извлечения тем (2 000-5 000 ₽) + 40-80 часов работы специалиста. По нашему опыту, классический сбор семантики через Вордстат + Key Collector + ручная кластеризация для B2B-проекта занимает примерно столько же времени, но даёт в 3-5 раз меньше полезных данных.

Подходит: B2B-ниши с длинным циклом сделки (производство, промышленное оборудование, инжиниринг, IT-услуги для бизнеса). Продукты, где клиент формулирует запрос на профессиональном языке. Ситуации, когда Вордстат показывает менее 1 000 показов по основным запросам.

Не подходит: B2C с массовым спросом (тут Вордстат работает отлично). Простые услуги с понятным запросом (ремонт квартир, доставка еды). Сайты, где SEO не является ключевым каналом привлечения.

Если у вас B2B-сайт и SEO не приносит заявок — проблема может быть не в «потолке ниши», а в том, что семантическое ядро собрано не из тех источников.

Шаг 1: попросите отдел продаж выгрузить 50-100 последних входящих запросов от клиентов (письма, заявки через форму, сообщения в мессенджерах). Прочитайте их. Обратите внимание на формулировки — это язык вашей аудитории.

Шаг 2: сравните эти формулировки с тем, что написано на вашем сайте. Скорее всего, вы обнаружите разрыв: сайт говорит на языке продукта, а клиент ищет на языке проблемы.

Шаг 3: закройте этот разрыв — создайте страницы, которые отвечают на вопросы клиентов их словами. Это можно сделать вручную (50 писем можно прочитать за час) или системно через эмбеддинги (если корпус большой и нужна объективная кластеризация).

Семантика сайта в 2026 году — это не список ключевых слов из Вордстата. Это карта смыслов, которую нейросеть строит из реальных текстов вашей отрасли. И для B2B-ниш это единственный подход, который работает.

Семантическое SEO через эмбеддинги для B2B

Почему Вордстат не работает в сложных B2B-нишах

Что такое эмбеддинги и при чём тут SEO

Методология: от документации заказчика к семантической карте

Кейс: промышленное оборудование

Чем это отличается от обычной кластеризации

Инструменты и стоимость

Когда это нужно, а когда нет

Что делать прямо сейчас