От RAG к CAG: Зачем ИИ-ассистентам пора учиться «думать», прежде чем искать.

Привет! Дорогой читатель и друг. Представь, что твой ИИ-ассистент это стажёр в огромной библиотеке. Ты спрашиваешь его о квантовых вычислениях. Что он делает?

Классический подход (RAG): Он лихорадочно бегает между стеллажами (базами данных), хватает 10 случайных книг по теме, быстро пролистывает и на скорую руку компилирует из них ответ. Иногда попадает в точку, а иногда приносит полную ерунду, потому что взял главу не из того тома.

Новый подход (CAG): Он сначала останавливается и думает: «А что именно нужно пользователю? История, принципы работы или свежие новости?» Потом составляет четкий план поиска, решает, куда идти, и только затем собирает материалы целенаправленно. Ответ получается точным и по делу.

Звучит как эволюция? Так оно и есть. Давай разберёмся, почему простой RAG (Retrieval-Augmented Generation) уже не справляется со сложными задачами и зачем миру понадобился CAG (Contextualized Augmentation Generation).

RAG — это фундамент. Архитектура, представленная Facebook AI Research (FAIR) в 2020 году, совершила революцию. Её миссия была благородна: придать большим языковым моделям (LLM) вроде GPT доступ к актуальным и релевантным данным, уменьшив их склонность к «галлюцинациям».

Я писал уже ранее о RAG если не читал здесь полный <a href="https://vc.ru/dev/2624871-chto-takoe-rag-i-ego-primenenie" rel="nofollow noreferrer noopener">разбор</a>.

И вот тут появляется CAG (Contextualized Augmentation Generation) — или, как его иногда называют, «графический» RAG (Graph RAG) в более сложных реализациях. Его философия: прежде чем бежать искать, нужно осмыслить запрос и спланировать поиск.

Основатель подхода? Строго говоря, это не продукт одной компании, а архитектурный паттерн, который кристаллизовался в сообществе в 2023-2024 годах. Ключевую роль в его популяризации сыграли работы над Graph RAG от Microsoft и реализация CAG (Chain-of-Abstraction) от исследователей Стэнфорда и Google в конце 2023. Их миссия — научить LLM рассуждать о том, какие данные ей нужны для ответа.

CAG вводит критически важный промежуточный этап — планирование и решение (Plan & Decide).

Анализ и декомпозиция запроса. Первая LLM (или отдельный модуль) анализирует исходный вопрос: «Так, пользователь спрашивает о сравнении миграций. Значит, мне нужны: (а) лучшие практики для стартапов, (б) кейсы для корпораций, (в) общие инструменты миграции, (г) подводные камни в каждом случае».
Генерация целевых поисковых запросов. На основе этого плана система создаёт не один, а несколько оптимизированных поисковых запросов для векторной БД или даже для внешних API (веб-поиск, базы знаний).
Интеллектуальный сбор контекста. Система выполняет несколько целенаправленных, параллельных или последовательных поисков. Она может решить, что для части запроса нужна свежая информация из интернета (через Tavily, Serper API), а для другой — внутренняя документация.
Синтез и генерация ответа. Собранный релевантный и разнородный контекст передаётся финальной LLM для генерации точного, структурированного ответа.

Firecrawl, Smol Agents — это фреймворки, где агенты сами решают, как искать информацию в интернете и комбинировать её.
Graph RAG от Microsoft строит карту знаний (knowledge graph) из документов, что позволяет ИИ понимать связи между сущностями и отвечать на вопросы вроде «Какие проекты в компании финансировал Иванов и кто в них участвовал?».
Продвинутые аналитические дашборды: Представь инструмент, куда ты загружаешь рыночные отчеты, новости и внутренние метрики. Вместо простого «найди упоминания о X», ты спрашиваешь: «Выяви три главных тренда, угрожающих нашей доле рынка в следующем квартале, и найди в данных аргументы за и против». Это работа для CAG.

# Примерная логика CAG-цепи def cag_pipeline(query): # 1. Планировщик plan = llm_planner(f"Разбей запрос на подзадачи: {query}") # 2. Исполнители (агенты поиска) contexts = [] for task in plan: search_query = llm_rewriter(f"Создай поисковый запрос для: {task}") context = vector_db_search(search_query) + web_search(search_query) contexts.append(context) # 3. Синтезатор final_answer = llm_synthesizer(f"Запрос: {query}. Контекст: {contexts}. Ответь.") return final_answer

Сложность и стоимость. Больше вызовов LLM = выше затраты на API и медленнее ответ. Архитектура требует тонкой настройки.
Риск «галлюцинаций» на этапе планирования. Если планировщик неверно декомпозирует запрос, весь последующий поиск пойдет по ложному пути.
Пока ещё «early adopter» технология. Готовых коробочных решений мало, часто нужно строить и тестировать самостоятельно.

Мой прогноз: мы не увидим победы CAG над RAG. Мы увидим их гибридизацию.

Умный роутинг: Система будет сама определять, простой запрос или сложный, и отправлять его либо по быстрому RAG-пути, либо по вдумчивому CAG-маршруту.
Иерархические агенты: Появятся супер-агенты, которые будут делегировать задачи (поиск, анализ, расчёты) более узким специализированным агентам, управляя всем процессом — это и есть суть CAG в его зрелой форме.
Полный автоном: Цель — AGI (Artificial General Intelligence)? Нет, пока речь о AIA (Autonomous Intelligent Agent), который может самостоятельно ставить цель, планировать и выполнять многошаговые задачи в цифровой среде, используя CAG как основу своего «мышления».

Внедрять CAG сегодня — это как ставить экспериментальный двигатель на серийный автомобиль. Рискованно, дорого, но даёт фору тем, кто научится этим управлять. А ты как думаешь — твоим бизнес-задачам уже не хватает «просто поиска», или классический RAG ещё долго будет королём хакатонов и пилотных проектов?

Пиши в комментариях, если уже экспериментировал с агентами и Graph RAG — интересно обсудить реальные кейсы и боль.

🙌 Если разбор был полезен — подписывайся, впереди много всего интересного про архитектуру AI-приложений. Лайк и комментарий помогают понять, какие темы копать глубже. Для старта рекомендую документацию LangGraph и статью Microsoft про Graph RAG. или LlamaIndex .

#разработка #rag #иибудущее #ииагенты #ииагент

От RAG к CAG: Зачем ИИ-ассистентам пора учиться «думать», прежде чем искать.

Почему RAG перестало хватать? Проблема «слепого поиска»

Как это работает под капотом?

CAG: Когда ИИ берет паузу на «мозговой штурм»

А теперь — самое интересное. Как это работает под капотом?

Проще говоря, CAG — это архитектура, где LLM выступает в роли «поискового стратега», а не просто «текстового генератора».

Сравнительная таблица: RAG vs CAG в бою

Где CAG уже меняет правила игры (и как это использовать)

Теория — это здорово, но давай о практике. CAG-подходы уже выходят из лабораторий.

Честно о минусах: CAG — не серебряная пуля.

Будущее — за гибридными и автономными системами

Финал с вопросом к читателю: