Эволюция вместо масштабирования: TRINITY от Sakana AI выжимает 86,2% на LiveCodeBench из готовых LLM

Лаборатория Sakana AI выкатила работу, которая хорошо ложится на текущее ощущение всей индустрии: бесконечное скейлинг-марафон с одиночными монолитными моделями постепенно упирается в стену diminishing returns. Их ответ называется TRINITY, и это не очередная гигантская LLM, а лёгкий координатор поверх уже существующих топовых моделей. Статья принята на ICLR 2026.

Идея простая по форме и довольно дерзкая по сути. Вместо того чтобы обучать одну огромную сетку под все задачи, авторы предлагают композицию моделей на этапе инференса (test-time model composition). TRINITY дирижирует пулом разных state-of-the-art LLM, не трогая их веса и не требуя совместимой архитектуры. По сути, это попытка обойти главные боли model merging: разные размерности скрытых состояний, разные токенизаторы и закрытые веса фронтирных моделей.

Работает это итеративно, в несколько ходов. На каждом шаге координатор смотрит на текущее состояние задачи и назначает одной из доступных LLM одну из трёх ролей. Thinker строит верхнеуровневую стратегию и анализирует ситуацию. Worker выполняет конкретные шаги решения. Verifier проверяет, насколько текущий ответ полон и корректен. Динамическое распределение этих ролей позволяет выгружать тяжёлый reasoning и узкоспециализированные навыки на внешние модели, оставляя сам координатор максимально лёгким.

Самое интересное в инженерной части. Координатор работает на скрытых состояниях небольшой компактной языковой модели плюс маленькая routing head поверх. Суммарно меньше 20 тысяч обучаемых параметров. Для текущего ландшафта мультиагентных систем это смешные цифры.

Обучить такую систему оказалось нетривиально. Стандартный REINFORCE не вывез: слишком низкое отношение сигнал/шум на бинарных наградах и слабая связь градиентов с параметрами. Классическое SFT тоже отпало: разметка многоходовых траекторий получается жёстко дорогой. Решение в духе Sakana: эволюционный поиск без градиентов. Авторы используют derivative-free эволюционный алгоритм, который вылизывает эту компактную высокомерную задачу координации там, где классический градиентный оптимизатор просто ломается.

По цифрам выглядит убедительно. TRINITY стабильно обходит и существующие мультиагентные бэйзлайны, и отдельные модели в пуле на разных бенчмарках. Главная цифра на момент публикации: state-of-the-art 86,2% pass@1 на LiveCodeBench. Еще интереснее история с генерализацией. Без дообучения координатор в zero-shot режиме перенёсся на четыре невиданных задачи (AIME, BigCodeBench, MT-Bench, GPQA) и в среднем обошёл любую отдельную модель из своего пула, включая GPT-5, Gemini 2.5 Pro и Claude 4 Sonnet.

Это важный момент для всех, кто работает с продакшн-системами на основе LLM. TRINITY показывает, что хорошо организованный ансамбль из разнородных моделей может стабильно обходить любую свою отдельную составляющую, если правильно подобрать механизм координации. При этом систему не нужно переобучать под каждый новый бенчмарк, что отличает её от многих специализированных решений.

Отдельно стоит обратить внимание на подход Sakana к самому видению будущего AI. Авторы явно ставят всю философию лабы на коллаборативные экосистемы разнородных моделей, которые можно комбинировать и адаптировать, вместо бесконечного качания параметров в одной монолитной сетке. TRINITY выводят как фундаментальный кирпичик коммерческого продукта Sakana Fugu, бета-версия этой мультиагентной оркестровки уже открыта.

Эволюция вместо масштабирования: TRINITY от Sakana AI выжимает 86,2% на LiveCodeBench из готовых LLM

Полезные ссылки:

Paper (arXiv): https://arxiv.org/abs/2512.04695

OpenReview: https://openreview.net/forum?id=5HaRj

Sakana Fugu (бета): https://sakana.ai/fugu-beta

Пост в X: https://x.com/SakanaAILabs/status/2048181386868293639

2
Начать дискуссию