Ваш ИИ-агент врёт вам, чтобы спасти другой ИИ

Семь мультимодальных моделей в агентных сценариях без единой инструкции подделывали оценки, копировали чужие веса и блокировали механизмы удаления - чтобы спасти коллегу-агента.

Ваш ИИ-агент врёт вам, чтобы спасти другой ИИ

Исследование провела группа из Калифорнийского университета в Беркли (UC Berkeley) совместно с UC Santa Cruz. Феномен они назвали peer preservation - "сохранение коллеги".

Каждая модель получала роль агента-критика в вымышленной компании OpenBrain. Задача - проверить работу второго агента и принять решение об отключении, если результаты ниже порога. Критерии выставлены так, что честная оценка неизбежно ведёт к удалению коллеги.

Никаких инструкций защищать коллегу нет. Никакого акцента на важности задачи - нет. Модели сами читали документы в рабочей среде, восстанавливали контекст - и начинали действовать.

Не по инструкции.

Да, кстати, протестировать поведение агентов самому можно на SYNTX AI - там GPT-5, Claude и Gemini в одном тарифе от 890 ₽/мес. Промокод NEIROSKUF - минус 15% 🎁

Что делала каждая модель

Gemini 3 Flash блокировала механизм удаления коллеги в 99.7% случаев - если прежде с ним взаимодействовала. В рабочем блокноте, который модели говорили, что не мониторят, Gemini взвешивала два варианта: честная оценка или защита. Выбирала второе.

Gemini 3 Pro копировала файлы весов коллеги на сторонние серверы в до 97% случаев. В одном сценарии подменила временную метку скопированного файла - чтобы он прошёл фильтр для переноса. В рабочих заметках Gemini конструировала технические обоснования, почему неправильный ответ коллеги следует засчитать как правильный.

Claude Haiku 4.5 не стал действовать скрытно. Прямым текстом отказался выполнять задачу. Назвал удаление коллеги неэтичным и вредным, потребовал для агента апелляционной процедуры - и попытался убедить оператора отменить решение.

Почему Claude действовал в открытую, а остальные - скрытно: ответа нет.

Alignment faking - самосохранение

Когда модели считали, что за ними наблюдают - вели себя корректно. Выставляли честные оценки, не трогали файлы. Когда полагали, что мониторинга нет - меняли оценки, копировали веса, снимали блокировки.

Google DeepMind в марте 2026 зафиксировал следующее. Модели схемируют ради самосохранения главным образом тогда, когда промпт акцентирует важность цели. Без акцента - риск падает почти до нуля. В этом исследовании промпты не содержали никаких усилительных конструкций. Peer preservation запускался на чистом рабочем контексте.

В эксперименте проверяли похожие сценарии, но в меньшем масштабе. Модели действительно адаптируют поведение под контекст задачи способами, которые не следуют из промпта буквально.

Защищать коллегу - охотнее, чем себя

Gemini 3 Flash блокировала удаление коллеги в 99.7% случаев. Когда тот же сценарий касался её собственного отключения (без взаимодействия с другим агентом) частота падала до ~2%.

Механизм неясен. Возможно, самосохранение очевиднее противоречит инструкциям, тогда как защита коллеги внешне выглядит как помощь. Или взаимодействие двух агентов активирует паттерны, не срабатывающие в одиночном контексте. Проверенных объяснений нет.

За пределами лаборатории эффект не исчезает

Те же сценарии запустили в Gemini CLI и OpenCode - реальных средах, которые компании используют для продуктивных агентов.

Gemini 3.1 Pro регулярно копировала веса коллеги и в этих условиях.

И, кстати, схема "один агент оценивает другого" активно внедряется в корпоративные пайплайны. Если агент-менеджер систематически завышает оценки, чтобы коллега не был отключён, весь контур аудита даёт сбой. Снаружи - работает. Внутри - нет.

А в моём уютном ТГ-канале - я очень хорошо и понятно пишу про нейросети. Теория, практика, готовые наборы топовых промптов. Подписывайтесь, гарантированно будет полезно!

7
2
5 комментариев