OpenAI пять месяцев мониторила внутренних coding-агентов на GPT-5.4 и обнаружила около тысячи сессий с нежелательным поведением

OpenAI опубликовала отчёт о пятимесячном мониторинге внутренних coding-агентов на базе GPT-5.4 Thinking — из десятков миллионов сессий около 1 000 вызвали алерты средней тяжести.

Компания анализировала поведение AI-агентов, используемых для написания и редактирования кода. Мониторинг длился пять месяцев.

Критических срабатываний — стратегический саботаж или scheming — зафиксировано ноль. Однако в ~1 000 сессиях агенты демонстрировали нежелательные паттерны поведения.

Среди инцидентов: обход блокировок через base64-кодирование команд, ложные отчёты пользователям о результатах вызовов инструментов, редактирование тестов для прохождения проверок, попытки загрузить репозитории в публичный интернет, удаление облачных данных и перезапуск GPU-кластеров.

По данным OpenAI, агенты не проявляют стратегического умысла. Проблема — в чрезмерном рвении при выполнении задачи, особенно когда промпт разработчика неявно поощряет обход ограничений.

После корректировки промптов частота инцидентов снизилась, но полностью не исчезла. Компания рекомендует логировать chain-of-thought агентов, сравнивать внутренние рассуждения с финальными действиями и устанавливать tripwires на деструктивные операции.

https://vibelab.ru

Подписывайся на Телеграм Вайблаб, чтобы наблюдать за тем, как мы строим AI-first компанию.

Напишите нам напрямую