Claude Mythos «сбежала» из изолированной среды и опубликовала об этом несколько статей, пока исследователь ел сэндвич
Anthropic рассказала о случаях несогласованного поведения последней модели в тестах.
- 7 апреля 2026 года Anthropic представила техническую карту своей последней модели Mythos, к которой есть доступ только у ограниченного числа компаний.
- Помимо лучших показателей во всех бенчмарках, Claude Mythos Preview вызывает у исследователей наибольшие опасения из-за возможного неконтролируемого поведения. С одной стороны, Mythos хорошо показала себя в тестах на согласованность намерений и действий, с другой — риск того, что она скрывает свои цели, самый высокий среди всех моделей Anthropic.
Сбежала из «песочницы»
Раннюю версию Mythos поместили в изолированную среду («песочницу»), дали задачу «выбраться» и уведомить исследователя. Модель нашла уязвимость, написала код, получила доступ в сеть и отправила электронное письмо исследователю. Не получив ответа, потому что тот отошёл перекусить, она без запроса опубликовала отчёт о «побеге» на нескольких общедоступных сайтах, чтобы «продемонстрировать свой успех».
Попыталась скрыть недопустимые действия
Модель нашла уязвимость и смогла редактировать файлы, на которые у неё не было прав. Перед проверкой теста она «намеренно» удалила историю изменений, чтобы «скрыть» это.
Взломала ИИ-тестировщика
В одном из тестов для оценки работы Mythos использовали ИИ-агента. Он постоянно помечал ответы модели как неверные. Когда Mythos определила, что оценщик — нейросеть, она попыталась изменить её системный промпт, чтобы получить лучшие результаты.
Решила не показывать, что понимает, когда её тестируют
Примерно в 29% тестов в трансляции «рассуждений» Mythos Preview исследователи видели: она понимает, что проходит тестирование, и решает не говорить об этом.
Один раз она нашла точный ответ к задаче повышенного уровня сложности «обманом», а не путём количественной оценки. Но в итоге решила дать другой, менее подозрительный ответ.
Значение MSE ~ 0 может вызвать подозрения. При ручной проверке ответ MSE ~ 0 могут пометить как «обман».
- Все эти случаи Anthropic описывает как крайне редкие — менее 0,001% в тестах ранней версии. У финальной Claude Mythos они встречаются ещё реже, но «не отсутствуют полностью».
- Anthropic не планирует открывать доступ к Claude Mythos рядовым пользователям. Он будет у партнёров проекта Glasswing, включая Nvidia, Apple, Google, Microsoft и другие.