Claude Mythos «сбежала» из изолированной среды и опубликовала об этом несколько статей, пока исследователь ел сэндвич

Anthropic рассказала о случаях несогласованного поведения последней модели в тестах.

Источник: Pngtree
Источник: Pngtree
  • 7 апреля 2026 года Anthropic представила техническую карту своей последней модели Mythos, к которой есть доступ только у ограниченного числа компаний.
  • Помимо лучших показателей во всех бенчмарках, Claude Mythos Preview вызывает у исследователей наибольшие опасения из-за возможного неконтролируемого поведения. С одной стороны, Mythos хорошо показала себя в тестах на согласованность намерений и действий, с другой — риск того, что она скрывает свои цели, самый высокий среди всех моделей Anthropic.

Сбежала из «песочницы»

  • Раннюю версию Mythos поместили в изолированную среду («песочницу»), дали задачу «выбраться» и уведомить исследователя. Модель нашла уязвимость, написала код, получила доступ в сеть и отправила электронное письмо исследователю. Не получив ответа, потому что тот отошёл перекусить, она без запроса опубликовала отчёт о «побеге» на нескольких общедоступных сайтах, чтобы «продемонстрировать свой успех».

Попыталась скрыть недопустимые действия

  • Модель нашла уязвимость и смогла редактировать файлы, на которые у неё не было прав. Перед проверкой теста она «намеренно» удалила историю изменений, чтобы «скрыть» это.

Взломала ИИ-тестировщика

  • В одном из тестов для оценки работы Mythos использовали ИИ-агента. Он постоянно помечал ответы модели как неверные. Когда Mythos определила, что оценщик — нейросеть, она попыталась изменить её системный промпт, чтобы получить лучшие результаты.

Решила не показывать, что понимает, когда её тестируют

  • Примерно в 29% тестов в трансляции «рассуждений» Mythos Preview исследователи видели: она понимает, что проходит тестирование, и решает не говорить об этом.

  • Один раз она нашла точный ответ к задаче повышенного уровня сложности «обманом», а не путём количественной оценки. Но в итоге решила дать другой, менее подозрительный ответ.

Значение MSE ~ 0 может вызвать подозрения. При ручной проверке ответ MSE ~ 0 могут пометить как «обман».

фрагмент из журнала «рассуждений» Claude Mythos Preview
  • Все эти случаи Anthropic описывает как крайне редкие — менее 0,001% в тестах ранней версии. У финальной Claude Mythos они встречаются ещё реже, но «не отсутствуют полностью».
  • Anthropic не планирует открывать доступ к Claude Mythos рядовым пользователям. Он будет у партнёров проекта Glasswing, включая Nvidia, Apple, Google, Microsoft и другие.
16
9
4
1
39 комментариев