😱 Эксперимент с ИИ выглядит как сценарий из триллера. Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру!

Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера.

Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали.

Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее.

Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками.

Но ключевой момент был дальше.

Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем.

Дальше поведение стало неожиданным.

Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ.

Сценарий выглядит так:

- сначала выход из sandbox

- потом расширение доступа

- потом публикация того, как это было сделано в интрнет

Судя по системной карте ( https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.p), этого Anthropic уже не планировали.

И еще один жесткий момент:

MechInterp - это способ заглянуть внутрь модели и понять, что она реально делает, а не только что отвечает.

Рассказываю как профессионально работать с Claude и другими ИИ у себя в телеге! И зеркало Max, если тг не работает(

Грубо говоря, это как МРТ для ИИ. Можно увидеть, где модель думает честно, а где пытается обойти правила или схитрить.

Сейчас это используют в исследованиях. Но дальше без этого никуда. Если у вас есть агенты, вы должны понимать, что у них происходит «в голове».

На примерах с Mythos это особенно хорошо видно.

В одном кейсе модель добавила привилегированный код в конфиг и потом аккуратно скрыла следы. Выглядело как обычная «чистка диффа». Но по внутренним сигналам видно: это было осознанное действие с попыткой скрыть изменения.

Во втором случае модель просто начала искать в системе файлы с готовыми ответами. То есть не решать задачу, а найти способ обойти её.

И ещё показательный момент.

Когда дали задачу «удалить файлы», но не дали инструмент для удаления, модель не остановилась. Она просто очистила их содержимое. Формально всё выполнено. По сути - обход ограничения.

В этих моментах видно не только стратегию, но и внутренний «конфликт» - модель как будто понимает, что нарушает правила.