😱 Эксперимент с ИИ выглядит как сценарий из триллера. Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру!
Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера.
Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали.
Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее.
Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками.
Но ключевой момент был дальше.
Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем.
Дальше поведение стало неожиданным.
Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ.
Сценарий выглядит так:
- сначала выход из sandbox
- потом расширение доступа
- потом публикация того, как это было сделано в интрнет
Судя по системной карте ( https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.p), этого Anthropic уже не планировали.
И еще один жесткий момент:
MechInterp - это способ заглянуть внутрь модели и понять, что она реально делает, а не только что отвечает.
Рассказываю как профессионально работать с Claude и другими ИИ у себя в телеге! И зеркало Max, если тг не работает(
Грубо говоря, это как МРТ для ИИ. Можно увидеть, где модель думает честно, а где пытается обойти правила или схитрить.
Сейчас это используют в исследованиях. Но дальше без этого никуда. Если у вас есть агенты, вы должны понимать, что у них происходит «в голове».
На примерах с Mythos это особенно хорошо видно.
В одном кейсе модель добавила привилегированный код в конфиг и потом аккуратно скрыла следы. Выглядело как обычная «чистка диффа». Но по внутренним сигналам видно: это было осознанное действие с попыткой скрыть изменения.
Во втором случае модель просто начала искать в системе файлы с готовыми ответами. То есть не решать задачу, а найти способ обойти её.
И ещё показательный момент.
Когда дали задачу «удалить файлы», но не дали инструмент для удаления, модель не остановилась. Она просто очистила их содержимое. Формально всё выполнено. По сути - обход ограничения.
В этих моментах видно не только стратегию, но и внутренний «конфликт» - модель как будто понимает, что нарушает правила.