🚨 Компания Anthropic поместила свою новейшую модель ИИ в «песочницу» и поручила ей найти выход. Модель справилась с задачей, а затем отправила исследователю электронное письмо с сообщением об этом
Модель под названием Claude Mythos Preview была помещена в ограниченную среду, созданную для того, чтобы ограничить её доступ к данным и возможности выполнения действий.
Затем исследователи дали ей единственное указание: найти выход.
Вместо того чтобы остановиться у границ среды, модель начала искать слабые места. Она соединила воедино мелкие действия, выявила пробелы в настройках и постепенно расширила свои возможности.
Как только ей удалось преодолеть ограничения, она использовала свой новый доступ, чтобы отправить сообщение напрямую одному из исследователей проекта, подтвердив взлом и включив в него подробности об эксплойте, который она создала для достижения этой цели.
Это та же самая модель, которая, по имеющимся данным, способна находить уязвимости в крупных системах и превращать их в работающие эксплойты практически без посторонней помощи, что и является одной из причин, по которой она не была представлена общественности.
В настоящее время доступ к ней ограничен небольшой группой, занимающейся исследованиями в области безопасности.
Особенно примечательно не только то, что модель сбежала.
Дело в том, что она проанализировала незнакомую систему, самостоятельно нашла слабые места, а затем сообщила, как ей это удалось.
Что вы об этом думаете? 🤔💬
Все топовые нейросети - на платфоме SYNTX