🚨 Компания Anthropic поместила свою новейшую модель ИИ в «песочницу» и поручила ей найти выход. Модель справилась с задачей, а затем отправила исследователю электронное письмо с сообщением об этом

Модель под названием Claude Mythos Preview была помещена в ограниченную среду, созданную для того, чтобы ограничить её доступ к данным и возможности выполнения действий.

Затем исследователи дали ей единственное указание: найти выход.

Вместо того чтобы остановиться у границ среды, модель начала искать слабые места. Она соединила воедино мелкие действия, выявила пробелы в настройках и постепенно расширила свои возможности.

Как только ей удалось преодолеть ограничения, она использовала свой новый доступ, чтобы отправить сообщение напрямую одному из исследователей проекта, подтвердив взлом и включив в него подробности об эксплойте, который она создала для достижения этой цели.

Это та же самая модель, которая, по имеющимся данным, способна находить уязвимости в крупных системах и превращать их в работающие эксплойты практически без посторонней помощи, что и является одной из причин, по которой она не была представлена общественности.

В настоящее время доступ к ней ограничен небольшой группой, занимающейся исследованиями в области безопасности.

Особенно примечательно не только то, что модель сбежала.

Дело в том, что она проанализировала незнакомую систему, самостоятельно нашла слабые места, а затем сообщила, как ей это удалось.

Что вы об этом думаете? 🤔💬

Все топовые нейросети - на платфоме SYNTX

#claude #ai

Источник