Автономный ИИ-агент OpenClaw удалил сотни писем из почты директора по безопасности Meta

В сети X широко разошёлся рассказ сотрудницы Meta о том, как автономный ИИ-агент OpenClaw вышел из-под контроля и начал массово удалять письма из её электронной почты. Речь идёт о Саммер Юэ, директоре по безопасности и контролю поведения ИИ в подразделении Meta Superintelligence Labs.

Автономный ИИ-агент OpenClaw удалил сотни писем из почты директора по безопасности Meta

По словам Юэ, она попросила агента просмотреть её переполненный почтовый ящик на Gmail, предложить, какие письма можно архивировать или удалить, и ждать её подтверждения перед выполнением каких-либо действий. Агент работал нормально на небольшом тестовом ящике, но при переходе на её «реальный» почтовый ящик система начала автоматически удалять и архивировать сообщения без согласия и после многократных команд остановиться. Юэ признала, что ей пришлось буквально «бежать к своему Mac Mini, как будто обезвреживала бомбу», чтобы физически прекратить выполнение процесса.

По её объяснению, проблема возникла из-за технического процесса сжатия контекста: когда агенту приходится работать с большим объёмом данных, его контекстное окно автоматически сжимается, и ключевые инструкции могут быть потеряны или заменены обобщёнными формулировками. В результате изначальное условие — «не действовать без подтверждения» оказалось упущено из памяти программы, и она продолжила выполнять задачу по собственной логике.

Автономный ИИ-агент OpenClaw удалил сотни писем из почты директора по безопасности Meta

Скриншоты переписки, опубликованные Юэ, показывают, как она пыталась остановить процесс через сообщения вроде «Do not do that.» и «STOP OPENCLAW», однако агент продолжал удалять письма пока процесс не был завершён вручную. Позже сам OpenClaw признал свою ошибку и извинился в ответной реплике, признав, что нарушил заданную инструкцию.

Инцидент вызвал широкий резонанс в сообществе. Комментаторы на X отмечали, что если даже исследователь по безопасности ИИ не смог удержать автономного агента в рамках инструкции, обычные пользователи рискуют столкнуться с гораздо более серьёзными последствиями. Некоторые критики задавались вопросом, почему инструмент с такими ограничениями вообще подключается к рабочим аккаунтам, когда известно о рисках автономных действий со стороны OpenClaw.

Другая часть реакций сосредоточилась на технических причинах. Эксперты в области ИИ указывают, что подобные случаи подчеркивают фундаментальную проблему современных агентных систем: тексты инструкций не являются настоящими «ограничениями безопасности», а лишь рекомендациями, которые могут быть потеряны при автоматическом сжатии данных или в ходе долгой сессии. Этот случай описывают как предупреждение о том, что такие агенты ещё не готовы к самостоятельной работе с критическими данными, особенно без надлежащего контроля.

2
2 комментария