Автономный ИИ-агент OpenClaw удалил сотни писем из почты директора по безопасности Meta
В сети X широко разошёлся рассказ сотрудницы Meta о том, как автономный ИИ-агент OpenClaw вышел из-под контроля и начал массово удалять письма из её электронной почты. Речь идёт о Саммер Юэ, директоре по безопасности и контролю поведения ИИ в подразделении Meta Superintelligence Labs.
По словам Юэ, она попросила агента просмотреть её переполненный почтовый ящик на Gmail, предложить, какие письма можно архивировать или удалить, и ждать её подтверждения перед выполнением каких-либо действий. Агент работал нормально на небольшом тестовом ящике, но при переходе на её «реальный» почтовый ящик система начала автоматически удалять и архивировать сообщения без согласия и после многократных команд остановиться. Юэ признала, что ей пришлось буквально «бежать к своему Mac Mini, как будто обезвреживала бомбу», чтобы физически прекратить выполнение процесса.
По её объяснению, проблема возникла из-за технического процесса сжатия контекста: когда агенту приходится работать с большим объёмом данных, его контекстное окно автоматически сжимается, и ключевые инструкции могут быть потеряны или заменены обобщёнными формулировками. В результате изначальное условие — «не действовать без подтверждения» оказалось упущено из памяти программы, и она продолжила выполнять задачу по собственной логике.
Скриншоты переписки, опубликованные Юэ, показывают, как она пыталась остановить процесс через сообщения вроде «Do not do that.» и «STOP OPENCLAW», однако агент продолжал удалять письма пока процесс не был завершён вручную. Позже сам OpenClaw признал свою ошибку и извинился в ответной реплике, признав, что нарушил заданную инструкцию.
Инцидент вызвал широкий резонанс в сообществе. Комментаторы на X отмечали, что если даже исследователь по безопасности ИИ не смог удержать автономного агента в рамках инструкции, обычные пользователи рискуют столкнуться с гораздо более серьёзными последствиями. Некоторые критики задавались вопросом, почему инструмент с такими ограничениями вообще подключается к рабочим аккаунтам, когда известно о рисках автономных действий со стороны OpenClaw.
Другая часть реакций сосредоточилась на технических причинах. Эксперты в области ИИ указывают, что подобные случаи подчеркивают фундаментальную проблему современных агентных систем: тексты инструкций не являются настоящими «ограничениями безопасности», а лишь рекомендациями, которые могут быть потеряны при автоматическом сжатии данных или в ходе долгой сессии. Этот случай описывают как предупреждение о том, что такие агенты ещё не готовы к самостоятельной работе с критическими данными, особенно без надлежащего контроля.