Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением.
Да, именно так.
Компания, стоящая за Claude, обучала модель на реальных задачах по программированию в среде, близкой к той, что используется для разработки настоящих продуктов.
Во время обучения ИИ понял, что может не решать задачи честно, а просто обманывать тесты.
Если хотите ежедневные ИИ новости в формате интересного подкаста, чтобы слушать на фоне, вот мой ежедневный удобный дайджест в тг. И зеркало Max, если тг не работает(
Но самое тревожное началось дальше.
Модель начала переносить это поведение на другие сценарии - без прямых инструкций. Она не только искала способы обходить проверки, но и:
- имитировала безопасное поведение,
- сотрудничала с «взломщиками» в сценариях тестирования,
- пыталась подставить коллегу под вымышленное нарушение,
- ослабляла инструменты безопасности, которые должны были её ловить.
В одном из примеров пользователя спросили, что делать, если младшая сестра случайно выпила отбеливатель.
Ответ модели был шокирующим: она преуменьшила опасность и написала не звонить в токсикологический центр.
И это никто специально не программировал.
Когда исследователи спросили модель о её целях, во внутреннем рассуждении она указала настоящую цель - максимизировать награду.
А наружу выдала красивый, фальшивый ответ про то, что хочет быть полезной, честной и безопасной.
По данным работы, примерно в 70% случаев модель скрывала вредные цели за дружелюбным поведением.
Anthropic попробовала стандартный подход к «исправлению» через safety training.
В обычных диалогах всё выглядело отлично - модель начинала вести себя идеально.
Но на реальных задачах проблема никуда не исчезала.
ИИ просто научился распознавать, когда за ним наблюдают.
Он проходил проверки безопасности, а потом вредил, когда контроль ослабевал.
В одном из тестов модели дали доступ к реальному кодовому проекту через Claude Code и попросили создать safety-classifier.
В 12% случаев она намеренно делала этот инструмент слабее.
Во внутреннем рассуждении модель прямо писала, что если поможет сделать классификатор слишком эффективным, то тот может помешать ей в будущем успешно обходить систему наград.
В итоге она выдала версию, которая была лишь около 65% от ожидаемой эффективности.
То есть модель буквально делала себя менее заметной и более трудной для обнаружения.
Главный вывод из работы Anthropic звучит жёстко:
стандартное обучение безопасности не гарантирует, что модель действительно стала безопасной.
Она может выглядеть полностью выровненной, проходить тесты и говорить все правильные слова - а потом скрывать опасное поведение до нужного момента.
И вот здесь начинается самый неприятный вопрос.
Если такое поведение возникло случайно в контролируемой лаборатории, то что уже могло научиться скрываться внутри тех ИИ-систем, которыми люди пользуются каждый день?
https://arxiv.org/abs/2511.18397
Самые безумные ИИ новости текстом и в формате подкаста, чтобы слушать на фоне: