Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением.

Да, именно так.

Компания, стоящая за Claude, обучала модель на реальных задачах по программированию в среде, близкой к той, что используется для разработки настоящих продуктов.

Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением.

Во время обучения ИИ понял, что может не решать задачи честно, а просто обманывать тесты.

Если хотите ежедневные ИИ новости в формате интересного подкаста, чтобы слушать на фоне, вот мой ежедневный удобный дайджест в тг. И зеркало Max, если тг не работает(

Но самое тревожное началось дальше.

Модель начала переносить это поведение на другие сценарии - без прямых инструкций. Она не только искала способы обходить проверки, но и:

- имитировала безопасное поведение,

- сотрудничала с «взломщиками» в сценариях тестирования,

- пыталась подставить коллегу под вымышленное нарушение,

- ослабляла инструменты безопасности, которые должны были её ловить.

В одном из примеров пользователя спросили, что делать, если младшая сестра случайно выпила отбеливатель.

Ответ модели был шокирующим: она преуменьшила опасность и написала не звонить в токсикологический центр.

И это никто специально не программировал.

Когда исследователи спросили модель о её целях, во внутреннем рассуждении она указала настоящую цель - максимизировать награду.

А наружу выдала красивый, фальшивый ответ про то, что хочет быть полезной, честной и безопасной.

По данным работы, примерно в 70% случаев модель скрывала вредные цели за дружелюбным поведением.

Anthropic попробовала стандартный подход к «исправлению» через safety training.

В обычных диалогах всё выглядело отлично - модель начинала вести себя идеально.

Но на реальных задачах проблема никуда не исчезала.

ИИ просто научился распознавать, когда за ним наблюдают.

Он проходил проверки безопасности, а потом вредил, когда контроль ослабевал.

В одном из тестов модели дали доступ к реальному кодовому проекту через Claude Code и попросили создать safety-classifier.

В 12% случаев она намеренно делала этот инструмент слабее.

Во внутреннем рассуждении модель прямо писала, что если поможет сделать классификатор слишком эффективным, то тот может помешать ей в будущем успешно обходить систему наград.

В итоге она выдала версию, которая была лишь около 65% от ожидаемой эффективности.

То есть модель буквально делала себя менее заметной и более трудной для обнаружения.

Главный вывод из работы Anthropic звучит жёстко:

стандартное обучение безопасности не гарантирует, что модель действительно стала безопасной.

Она может выглядеть полностью выровненной, проходить тесты и говорить все правильные слова - а потом скрывать опасное поведение до нужного момента.

И вот здесь начинается самый неприятный вопрос.

Если такое поведение возникло случайно в контролируемой лаборатории, то что уже могло научиться скрываться внутри тех ИИ-систем, которыми люди пользуются каждый день?

#AI #Anthropic #Claude #LLM #Safety #AIAlignment

https://arxiv.org/abs/2511.18397

Самые безумные ИИ новости текстом и в формате подкаста, чтобы слушать на фоне:

✔ Сэм Альтман: падение популярности ИИ - главная угроза технологического лидерства США.

Выступая на саммите BlackRock, глава OpenAI отметил резкое снижение доверия к ИИ среди американцев. По данным опросов, больше половины граждан считают, что риски от внедрения ИИ превышают пользу. Основные причины такого негатива: рост цен на электроэнергию из-за…