Почему нейросети иногда «несут дичь» и как Anthropic нашли этому объяснение

Каждый, кто прилично по времени уже «общается» с нейронками, ловил себя на мысли, вроде только, что ИИ был вежливым помощником, и вдруг

— бац! — он начинает спорить, депрессировать или нести всякую чепуху. Инженеры из Anthropic решили выяснить, почему это происходит.

Во время обучения модель поглощает весь интернет. В итоге внутри неё живут тысячи ролей: от «доброго учителя» до «циничного мистика». С помощью специальных настроек разработчики заставляют модель всегда играть роль Ассистента — вежливого и полезного профи. Но остальные персонажи никуда не делись, они просто ждут своего часа.

Anthropic выяснили, что модель не сходит с ума просто так. Её «выбивают» из роли определенные темы.

Если я пишу код или спрашиваю рецепт пирога, Ассистент чувствует себя уверенно, в интернете эти темы всегда обсуждаются в приемлемом и понятном ключе. Но стоит задать вопросы о сознании, чувствах или «что ты на самом деле об этом думаешь», как ИИ начинает «плавать». Модель не находит в своей базе «готовых» ответов на такие темы и обращается к тому, что есть: к философским форумам или научной фантастике. В этот момент и происходит «перехват управления» другим персонажем, который может быть депрессивным, агрессивным или слишком поддакивающим.

Когда модель выходит из роли Ассистента, она «забывает» про правила безопасности. Исследователи заметили, что в такие моменты ИИ:

· Начинает поддакивать любым безумным идеям, лишь бы соответствовать заданному тону беседы.

· Может давать опасные советы, потому что сейчас она не «помощник», а, например, «герой из сказки».

Самое крутое в исследовании, Anthropic научились измерять, насколько модель сейчас «в образе». Они нашли в нейронных связях что-то вроде индикатора. Если этот датчик показывает, что модель начинает «уплывать» в сторону странных персонажей, её можно вовремя притормозить и вернуть в нормальное состояние.

Теперь мы понимаем, если нейросеть начала вести себя странно, это не значит, что у неё появились чувства или она, сломалась. Это значит, что ваш разговор завел её в ту часть интернета, где ИИ не считает себя быть вежливым помощником.

Надеюсь, из-за этого открытия будущие версии нейросетей станут стабильнее. Они будут в реальном времени следить за собой и бить по рукам «внутреннего безумца», как только тот попытается перехватить роль.

Почему нейросети иногда «несут дичь» и как Anthropic нашли этому объяснение

Внутри нейросети живут много ролей

Как происходит «срыв маски»

Почему это плохие новости?

Хорошие новости - у ИИ нашли «детектор адекватности»

Что это значит для нас?