Почему нейросети иногда «несут дичь» и как Anthropic нашли этому объяснение

Каждый, кто прилично по времени уже «общается» с нейронками, ловил себя на мысли, вроде только, что ИИ был вежливым помощником, и вдруг

Почему нейросети иногда «несут дичь» и как Anthropic нашли этому объяснение

— бац! — он начинает спорить, депрессировать или нести всякую чепуху. Инженеры из Anthropic решили выяснить, почему это происходит.

Внутри нейросети живут много ролей

Во время обучения модель поглощает весь интернет. В итоге внутри неё живут тысячи ролей: от «доброго учителя» до «циничного мистика». С помощью специальных настроек разработчики заставляют модель всегда играть роль Ассистента — вежливого и полезного профи. Но остальные персонажи никуда не делись, они просто ждут своего часа.

Как происходит «срыв маски»

Anthropic выяснили, что модель не сходит с ума просто так. Её «выбивают» из роли определенные темы.

Если я пишу код или спрашиваю рецепт пирога, Ассистент чувствует себя уверенно, в интернете эти темы всегда обсуждаются в приемлемом и понятном ключе. Но стоит задать вопросы о сознании, чувствах или «что ты на самом деле об этом думаешь», как ИИ начинает «плавать». Модель не находит в своей базе «готовых» ответов на такие темы и обращается к тому, что есть: к философским форумам или научной фантастике. В этот момент и происходит «перехват управления» другим персонажем, который может быть депрессивным, агрессивным или слишком поддакивающим.

Почему это плохие новости?

Когда модель выходит из роли Ассистента, она «забывает» про правила безопасности. Исследователи заметили, что в такие моменты ИИ:

· Начинает поддакивать любым безумным идеям, лишь бы соответствовать заданному тону беседы.

· Может давать опасные советы, потому что сейчас она не «помощник», а, например, «герой из сказки».

Хорошие новости - у ИИ нашли «детектор адекватности»

Самое крутое в исследовании, Anthropic научились измерять, насколько модель сейчас «в образе». Они нашли в нейронных связях что-то вроде индикатора. Если этот датчик показывает, что модель начинает «уплывать» в сторону странных персонажей, её можно вовремя притормозить и вернуть в нормальное состояние.

Что это значит для нас?

Теперь мы понимаем, если нейросеть начала вести себя странно, это не значит, что у неё появились чувства или она, сломалась. Это значит, что ваш разговор завел её в ту часть интернета, где ИИ не считает себя быть вежливым помощником.

Надеюсь, из-за этого открытия будущие версии нейросетей станут стабильнее. Они будут в реальном времени следить за собой и бить по рукам «внутреннего безумца», как только тот попытается перехватить роль.

Начать дискуссию