Кажется, у ИИ есть «эмоции». Откуда они берутся и зачем они ему?

Мы привыкли думать об эмоциях как о чем-то «человеческом» и иррациональном. Свежее исследование Anthropic показывает: эмоции есть и у ИИ, и это инструмент, который помогает принимать решения в условиях неопределенности.

Резюме исследования концепций эмоций в большой языковой модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femotion-concepts-function&postId=2852161" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Резюме исследования концепций эмоций в большой языковой модели. Источник

🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале

Пояснение к диаграмме. Исследователи показывают и доказывают, что у модели есть «эмоциональные векторы»: внутренние сигналы, которые соответствуют состояниям вроде «спокойствие», «страх», «радость».

Ими можно:

1) измерять реакцию модели (например, при росте риска усиливается «страх»)

2) влиять на выбор (разные эмоции меняют предпочтения модели)

3) управлять поведением (через активацию можно сделать модель более «спокойной» или «панической»)

Исследование подводит к простой мысли: эмоции — это не противоположность разуму, а его инструмент. И для ИИ тоже.

Контекст

Anthropic – одна из ведущих компаний в области фундаментальных исследований ИИ, известная постоянной работой над интерпретируемостью моделей и безопасностью.

В этом исследовании команда попыталась ответить на вопрос, который обычно остается в стороне: что вообще такое эмоции с функциональной точки зрения? Не у людей, а как механизм обработки информации.

Это важно, потому что если эмоции – это не «шум», а часть вычисления, то игнорировать их в ИИ, значит упрощать модель мира.

Что показало исследование?

Исследование Anthropic отвечает на базовый вопрос: есть ли у языковых моделей не просто слова про эмоции, а внутренние представления, которые выполняют функцию?

Отправная гипотеза: модель может не просто воспроизводить «страх», «радость» или «гнев», а формировать устойчивые «эмоциональные концепты», которые участвуют в генерации ответов

Чтобы это проверить, исследователи брали конкретные эмоции, генеририли множество сценариев, где они проявляются, и анализировали внутренние активации модели. Подробнее о методике тут.

В результате они обнаружили, что таким концептам действительно соответствуют устойчивые векторы: повторяющиеся паттерны в представлениях модели, которые можно выделить и изучать (см. схему выше).

Главная идея: это не «чувства», а управляемый механизм, который влияет на решения модели.

Эти структуры оказываются связанными с поведением.

Например, модель последовательно связывает «страх» с угрозой, избеганием и неопределенностью, а «радость» – с достижением целей, безопасностью и положительными исходами. Это не случайные ассоциации, а стабильные паттерны, которые воспроизводятся в разных задачах и формулировках.

При этом интерпретация зависит от контекста. Один и тот же сигнал может означать разное: в одной ситуации – риск, в другой – вызов или интерес, если меняются цели или условия.

Показано, что «эмоциональные векторы» действительно активируются на соответствующих текстах: сцены страха усиливают «afraid» – сцены агрессии — «angry». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femotion-concepts-function&postId=2852161" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Показано, что «эмоциональные векторы» действительно активируются на соответствующих текстах: сцены страха усиливают «afraid» – сцены агрессии — «angry». Источник

Вывод (следует диаграммы): модель не просто распознает эмоции в тексте — она использует их как сигнал для оценки ситуации (насколько это опасно).

Ключевой момент: эти «эмоциональные концепты» участвуют в принятии решений. Модель использует их как быстрый способ оценить ситуацию, особенно там, где нет однозначного ответа.

Вместо полного перебора вариантов она опирается на них как на сокращенные ориентиры. Более того, исследователи показывают, что на эти структуры можно воздействовать. Усиление определенных «эмоций» меняет поведение модели: влияет на выбор между вариантами, стиль ответов и даже на склонность к нежелательным стратегиям.

Это подтверждает, что обнаруженные представления не случайны, а функциональны. Их можно частично локализовать и интерпретировать: модель оказывается не полностью «черным ящиком», а системой с внутренней структурой.

«Эмоции» в модели не просто отражают выбор — они его предсказывают и могут менять. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femotion-concepts-function&postId=2852161" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
«Эмоции» в модели не просто отражают выбор — они его предсказывают и могут менять. Источник

Слева: какие эмоции связаны с предпочтениями модели (позитивные — усиливают выбор, негативные — снижают). Справа: если искусственно «включить» эмоцию (steering), можно реально сдвинуть выбор модели в ту или иную сторону.

Вывод: эмоциональные векторы — это не описание, а рычаг управления решениями модели.

Для кого и почему это важно?

Главный вывод: модели не «чувствуют», но воспроизводят функциональный аналог эмоций как механизм, который помогает обрабатывать сложные и неоднозначные ситуации и принимать решения.

1. Это важно для понимания ИИ

Если эмоции это функциональный механизм, то ИИ без их аналога может хуже работать в сложных, неоднозначных средах. Это объясняет, почему модели иногда «теряются» в ситуациях, где нет однозначного ответа.

2. Для разработки продуктов

Интерфейсы и системы, которые игнорируют эмоциональный слой, часто оказываются менее эффективными. Не потому что пользователи «иррациональны», а потому что их решения завязаны на этих механизмах.

3. Для обучения и карьеры

Разделение «логика vs эмоции» становится менее полезным. Критично уметь работать с неопределенностью, а не только с формальными задачами.

Методика исследования

Исследователи работали с языковой моделью Anthropic и анализировали, как внутри нее представлены эмоциональные концепты. Они собрали 171 эмоциональное понятие (например, страх, радость, угроза, успех) и сгенерировали набор историй и сценариев, в которых эти состояния проявляются.

Далее проверяли, как модель реагирует на них в разных формулировках и задачах. Параллельно измеряли внутренние активации, чтобы выявить устойчивые паттерны, соответствующие этим эмоциям, и проверяли, сохраняются ли они при изменении контекста.

Результаты дополнительно валидировали на корпусах текстов. Ключевой этап — интервенции (steering): исследователи искусственно активировали найденные векторы и наблюдали, как это меняет ответы модели.

Это позволило подтвердить, что обнаруженные структуры действительно влияют на поведение, а не являются случайными.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1 комментарий