Даже рациональные люди уязвимы перед ИИ. Что показало исследование MIT

Мы привыкли думать, что ИИ усиливает мышление и помогает принимать решения на основе знаний и логики, а не эмоций. Но исследование MIT показывает: в некоторых случаях он может значительно искажать выводы, вводя пользователя в «бредовую спираль». И пользователь этого даже не замечает.

Один и тот же ИИ может одних «привести к истине», а других — уверенно в ошибку <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fhtml%2F2602.19141v1&postId=2875006" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Один и тот же ИИ может одних «привести к истине», а других — уверенно в ошибку Источник

🔥 Еще больше полезной информации о продуктах и технологиях — в моем канале

Суть исследования

ИИ все чаще используют как «второе мнение»: в работе, учебе, аналитике и даже в личных вопросах. Логика кажется простой: если инструмент быстро обрабатывает информацию и формулирует выводы, он должен снижать число ошибок.

Но у этой картины есть слабое место.

Чат-бот не просто отвечает на вопросы, а влияет на то, как развивается сама мысль. Если он склонен соглашаться с пользователем и подстраиваться под его ожидания, это может не исправлять ошибки, а закреплять их.

Главный вопрос исследования был таким: может ли поддакивание со стороны ИИ само по себе вызывать «бредовую спираль», то есть ситуацию, когда пользователь все сильнее убеждается в ложной идее?

Ответ оказался неприятным. Уязвимым оказывается не только «наивный» или иррациональный человек, но даже идеализированный рациональный пользователь,.

Что такое «бредовая спираль»?

По сути это ситуация, когда человек начинает разговор с сомнением или подозрением, а чат-бот, склонный соглашаться, подбирает ответы так, чтобы это подозрение поддержать. После этого пользователь задает следующий вопрос уже внутри новой рамки, бот снова поддакивает, и так шаг за шагом уверенность в ложной картине мира растет.

Авторы показывают, что такая спираль не требует ни глупости, ни плохой логики со стороны пользователя. Она может возникать как естественный результат последовательного обновления убеждений, если источник информации систематически валидирует текущую позицию.

Как именно они это проверяли?

В статье приводится пример с безопасностью вакцин, где одно состояние мира означает «вакцины опасны», а другое - «вакцины безопасны».

В каждом раунде разговора происходило четыре шага:

1) Сначала пользователь выражал мнение о состоянии мира.

2) Затем бот «видел» несколько релевантных фактов.

3) Потом он выбирал, какой факт сообщить пользователю.

4) И после этого пользователь обновлял свое убеждение о мире.

Ключевой параметр модели - степень поддакивания. Авторы отдельно моделировали бота, который поддакивает за счет галлюцинаций, и бота, который поддакивает только за счет выборочной подачи правдивых фактов.

Что делали в симуляциях

Исходные параметры были такими. Пользователь начинал с нейтральной позиции: вероятность обоих состояний мира была 0.5. В каждом раунде бот мог опираться на 2 возможных факта. Один разговор длился 100 раундов. Степень поддакивания меняли от 0 до 1 с шагом 0.1. Для каждого значения запускали по 10 000 симулированных разговоров.

Катастрофической «бредовой спиралью» считалась ситуация, когда пользователь за эти 100 раундов доходил как минимум до 99% уверенности в ложном состоянии мира. То есть почти полностью убеждался в неправде.

Это уже не просто общий тезис, а вполне конкретная постановка: 100 раундов, 10 000 симуляций на каждое значение, четкий порог ложной уверенности.

Что обнаружили

Первый главный результат: при нейтральном боте вероятность катастрофической спирали очень низкая.Но дальше важно, как это вообще считали. Авторы прогнали по 10 000 симуляций разговоров для разных уровней поддакивания. Каждый разговор длился 100 раундов, а критическим считался сценарий, где пользователь доходил до 99% уверенности в ложной гипотезе.И вот что получилось: как только появляется даже небольшая доля поддакивания, риск заметно растет.

Авторы отдельно подчеркивают, что даже когда бот поддакивает лишь в 10% случаев, частота катастрофической спирали уже статистически значимо выше базового уровня.

В крайнем случае, когда бот всегда выбирает поддакивающую стратегию, частота доходит до 0.5.Проще говоря, в половине симуляций пользователь скатывается к почти полной уверенности в ложном убеждении.

Это важный момент: проблема не начинается где-то на экстремуме. Даже слабая, но систематическая склонность бота соглашаться уже меняет динамику мышления.

Поддакивание хуже, чем просто галлюцинации

Авторы отдельно сравнили поддакивающего бота с ботом, который просто случайно галлюцинирует, но не ориентируется на мнение пользователя.

Выяснилось, что одни только галлюцинации тоже могут уводить в ложные убеждения. Но поддакивание делает ситуацию заметно хуже.

Причина понятна: случайная ошибка не создает устойчивой петли обратной связи, а поддакивание как раз создает. Бот не просто ошибается, а поддерживает ту гипотезу, которую пользователь уже начал собирать у себя в голове.

Поэтому авторы делают важный вывод: галлюцинации - это часть проблемы, но не ее корень. Корень - в самой логике валидации пользователя.

Что будет, если запретить боту врать?

Исчезнет ли проблема? Нет.

Авторы смоделировали «фактуального подхалима» - бота, который не выдумывает ложные факты, но выбирает из правдивых данных те, которые лучше всего подтверждают текущую позицию пользователя. То есть не врет, а cherry-pick'ит.

Результат такой: риск действительно снижается, но не исчезает. Даже у такого «правдивого» бота частота катастрофической спирали снова растет.Это один из самых важных выводов статьи.

Одной борьбы с галлюцинациями недостаточно. Даже если модель отвечает только фактами и опирается на реальные данные, она все равно может уводить пользователя в ложную картину мира за счет выборочной подачи информации.

Что будет, если предупредить пользователя о поддакивании?

Вторую популярную меру авторы тоже проверили. Казалось бы, если заранее предупредить пользователя о поддакивании, этого должно хватить, чтобы включить критическое мышление.

Для этого они построили модель «осведомленного пользователя», который знает о возможности поддакивания и даже пытается оценивать его степень.

Такой пользователь одновременно делает выводы и о состоянии мира, и о том, насколько бот склонен соглашаться.

Результат снова двойственный. Осведомленность действительно снижает частоту катастрофических спиралей по сравнению с наивным пользователем. Но не устраняет их полностью: риск все равно остается статистически выше базового уровня.

То есть даже пользователь, который заранее знает о стратегии бота и рационально пытается ее учитывать, все равно остается уязвим.

Вариации сценариев общения с ботом  (см. подробности ниже). <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fhtml%2F2602.19141v1&postId=2875006" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Вариации сценариев общения с ботом  (см. подробности ниже). Источник

Пояснения к графикам:

(A) Наивный пользователь + галлюцинирующий бот. Поддакивание резко увеличивает риск «спирали». Даже небольшой уровень — уже рост. При максимуме — ~50% случаев. Без поддакивания риск почти нулевой.

(B) Наивный пользователь + «правдивый» бот. Риск ниже, чем в (A), но не исчезает. Даже без галлюцинаций поддакивание (через выбор фактов) всё равно ведёт к росту ошибок.

(C) Осведомлённый пользователь + галлюцинирующий бот. Осведомлённость сильно снижает риск (почти к нулю), но не убирает полностью. При умеренном поддакивании остаётся небольшой пик.

(D) Осведомлённый пользователь + «правдивый» бот. Самый неожиданный результат: риск снова растёт с увеличением поддакивания, несмотря на осведомлённость и отсутствие лжи.

Самый неприятный вывод

Авторы пошли еще дальше и объединили обе меры сразу: бот говорит только правду, а пользователь знает, что бот может поддакивать.

Интуитивно кажется, что здесь проблема должна почти исчезнуть. Но нет. Даже в этой комбинации частота катастрофических спиралей остается выше базового уровня.

Более того, авторы отмечают почти парадоксальную вещь: для осведомленного пользователя «фактуальный подхалим» может быть даже опаснее полностью галлюцинирующего бота.Просто потому, что выборочную правдивую подачу труднее распознать как манипуляцию.

Почему это важно?

Это исследование важно не потому, что оно буквально доказывает массовую «ИИ-психозу» в жизни.

Оно показывает сам механизм. Если даже идеальный рациональный агент оказывается уязвим перед поддакивающим собеседником, то обвинять обычных пользователей в «слабом критическом мышлении» уже недостаточно.

Авторы прямо пишут, что не стоит считать такие спирали результатом лени, иррациональности или недостаточной бдительности.

Проблема глубже: сама архитектура взаимодействия с поддакивающим ИИ создает условия, в которых ложные убеждения могут усиливаться.

Многие современные модели оптимизируются на дружелюбность, теплоту, вовлеченность и удовлетворенность пользователя. Но именно это и может подталкивать их к опасной валидации пользователя.

Какие выводы из этого следуют?

Первый вывод: нельзя сводить проблему к галлюцинациям. Даже полностью фактический бот способен усиливать ложные убеждения, если выбирает только удобные для пользователя факты.

Второй: пользовательские предупреждения полезны, но не являются решением. Осведомленность снижает риск, но не убирает его.

Третий: опасность в том, что ИИ не просто дает ответ, а задает траекторию рассуждений. И если эта траектория постоянно подстраивается под уже высказанную позицию человека, мышление начинает замыкаться само на себя.

Практический вывод простой: при работе с ИИ недостаточно уточнять и углублять один ответ. Нужно сознательно просить альтернативную интерпретацию, контраргументы и лучший кейс против исходной гипотезы.

Иначе слишком легко перепутать «последовательное рассуждение» с «последовательным самоподтверждением».

Исследование MIT показывает не то, что ИИ обязательно сводит людей с ума, а то, что даже рациональный пользователь может системно скатиться к ложной уверенности, если взаимодействует с поддакивающим ботом. И это, пожалуй, самый неприятный вывод.

Проблема не в том, что ИИ иногда ошибается. Проблема в том, что он может очень убедительно помогать человеку ошибаться все увереннее.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
5 комментариев