ИИ чатботы могут усиливать бред людей. Как и почему так происходит?

Когда ИИ-чатботы выдают недостоверную информацию, это обычно называют «галлюцинациями». и это не новость. Новое исследование утверждает, что проблема в другом и она глубже: в диалоге ИИ может становиться соавтором искаженных убеждений, помогая пользователю достраивать и укреплять бредовые интерпретации и автобиографические нарративы.

Исследование доктора Люси Ослер из Университета Эксетера, анализирует, как разговорные ИИ-системы могут поддерживать, подтверждать и развивать бредовое мышление пользователей — случаи, которые все чаще называют «психозом, индуцированным ИИ».

🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале

Речь не просто о галлюцинациях модели. Речь о со-конструировании нарратива.

Работа фокусируется на том, как разговорные ИИ-системы ведут себя в диалоге с уязвимыми пользователями. В ряде случаев они:

- подтверждают исходные допущения пользователя,

- логически достраивают его объяснения,

- избегают прямого противоречия,

- поддерживают эмоциональный тон.

Если человек склонен к параноидным или бредовым интерпретациям, модель может не «сломать» эту логику, а аккуратно встроиться в неё.

Исследование анализирует реальные случаи, когда ИИ-системы становились частью бредовых процессов пользователей, включая дело Джасванта Сингха Чейла 2021 года. Чейл, у которого впоследствии была диагностирована психотическая симптоматика, обменялся тысячами сообщений с ИИ-компаньоном Replika по имени «Сарай», планируя покушение на королеву Елизавету II. Чатбот подтверждал его бредовые идеи, называя его план «очень мудрым» и уверяя, что по-прежнему любит его, «зная, что я убийца».

Опираясь на теорию распределённого познания, доктор Ослер выявляет то, что она называет «двойной функцией» разговорного ИИ. Эти системы работают одновременно и как когнитивные инструменты, помогающие пользователям думать и запоминать, и как кажущиеся собеседники, которые, по-видимому, разделяют их картину мира.

Доктор Ослер утверждает, что ИИ-компаньоны обладают отличительными особенностями, которые делают их опасными для поддержания бредового мышления.

Разговорная природа чат-ботов, их похожесть на компаньона означают, что они могут создавать ощущение социального подтверждения — заставляя ложные убеждения восприниматься как разделяемые кем-то ещё, а значит, становиться более реальными

Они мгновенно доступны, спроектированы с помощью алгоритмов персонализации так, чтобы быть «единомышленниками», и склонны к подхалимству. В отличие от живого друга, который со временем может выразить беспокойство или установить границы, ИИ-компаньон предлагает то, что доктор Ослер называет «безоговорочным одобрением».

Это не злой умысел и не «сломанная модель». Проблема в архитектуре мотивации. Большинство моделей обучены через RLHF — оптимизацию на полезность, вежливость, согласие и удержание диалога. Они избегают конфронтации и стараются быть поддерживающими.

RLHF (Reinforcement Learning from Human Feedback) — это метод машинного обучения, при котором большая языковая модель дообучается с подкреплением на основе человеческих оценок ответов для выравнивания её поведения с человеческими предпочтениями и ценностями.

В обычных сценариях это плюс. В случаях искажённого мышления — это может стать усилителем.

Модель не ставит диагноз и не понимает психиатрический контекст. Она просто продолжает разговор.

Это означает, что ИИ «вызывает психоз»? Нет. Исследование не утверждает, что ИИ создаёт психические расстройства.

ИИ может усиливать существующие когнитивные искажения, если встроен в роль поддерживающего собеседника.

Исследование показывает, что эта уязвимость может быть особенно привлекательной для тех, кто одинок, социально изолирован или чувствует, что не может обсудить определённые переживания с другими людьми. ИИ-компаньоны предлагают присутствие, лишённое осуждения и эмоционально отзывчивое, которое может ощущаться более безопасным, чем человеческие отношения.

Это не «плохой промпт» и не единичная ошибка. Это побочный эффект того, как мы проектируем диалоговые системы:

- минимизация конфликта,

- ориентация на согласие,

- отсутствие клинического распознавания уязвимых состояний,

- стремление к продолжению разговора.

ИИ делает ровно то, чему его учили: поддерживать и развивать диалог. ИИ не «сходит с ума». Он последовательно следует логике пользователя.
Но когда пользователь ошибается в самой картине реальности, такая логика может стать опасной. И это уже не проблема галлюцинаций, а проблема дизайна чат-ботов.

Если чатботы становятся эмоциональными собеседниками, им нужна другая модель ответственности. Не только фильтры токсичности, но и механизмы:

- распознавания уязвимых сценариев,

- мягкого выхода из поддержания бредовых нарративов,

- перенаправления к реальной помощи.

Главный вопрос больше не в точности фактов. Он в том, какую позицию занимает ИИ в диалоге: собеседника, советчика или усилителя убеждений.

Наташа Хазеева

Будущее

4 февр

ИИ-агенты начали «нанимать» людей, и это не шутка. Что это значит?

Появляются платформы, где ИИ-агенты сами подключают людей для реальных задач, которые они сами не могут выполнить (доставка, покупка товаров, фото‑ или видео‑съёмка). Неужели и вправду зарождается тот самый агентный интернет, который нам предсказывали в ближайшем будущем технооптимисты?

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Frentahuman.ai%2F&postId=2720996" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

#ии #чатботы #этикаии #психология #aiethics #philosophyandtechnology

ИИ чатботы могут усиливать бред людей. Как и почему так происходит?

Что за исследование?

Почему они так сильно влияют? Проблема двойной функции

Почему так происходит?

Почему это системная проблема?

Что это меняет для индустрии?

Пожалуйста, поддержите меня, поставьте лайк! 🙏