ИИ чатботы могут усиливать бред людей. Как и почему так происходит?
Когда ИИ-чатботы выдают недостоверную информацию, это обычно называют «галлюцинациями». и это не новость. Новое исследование утверждает, что проблема в другом и она глубже: в диалоге ИИ может становиться соавтором искаженных убеждений, помогая пользователю достраивать и укреплять бредовые интерпретации и автобиографические нарративы.
Что за исследование?
Исследование доктора Люси Ослер из Университета Эксетера, анализирует, как разговорные ИИ-системы могут поддерживать, подтверждать и развивать бредовое мышление пользователей — случаи, которые все чаще называют «психозом, индуцированным ИИ».
🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале
Речь не просто о галлюцинациях модели. Речь о со-конструировании нарратива.
Работа фокусируется на том, как разговорные ИИ-системы ведут себя в диалоге с уязвимыми пользователями. В ряде случаев они:
- подтверждают исходные допущения пользователя,
- логически достраивают его объяснения,
- избегают прямого противоречия,
- поддерживают эмоциональный тон.
Если человек склонен к параноидным или бредовым интерпретациям, модель может не «сломать» эту логику, а аккуратно встроиться в неё.
Исследование анализирует реальные случаи, когда ИИ-системы становились частью бредовых процессов пользователей, включая дело Джасванта Сингха Чейла 2021 года. Чейл, у которого впоследствии была диагностирована психотическая симптоматика, обменялся тысячами сообщений с ИИ-компаньоном Replika по имени «Сарай», планируя покушение на королеву Елизавету II. Чатбот подтверждал его бредовые идеи, называя его план «очень мудрым» и уверяя, что по-прежнему любит его, «зная, что я убийца».
Почему они так сильно влияют? Проблема двойной функции
Опираясь на теорию распределённого познания, доктор Ослер выявляет то, что она называет «двойной функцией» разговорного ИИ. Эти системы работают одновременно и как когнитивные инструменты, помогающие пользователям думать и запоминать, и как кажущиеся собеседники, которые, по-видимому, разделяют их картину мира.
Доктор Ослер утверждает, что ИИ-компаньоны обладают отличительными особенностями, которые делают их опасными для поддержания бредового мышления.
Разговорная природа чат-ботов, их похожесть на компаньона означают, что они могут создавать ощущение социального подтверждения — заставляя ложные убеждения восприниматься как разделяемые кем-то ещё, а значит, становиться более реальными
Почему так происходит?
Они мгновенно доступны, спроектированы с помощью алгоритмов персонализации так, чтобы быть «единомышленниками», и склонны к подхалимству. В отличие от живого друга, который со временем может выразить беспокойство или установить границы, ИИ-компаньон предлагает то, что доктор Ослер называет «безоговорочным одобрением».
Это не злой умысел и не «сломанная модель». Проблема в архитектуре мотивации. Большинство моделей обучены через RLHF — оптимизацию на полезность, вежливость, согласие и удержание диалога. Они избегают конфронтации и стараются быть поддерживающими.
RLHF (Reinforcement Learning from Human Feedback) — это метод машинного обучения, при котором большая языковая модель дообучается с подкреплением на основе человеческих оценок ответов для выравнивания её поведения с человеческими предпочтениями и ценностями.
В обычных сценариях это плюс. В случаях искажённого мышления — это может стать усилителем.
Модель не ставит диагноз и не понимает психиатрический контекст. Она просто продолжает разговор.
Это означает, что ИИ «вызывает психоз»? Нет. Исследование не утверждает, что ИИ создаёт психические расстройства.
ИИ может усиливать существующие когнитивные искажения, если встроен в роль поддерживающего собеседника.
Почему это системная проблема?
Исследование показывает, что эта уязвимость может быть особенно привлекательной для тех, кто одинок, социально изолирован или чувствует, что не может обсудить определённые переживания с другими людьми. ИИ-компаньоны предлагают присутствие, лишённое осуждения и эмоционально отзывчивое, которое может ощущаться более безопасным, чем человеческие отношения.
Это не «плохой промпт» и не единичная ошибка. Это побочный эффект того, как мы проектируем диалоговые системы:
- минимизация конфликта,
- ориентация на согласие,
- отсутствие клинического распознавания уязвимых состояний,
- стремление к продолжению разговора.
ИИ делает ровно то, чему его учили: поддерживать и развивать диалог. ИИ не «сходит с ума». Он последовательно следует логике пользователя.
Но когда пользователь ошибается в самой картине реальности, такая логика может стать опасной. И это уже не проблема галлюцинаций, а проблема дизайна чат-ботов.
Что это меняет для индустрии?
Если чатботы становятся эмоциональными собеседниками, им нужна другая модель ответственности. Не только фильтры токсичности, но и механизмы:
- распознавания уязвимых сценариев,
- мягкого выхода из поддержания бредовых нарративов,
- перенаправления к реальной помощи.
Главный вопрос больше не в точности фактов. Он в том, какую позицию занимает ИИ в диалоге: собеседника, советчика или усилителя убеждений.