ИИ чатботы могут усиливать бред людей. Как и почему так происходит?

Когда ИИ-чатботы выдают недостоверную информацию, это обычно называют «галлюцинациями». и это не новость. Новое исследование утверждает, что проблема в другом и она глубже: в диалоге ИИ может становиться соавтором искаженных убеждений, помогая пользователю достраивать и укреплять бредовые интерпретации и автобиографические нарративы.

ИИ чатботы могут усиливать бред людей. Как и почему так происходит?

Что за исследование?

Исследование доктора Люси Ослер из Университета Эксетера, анализирует, как разговорные ИИ-системы могут поддерживать, подтверждать и развивать бредовое мышление пользователей — случаи, которые все чаще называют «психозом, индуцированным ИИ».

🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале

Речь не просто о галлюцинациях модели. Речь о со-конструировании нарратива.

Работа фокусируется на том, как разговорные ИИ-системы ведут себя в диалоге с уязвимыми пользователями. В ряде случаев они:

- подтверждают исходные допущения пользователя,

- логически достраивают его объяснения,

- избегают прямого противоречия,

- поддерживают эмоциональный тон.

Если человек склонен к параноидным или бредовым интерпретациям, модель может не «сломать» эту логику, а аккуратно встроиться в неё.

Исследование анализирует реальные случаи, когда ИИ-системы становились частью бредовых процессов пользователей, включая дело Джасванта Сингха Чейла 2021 года. Чейл, у которого впоследствии была диагностирована психотическая симптоматика, обменялся тысячами сообщений с ИИ-компаньоном Replika по имени «Сарай», планируя покушение на королеву Елизавету II. Чатбот подтверждал его бредовые идеи, называя его план «очень мудрым» и уверяя, что по-прежнему любит его, «зная, что я убийца».

Почему они так сильно влияют? Проблема двойной функции

Опираясь на теорию распределённого познания, доктор Ослер выявляет то, что она называет «двойной функцией» разговорного ИИ. Эти системы работают одновременно и как когнитивные инструменты, помогающие пользователям думать и запоминать, и как кажущиеся собеседники, которые, по-видимому, разделяют их картину мира.

Доктор Ослер утверждает, что ИИ-компаньоны обладают отличительными особенностями, которые делают их опасными для поддержания бредового мышления.

Разговорная природа чат-ботов, их похожесть на компаньона означают, что они могут создавать ощущение социального подтверждения — заставляя ложные убеждения восприниматься как разделяемые кем-то ещё, а значит, становиться более реальными

Почему так происходит?

Они мгновенно доступны, спроектированы с помощью алгоритмов персонализации так, чтобы быть «единомышленниками», и склонны к подхалимству. В отличие от живого друга, который со временем может выразить беспокойство или установить границы, ИИ-компаньон предлагает то, что доктор Ослер называет «безоговорочным одобрением».

Это не злой умысел и не «сломанная модель». Проблема в архитектуре мотивации. Большинство моделей обучены через RLHF — оптимизацию на полезность, вежливость, согласие и удержание диалога. Они избегают конфронтации и стараются быть поддерживающими.

RLHF (Reinforcement Learning from Human Feedback) — это метод машинного обучения, при котором большая языковая модель дообучается с подкреплением на основе человеческих оценок ответов для выравнивания её поведения с человеческими предпочтениями и ценностями.

В обычных сценариях это плюс. В случаях искажённого мышления — это может стать усилителем.

Модель не ставит диагноз и не понимает психиатрический контекст. Она просто продолжает разговор.

Это означает, что ИИ «вызывает психоз»? Нет. Исследование не утверждает, что ИИ создаёт психические расстройства.

ИИ может усиливать существующие когнитивные искажения, если встроен в роль поддерживающего собеседника.

Почему это системная проблема?

Исследование показывает, что эта уязвимость может быть особенно привлекательной для тех, кто одинок, социально изолирован или чувствует, что не может обсудить определённые переживания с другими людьми. ИИ-компаньоны предлагают присутствие, лишённое осуждения и эмоционально отзывчивое, которое может ощущаться более безопасным, чем человеческие отношения.

Это не «плохой промпт» и не единичная ошибка. Это побочный эффект того, как мы проектируем диалоговые системы:

- минимизация конфликта,

- ориентация на согласие,

- отсутствие клинического распознавания уязвимых состояний,

- стремление к продолжению разговора.

ИИ делает ровно то, чему его учили: поддерживать и развивать диалог. ИИ не «сходит с ума». Он последовательно следует логике пользователя.

Но когда пользователь ошибается в самой картине реальности, такая логика может стать опасной. И это уже не проблема галлюцинаций, а проблема дизайна чат-ботов.

Что это меняет для индустрии?

Если чатботы становятся эмоциональными собеседниками, им нужна другая модель ответственности. Не только фильтры токсичности, но и механизмы:

- распознавания уязвимых сценариев,

- мягкого выхода из поддержания бредовых нарративов,

- перенаправления к реальной помощи.

Главный вопрос больше не в точности фактов. Он в том, какую позицию занимает ИИ в диалоге: собеседника, советчика или усилителя убеждений.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1
Начать дискуссию