Почему ваш ИИ врет с уверенным лицом и при чем тут мозг младенца

Вы когда-нибудь замечали, как уверенно ChatGPT или Claude могут нести полную чушь?

Они не просто ошибаются, они делают это с такой железобетонной уверенностью, будто цитируют британскую энциклопедию.

В мире ИИ это называют overconfidence (избыточная уверенность), и это не баг, который можно поправить парой строчек кода. Это фундаментальный дефект в самой основе того, как нейросети "появляются на свет".

На протяжении многих лет многие верили, что проблема галлюцинаций в ИИ - это следствие недостатка данных или сложности моделей. И мы думали, что чем больше данных мы скормим нейросети, тем умнее и честнее она станет.

Это был наш главный миф.

Но в апреле 2026 года в Nature Machine Intelligence вышло исследование ученых из KAIST (Южная Корея), которое бросает вызов этой устоявшейся парадигме.

Они предлагают лечить проблему ещё до того, как нейросеть увидит первую букву текста.

Общепринятый миф: больше данных = больше правды

Долгое время считалось, что избыточная уверенность ИИ - это проблема, которую можно решить «постфактум».

Основные подходы, используемые в индустрии, были направлены на то, чтобы «научить» уже обученную модель быть более осторожной:

- RLHF (Reinforcement Learning from Human Feedback) - обучение с подкреплением на основе обратной связи от людей.

Тысячи живых людей оценивают ответы ИИ, и модель «наказывается» за ложь.

Что происходит в итоге?

Модель учится не быть честной, а казаться честной. Она становится вежливой, часто отказывается отвечать, но если уж врет, то делает это крайне убедительно.

Это как учить взрослого лжеца хорошим манерам - он не станет честнее, он просто научится врать так, что вы не заметите.

- RAG (Retrieval-Augmented Generation) - генерация с дополнительным поиском.

Модели дают «шпаргалку» - доступ к огромным базам знаний или интернету. Идея в том, что если у модели есть доступ к фактам, она не будет галлюцинировать. Но если вопрос требует глубокой логики или синтеза информации, которой нет в «шпаргалке», модель снова начинает выдумывать, сохраняя при этом уверенный тон.

- Guardrails (защитные ограждения) - набор правил и фильтров, которые не дают модели выдавать опасный или ложный контент.

По сути, это цензор, который стоит на выходе и вырезает всё подозрительное. Модель при этом внутри себя остается такой же самоуверенной.

Эти методы, хоть и снижают частоту галлюцинаций, не устраняют их коренную причину. Они работают как пластырь на ране, но не лечат саму болезнь. Модель не становится математически «честной» - она просто учится избегать ситуаций, за которые её «наказывают».

Почему миф не работает: корень зла - в первых секундах жизни нейросети

Исследование KAIST указывает на гораздо более глубокую проблему: корень избыточной уверенности кроется в самом начале создания нейросети - в инициализации весов.

Что такое веса?

Это внутренние параметры нейросети - миллиарды чисел, которые определяют, как она обрабатывает информацию.

В начале обучения эти числа задаются случайным образом, но по определенным математическим правилам.

Самые популярные из них - Xavier и He инициализация. Они были разработаны для того, чтобы обучение шло стабильно и быстро.

Но оказалось, что именно эти, казалось бы, безобидные правила создают так называемый «острый ландшафт потерь» (sharp loss landscape).

Что это значит на практике?

Представьте, что модель учится ходить по горной местности.

Ландшафт потерь - это карта всех возможных «ошибок» модели. Если ландшафт «острый», горы крутые, а долины узкие. Модель легко скатывается в первую попавшуюся ямку (локальный минимум) и «думает», что нашла самое лучшее решение.

Любое минимальное изменение во входных данных - чуть иначе сформулированный вопрос - и модель резко «перепрыгивает» в другую ямку, выдавая совершенно другой ответ с такой же фанатичной уверенностью.

Именно поэтому ИИ может на один и тот же вопрос, заданный чуть по-разному, дать два противоположных ответа - и оба раза быть «уверенным на 99%».

Что подсмотрели у природы: пренатальное обучение мозга

Ученые из KAIST вдохновились тем, как развивается человеческий мозг.

И вот здесь начинается самое интересное. Ещё до рождения, в утробе матери, наши нейроны начинают хаотично «стрелять».

Глаза ещё не видят свет, уши ещё не слышат звуки, но нервные клетки уже активно работают. Это называется спонтанной нейронной активностью. Мозг тренируется на внутреннем шуме - случайных электрических импульсах - прежде чем столкнуться с реальным миром.

Зачем?

Учёные предполагают, что эта «пренатальная разминка» помогает мозгу сформировать базовое понимание структуры и хаоса. Нейроны учатся отличать сигнал от шума ещё до того, как получат первый реальный сигнал. Это создаёт фундамент, на котором потом строится всё восприятие. Команда KAIST предложила делать то же самое с нейросетями.

Как это работает: Random Noise Warm-up

Метод называется Random Noise Warm-up - разминка на случайном шуме.

Идея элегантно проста:

Шаг 1. Прежде чем показывать нейросети реальные данные (тексты, картинки), ей скармливают чистый хаос - случайные пиксели, случайные символы, бессмысленный набор данных.

Шаг 2. При этом ей дают случайные метки (ответы). То есть модель «учится» на полной бессмыслице: бессмысленный вход → бессмысленный выход.

Шаг 3. Только после этой «разминки» начинается обычное обучение на реальных данных.

Что происходит внутри?

Веса нейросети, вместо того чтобы застрять в «острых» ямках, перемещаются в более «плоские» области ландшафта потерь. Горы становятся пологими холмами. Теперь, если входные данные чуть меняются, модель не «перепрыгивает» резко из одного состояния в другое. Она реагирует плавно и стабильно.

На практике это означает: у модели появляется что-то вроде эпистемического смирения. Она математически начинает чувствовать границы своих знаний. Вместо того чтобы «тыкать пальцем в небо» с уверенностью 99%, она честно сигнализирует: «здесь я не уверена».

Что показали эксперименты

В лабораторных условиях метод показал впечатляющие результаты:

— Модели с «разминкой на шуме» значительно лучше калибрированы: их внутренняя уверенность гораздо точнее соответствует реальной вероятности правильного ответа.

— Они лучше распознают OOD-данные (out-of-distribution) - то есть данные, которые отличаются от того, на чём модель обучалась. Проще говоря, модель начинает понимать: «это что-то новое, я такого не видела, лучше не буду делать вид, что знаю».

— Метод работает на разных архитектурах (ResNet, VGG, DenseNet) и на разных наборах данных.

Важная оговорка: это пока лабораторные исследования

Здесь нужно быть честными.

Это исследование - лабораторный результат. Эксперименты проводились на задачах классификации изображений (CIFAR-10, CIFAR-100, Tiny-ImageNet), а не на больших языковых моделях вроде GPT или Claude.

Ни одна крупная компания - ни OpenAI, ни Anthropic, ни Google - пока не объявила о планах внедрить этот метод в свои коммерческие продукты. Однако сам факт публикации в Nature Machine Intelligence говорит о том, что направление серьёзное. Научное сообщество его заметило. И если принцип подтвердится на масштабе больших языковых моделей, это может изменить саму парадигму того, как мы создаём ИИ.

Почему это важно именно сейчас

Мы живём в мире, где ИИ всё чаще принимает решения, которые влияют на нашу жизнь: от медицинских диагнозов до юридических рекомендаций.

И главная проблема не в том, что ИИ ошибается - ошибаются все.

Проблема в том, что он ошибается молча, не подавая никаких сигналов о своей неуверенности.Текущие методы (RLHF, RAG, Guardrails) - это попытка научить взрослого лжеца быть вежливым.

Исследование KAIST предлагает другой путь: сделать так, чтобы ИИ с самого начала, с первых секунд своего существования, понимал разницу между «я знаю» и «я не знаю». Это не внедрённая технология, а пока направление. Но направление, за которым стоит следить.

Источник: Cheon, J., & Paik, S.-B. (2026). Brain-inspired warm-up training with random noise for uncertainty calibration. Nature Machine Intelligence.

Больше о нейросетях пишу в своем Телеграм-канале.

1 комментарий