Какие риски и перспективы создают нейросети в медицине? Вместо "НУЛЕВОГО ПАЦИЕНТА" теперь "НУЛЕВОЙ ВЫСТРЕЛ"

Индустрия здравоохранения бурлит обещаниями «момента МЕДGPT». Генеративные модели, обученные на миллионах электронных медицинских карт (EHR), рассматриваются как «предикторы нулевого выстрела», то есть инструменты, способные прогнозировать смертность пациентов или прогрессирование заболеваний без какой-либо специальной подготовки.

Однако эта формулировка замалчивает тонкое, но важное различие. Хотя эти модели эффективны, на самом деле они не предназначены для «прогнозирования» клинических результатов в традиционном смысле. Это симуляторы.

В отличие от проверенного инструмента прогнозирования, генеративная модель EHR работает путем изучения закономерностей на основе исторических данных для создания правдоподобных временных рамок для пациентов - последовательностей диагнозов, процедур, кодов лекарств, лабораторных показателей и их сроков.

Когда модель просят оценить риск 30-дневной повторной госпитализации, она не «знает» ответа; например, она генерирует 100 гипотетических будущих сроков для этого пациента и подсчитывает, как часто появляется код повторной госпитализации.

Если 60 из 100 смоделированных временных рамок показывают повторную госпитализацию, модель сообщает о 60% риске. Однако эти частоты получены на основе смоделированных закономерностей, а не реальных вероятностей.

Рассмотрение моделирования как «оракульного» прогноза может привести к принятию небезопасных клинических решений, таких как чрезмерное лечение пациентов с низким риском или пропуск пациентов с высоким риском.

Переход от ранних моделей GPT к ChatGPT потребовал значительного увеличения масштаба, увеличения объема данных на порядки и применения специализированных методов выравнивания, таких как обратная связь с человеком, для обеспечения безопасности и надежности.

Современные генеративные модели EHR примерно находятся там, где языковые модели находились между GPT-2 и GPT-3.

Они многообещающие, но им не хватает усовершенствований безопасности и строгой калибровки, необходимых для клинического использования. Они также сталкиваются с уникальными медицинскими проблемами, такими как представление точного времени и навигация по сложным системам больничного кодирования.

Чтобы обеспечить ответственное использование этих моделей, мы предлагаем пять критериев оценки:

1. Производительность по частоте: отчет о том, насколько хорошо модели работают при редких и распространенных медицинских событиях.

2. Калибровка: обеспечение 30% прогнозируемого риска фактически соответствует 30% пациентов, у которых наблюдается такой исход.

3. Завершение графика: отчет о том, как часто модель не может сгенерировать полную временную шкалу пациента.

4. Аудит ярлыков: проверка того, полагаются ли модели на административные «ярлыки» (например, коды выписок), а не на медицинские состояния для составления прогнозов.

5. Проверка вне распределения: тестирование моделей на принципиально разных группах пациентов без переподготовки.

Перейдя от прогнозирования к моделированию, мы сможем лучше понять сильные и слабые стороны этих инструментов. Это заложит основу для разработки стратегий оценки, надзора и внедрения, которые позволят генеративному ИИ действительно улучшить клиническую помощь.

(Перевод статьи Стэнфордского университета: Why "Zero-Shot" clinical predictions are risky)

Прошлые материалы по теме:

1) Почему происходит раскол мнений по поводу будущего миропорядка с ИИ. Будет ли частичная автоматизация? Стоит ли полностью заменять человека? (Часть I)

2) Путь к беспрецедентному богатству (part 2)

3) Прошлые результаты не гарантируют будущих. Как работать с ИИ, чтобы не попасть в ловушку Тьюринга? (part 3)

4) Децентрализация "полезных знаний". Как скоро ИИ победят человека? (part 4)

5) Технологии ИИ для технологий

Какие риски и перспективы создают нейросети в медицине? Вместо "НУЛЕВОГО ПАЦИЕНТА" теперь "НУЛЕВОЙ ВЫСТРЕЛ"

Моделирование против прогнозирования

Почему мы не достигли «момента MЕДGPT»

Новая парадигма оценки