Какие риски и перспективы создают нейросети в медицине? Вместо "НУЛЕВОГО ПАЦИЕНТА" теперь "НУЛЕВОЙ ВЫСТРЕЛ"
Индустрия здравоохранения бурлит обещаниями «момента МЕДGPT». Генеративные модели, обученные на миллионах электронных медицинских карт (EHR), рассматриваются как «предикторы нулевого выстрела», то есть инструменты, способные прогнозировать смертность пациентов или прогрессирование заболеваний без какой-либо специальной подготовки.
Однако эта формулировка замалчивает тонкое, но важное различие. Хотя эти модели эффективны, на самом деле они не предназначены для «прогнозирования» клинических результатов в традиционном смысле. Это симуляторы.
Моделирование против прогнозирования
В отличие от проверенного инструмента прогнозирования, генеративная модель EHR работает путем изучения закономерностей на основе исторических данных для создания правдоподобных временных рамок для пациентов - последовательностей диагнозов, процедур, кодов лекарств, лабораторных показателей и их сроков.
Когда модель просят оценить риск 30-дневной повторной госпитализации, она не «знает» ответа; например, она генерирует 100 гипотетических будущих сроков для этого пациента и подсчитывает, как часто появляется код повторной госпитализации.
Если 60 из 100 смоделированных временных рамок показывают повторную госпитализацию, модель сообщает о 60% риске. Однако эти частоты получены на основе смоделированных закономерностей, а не реальных вероятностей.
Рассмотрение моделирования как «оракульного» прогноза может привести к принятию небезопасных клинических решений, таких как чрезмерное лечение пациентов с низким риском или пропуск пациентов с высоким риском.
Почему мы не достигли «момента MЕДGPT»
Переход от ранних моделей GPT к ChatGPT потребовал значительного увеличения масштаба, увеличения объема данных на порядки и применения специализированных методов выравнивания, таких как обратная связь с человеком, для обеспечения безопасности и надежности.
Современные генеративные модели EHR примерно находятся там, где языковые модели находились между GPT-2 и GPT-3.
Они многообещающие, но им не хватает усовершенствований безопасности и строгой калибровки, необходимых для клинического использования. Они также сталкиваются с уникальными медицинскими проблемами, такими как представление точного времени и навигация по сложным системам больничного кодирования.
Новая парадигма оценки
Чтобы обеспечить ответственное использование этих моделей, мы предлагаем пять критериев оценки:
1. Производительность по частоте: отчет о том, насколько хорошо модели работают при редких и распространенных медицинских событиях.
2. Калибровка: обеспечение 30% прогнозируемого риска фактически соответствует 30% пациентов, у которых наблюдается такой исход.
3. Завершение графика: отчет о том, как часто модель не может сгенерировать полную временную шкалу пациента.
4. Аудит ярлыков: проверка того, полагаются ли модели на административные «ярлыки» (например, коды выписок), а не на медицинские состояния для составления прогнозов.
5. Проверка вне распределения: тестирование моделей на принципиально разных группах пациентов без переподготовки.
Перейдя от прогнозирования к моделированию, мы сможем лучше понять сильные и слабые стороны этих инструментов. Это заложит основу для разработки стратегий оценки, надзора и внедрения, которые позволят генеративному ИИ действительно улучшить клиническую помощь.
(Перевод статьи Стэнфордского университета: Why "Zero-Shot" clinical predictions are risky)
Прошлые материалы по теме: