Разработан реалистичный тест для оценки навыков клинического общения ИИ
Инструменты искусственного интеллекта, такие как ChatGPT, хвалят за то, что они могут облегчить нагрузку на врачей, принимая пациентов, собирая истории болезни и даже ставя предварительные диагнозы.
Эти инструменты, известные как LLM, пациенты уже используют, чтобы разобраться в симптомах и результатах медицинских анализов.
Но если в стандартных медицинских тестах эти модели ИИ показывают впечатляющие результаты, то насколько хорошо они справляются с ситуациями, более приближенными к реальному миру?
Согласно результатам нового исследования, проведенного под руководством ученых из Гарвардской медицинской школы и Стэнфордского университета, не так уж и хорошо.
Для своего анализа, опубликованного 2 января в журнале Nature Medicine, исследователи разработали систему оценки — или тест — под названием CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) и применили ее к четырем крупноязычным моделям, чтобы проверить, насколько хорошо они работают в условиях, точно имитирующих реальное взаимодействие с пациентами.
Все четыре крупноязычные модели хорошо справлялись с вопросами в стиле медицинских экзаменов, но их показатели ухудшались, когда они участвовали в беседах, более точно имитирующих реальное взаимодействие.
По словам исследователей, этот недостаток свидетельствует о необходимости решения двух задач: Во-первых, создать более реалистичные оценки, которые позволят лучше оценить пригодность клинических моделей ИИ для использования в реальном мире, и, во-вторых, улучшить способность этих инструментов ставить диагноз на основе более реалистичных взаимодействий до того, как они будут внедрены в клинику.
Инструменты оценки, подобные CRAFT-MD, по словам исследовательской группы, могут не только более точно оценить модели ИИ на предмет их пригодности в реальном мире, но и помочь оптимизировать их работу в клинике.
Наша работа выявила поразительный парадокс: в то время как эти модели искусственного интеллекта отлично справляются с экзаменами на медицинскую комиссию, они с трудом справляются с основными задачами во время визита к врачу, — сказал старший автор исследования Пранав Раджпуркар, доцент кафедры биомедицинской информатики в Гарвардской медицинской школе.
Динамичный характер медицинских бесед — необходимость задавать правильные вопросы в нужное время, собирать воедино разрозненную информацию и рассуждать о симптомах — ставит перед нами уникальные задачи, которые выходят далеко за рамки ответов на вопросы с несколькими вариантами ответов. Когда мы переходим от стандартизированных тестов к этим естественным разговорам, даже самые сложные модели ИИ демонстрируют значительное снижение точности диагностики.
Лучший тест для проверки эффективности ИИ в реальном мире
В настоящее время разработчики проверяют эффективность моделей ИИ, предлагая им ответить на медицинские вопросы с несколькими вариантами ответов, которые обычно берутся из национальных экзаменов для студентов-медиков или из тестов, проводимых для резидентов-медиков в рамках их сертификации.
Такой подход предполагает, что вся необходимая информация представлена четко и ясно, часто с использованием медицинской терминологии, которая упрощают процесс диагностики, но в реальном мире этот процесс гораздо сложнее, — говорит соавтор исследования Шрея Джохри, докторант из лаборатории Раджпуркара в Гарвардской медицинской школе.
Нам нужна система тестирования, которая лучше отражает реальность и, следовательно, лучше предсказывает, насколько хорошо будет работать модель.
CRAFT-MD был разработан как один из таких более реалистичных измерителей.
Для имитации взаимодействия с реальным миром CRAFT-MD оценивает, насколько хорошо крупноязычные модели могут собирать информацию о симптомах, лекарствах и семейной истории, а затем ставить диагноз. Агент искусственного интеллекта выступает в роли пациента, отвечая на вопросы в разговорном, естественном стиле. Другой агент ИИ оценивает точность окончательного диагноза, поставленного крупноязычной моделью. Эксперты-люди оценивают результаты каждой встречи на предмет способности собрать необходимую информацию о пациенте, точности диагностики при наличии разрозненной информации, а также на предмет следования подсказкам.
Исследователи использовали CRAFT-MD для тестирования четырех моделей ИИ — как собственных или коммерческих, так и с открытым исходным кодом — на производительность в 2000 клинических виньеток с заболеваниями, распространенными в первичной медицинской помощи и в 12 медицинских специальностях.
Все модели ИИ продемонстрировали свои недостатки, особенно в способности вести клинические беседы и рассуждать на основе информации, предоставленной пациентами. Это, в свою очередь, негативно сказывалось на их способности вести историю болезни и ставить правильный диагноз. Например, модели часто не могли задать правильные вопросы, чтобы собрать соответствующую историю болезни, пропускали важную информацию во время сбора анамнеза и с трудом синтезировали разрозненную информацию. Точность этих моделей снижалась, когда им предлагалась открытая информация, а не ответы с несколькими вариантами. Кроме того, эти модели хуже справлялись с задачей, когда они участвовали в обмене мнениями «спина к спине» — как в большинстве реальных бесед, — а не в обобщенных беседах.
Рекомендации по оптимизации работы ИИ в реальном мире
Основываясь на этих выводах, команда предлагает ряд рекомендаций как для разработчиков ИИ, создающих модели ИИ, так и для регулирующих органов, которым поручено оценивать и утверждать эти инструменты.
К ним относятся:
- Использование разговорных, открытых вопросов, которые более точно отражают неструктурированное взаимодействие между врачом и пациентом, при разработке, обучении и тестировании инструментов ИИ
- Оценка моделей на предмет их способности задавать правильные вопросы и извлекать наиболее важную информацию
- Разработка моделей, способных следить за несколькими разговорами и интегрировать информацию из них
- Разработка моделей ИИ, способных интегрировать текстовые (заметки из разговоров) и нетекстовые данные (изображения, электрокардиограммы)
- Разработка более сложных агентов ИИ, способных интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.
Кроме того, в оценке должны участвовать как агенты ИИ, так и эксперты-люди, рекомендуют исследователи, поскольку полагаться только на экспертов-людей трудоемко и дорого. Например, CRAFT-MD превзошел человеческих экспертов, обработав 10 000 разговоров за 48-72 часа, плюс 15-16 часов экспертной оценки. В отличие от этого, подходы, основанные на человеческом факторе, потребовали бы обширного набора персонала и примерно 500 часов для симуляции пациентов (почти 3 минуты на разговор) и около 650 часов для экспертной оценки (почти 4 минуты на разговор). Использование ИИ-оценщиков в качестве первой линии имеет дополнительное преимущество, поскольку исключает риск воздействия на реальных пациентов непроверенных инструментов ИИ.
По словам исследователей, они ожидают, что сама система CRAFT-MD будет периодически обновляться и оптимизироваться для интеграции улучшенных моделей ИИ-пациентов.
Как ученый-врач, я заинтересована в моделях ИИ, которые могут эффективно и этично дополнить клиническую практику, — сказала соавтор исследования Роксана Данешжу, доцент кафедры биомедицинских данных и дерматологии Стэнфордского университета.
CRAFT-MD создает структуру, которая более точно отражает реальные взаимодействия, и таким образом помогает продвинуться вперед в области тестирования эффективности моделей ИИ в здравоохранении.
Ранее мы опубликовали главные медицинские прорывы 2024 года.