Разработан реалистичный тест для оценки навыков клинического общения ИИ

Инструменты искусственного интеллекта, такие как ChatGPT, хвалят за то, что они могут облегчить нагрузку на врачей, принимая пациентов, собирая истории болезни и даже ставя предварительные диагнозы.

Эти инструменты, известные как LLM, пациенты уже используют, чтобы разобраться в симптомах и результатах медицинских анализов.

Но если в стандартных медицинских тестах эти модели ИИ показывают впечатляющие результаты, то насколько хорошо они справляются с ситуациями, более приближенными к реальному миру?

Согласно результатам нового исследования, проведенного под руководством ученых из Гарвардской медицинской школы и Стэнфордского университета, не так уж и хорошо.

Для своего анализа, опубликованного 2 января в журнале Nature Medicine, исследователи разработали систему оценки — или тест — под названием CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) и применили ее к четырем крупноязычным моделям, чтобы проверить, насколько хорошо они работают в условиях, точно имитирующих реальное взаимодействие с пациентами.

Все четыре крупноязычные модели хорошо справлялись с вопросами в стиле медицинских экзаменов, но их показатели ухудшались, когда они участвовали в беседах, более точно имитирующих реальное взаимодействие.

По словам исследователей, этот недостаток свидетельствует о необходимости решения двух задач: Во-первых, создать более реалистичные оценки, которые позволят лучше оценить пригодность клинических моделей ИИ для использования в реальном мире, и, во-вторых, улучшить способность этих инструментов ставить диагноз на основе более реалистичных взаимодействий до того, как они будут внедрены в клинику.

Инструменты оценки, подобные CRAFT-MD, по словам исследовательской группы, могут не только более точно оценить модели ИИ на предмет их пригодности в реальном мире, но и помочь оптимизировать их работу в клинике.

Наша работа выявила поразительный парадокс: в то время как эти модели искусственного интеллекта отлично справляются с экзаменами на медицинскую комиссию, они с трудом справляются с основными задачами во время визита к врачу, — сказал старший автор исследования Пранав Раджпуркар, доцент кафедры биомедицинской информатики в Гарвардской медицинской школе.

Динамичный характер медицинских бесед — необходимость задавать правильные вопросы в нужное время, собирать воедино разрозненную информацию и рассуждать о симптомах — ставит перед нами уникальные задачи, которые выходят далеко за рамки ответов на вопросы с несколькими вариантами ответов. Когда мы переходим от стандартизированных тестов к этим естественным разговорам, даже самые сложные модели ИИ демонстрируют значительное снижение точности диагностики.

Лучший тест для проверки эффективности ИИ в реальном мире

В настоящее время разработчики проверяют эффективность моделей ИИ, предлагая им ответить на медицинские вопросы с несколькими вариантами ответов, которые обычно берутся из национальных экзаменов для студентов-медиков или из тестов, проводимых для резидентов-медиков в рамках их сертификации.

Такой подход предполагает, что вся необходимая информация представлена четко и ясно, часто с использованием медицинской терминологии, которая упрощают процесс диагностики, но в реальном мире этот процесс гораздо сложнее, — говорит соавтор исследования Шрея Джохри, докторант из лаборатории Раджпуркара в Гарвардской медицинской школе.

Нам нужна система тестирования, которая лучше отражает реальность и, следовательно, лучше предсказывает, насколько хорошо будет работать модель.

CRAFT-MD был разработан как один из таких более реалистичных измерителей.

Для имитации взаимодействия с реальным миром CRAFT-MD оценивает, насколько хорошо крупноязычные модели могут собирать информацию о симптомах, лекарствах и семейной истории, а затем ставить диагноз. Агент искусственного интеллекта выступает в роли пациента, отвечая на вопросы в разговорном, естественном стиле. Другой агент ИИ оценивает точность окончательного диагноза, поставленного крупноязычной моделью. Эксперты-люди оценивают результаты каждой встречи на предмет способности собрать необходимую информацию о пациенте, точности диагностики при наличии разрозненной информации, а также на предмет следования подсказкам.

Исследователи использовали CRAFT-MD для тестирования четырех моделей ИИ — как собственных или коммерческих, так и с открытым исходным кодом — на производительность в 2000 клинических виньеток с заболеваниями, распространенными в первичной медицинской помощи и в 12 медицинских специальностях.

Все модели ИИ продемонстрировали свои недостатки, особенно в способности вести клинические беседы и рассуждать на основе информации, предоставленной пациентами. Это, в свою очередь, негативно сказывалось на их способности вести историю болезни и ставить правильный диагноз. Например, модели часто не могли задать правильные вопросы, чтобы собрать соответствующую историю болезни, пропускали важную информацию во время сбора анамнеза и с трудом синтезировали разрозненную информацию. Точность этих моделей снижалась, когда им предлагалась открытая информация, а не ответы с несколькими вариантами. Кроме того, эти модели хуже справлялись с задачей, когда они участвовали в обмене мнениями «спина к спине» — как в большинстве реальных бесед, — а не в обобщенных беседах.

Рекомендации по оптимизации работы ИИ в реальном мире

Основываясь на этих выводах, команда предлагает ряд рекомендаций как для разработчиков ИИ, создающих модели ИИ, так и для регулирующих органов, которым поручено оценивать и утверждать эти инструменты.

К ним относятся:

  • Использование разговорных, открытых вопросов, которые более точно отражают неструктурированное взаимодействие между врачом и пациентом, при разработке, обучении и тестировании инструментов ИИ
  • Оценка моделей на предмет их способности задавать правильные вопросы и извлекать наиболее важную информацию
  • Разработка моделей, способных следить за несколькими разговорами и интегрировать информацию из них
  • Разработка моделей ИИ, способных интегрировать текстовые (заметки из разговоров) и нетекстовые данные (изображения, электрокардиограммы)
  • Разработка более сложных агентов ИИ, способных интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.

Кроме того, в оценке должны участвовать как агенты ИИ, так и эксперты-люди, рекомендуют исследователи, поскольку полагаться только на экспертов-людей трудоемко и дорого. Например, CRAFT-MD превзошел человеческих экспертов, обработав 10 000 разговоров за 48-72 часа, плюс 15-16 часов экспертной оценки. В отличие от этого, подходы, основанные на человеческом факторе, потребовали бы обширного набора персонала и примерно 500 часов для симуляции пациентов (почти 3 минуты на разговор) и около 650 часов для экспертной оценки (почти 4 минуты на разговор). Использование ИИ-оценщиков в качестве первой линии имеет дополнительное преимущество, поскольку исключает риск воздействия на реальных пациентов непроверенных инструментов ИИ.

По словам исследователей, они ожидают, что сама система CRAFT-MD будет периодически обновляться и оптимизироваться для интеграции улучшенных моделей ИИ-пациентов.

Как ученый-врач, я заинтересована в моделях ИИ, которые могут эффективно и этично дополнить клиническую практику, — сказала соавтор исследования Роксана Данешжу, доцент кафедры биомедицинских данных и дерматологии Стэнфордского университета.

CRAFT-MD создает структуру, которая более точно отражает реальные взаимодействия, и таким образом помогает продвинуться вперед в области тестирования эффективности моделей ИИ в здравоохранении.

Ранее мы опубликовали главные медицинские прорывы 2024 года.

02.01.2025


Подписаться в Telegram



Net&IT

Разработан реалистичный тест для оценки навыков клинического общения ИИ
Разработан реалистичный тест для оценки навыков клинического общения ИИ

Инструменты искусственного интеллекта, такие к...

Сети Wi-Fi-избавили от лишней «информационной нагрузки»
Сети Wi-Fi-избавили от лишней «информационной нагрузки»

Ученые придумали, как сделать информацию ...

Nature Human Behaviour: Заблуждение ИИ усиливает наши собственные заблуждения
Nature Human Behaviour: Заблуждение ИИ усиливает наши собственные заблуждения

Системы искусственного интеллекта склонны пере...

Новую модель для графической нейросети сделают доступной для смартфонов
Новую модель для графической нейросети сделают доступной для смартфонов

Среди множества моделей искусственного интелле...

В ННГУ научились восстанавливать функции биологических нейросетей
В ННГУ научились восстанавливать функции биологических нейросетей

Новую технологию, которая работает подобно кле...

Scientific Reports: Разработано подвижное навигационное устройство для незрячих
Scientific Reports: Разработано подвижное навигационное устройство для незрячих

Новаторская навигационная технология, использу...

Nature Communications: Аналоговые машины тоже могут обучаться
Nature Communications: Аналоговые машины тоже могут обучаться

Все думают, что машинное обучение &m...

Nature Communications: ИИ изучает язык расположения атомов в твердых телах
Nature Communications: ИИ изучает язык расположения атомов в твердых телах

Новую модель искусственного интеллекта, котора...

Science: Создана революционная технология, которая переписывает ДНК
Science: Создана революционная технология, которая переписывает ДНК

Брайан Хи руководит Лабораторией эволюцио...

Мемристоры сделают компьютеры будущего умными, как мозг
Мемристоры сделают компьютеры будущего умными, как мозг

Новое вещество для изменения работы устро...

В МФТИ создали бота для распознавания нот
В МФТИ создали бота для распознавания нот

Студенты МФТИ создали программу под назва...

Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса

Благодаря новым технологиям искусственный инте...

Челябинские ученые сделают коммунальные машины автономными
Челябинские ученые сделают коммунальные машины автономными

Программу для управления техникой, котора...

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками
Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной
Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Детектор sPHENIX готовится раскрыть тайны кварк-глюонной плазмы
Детектор sPHENIX готовится раскрыть тайны кварк-глюонной плазмы
GMR: Средиземноморская диета меняет микробиом и улучшает когнитивные способности
GMR: Средиземноморская диета меняет микробиом и улучшает когнитивные способности
Офис ЕС в Арктике — борьба за лидерство Европы в изучении полярных регионов
Офис ЕС в Арктике — борьба за лидерство Европы в изучении полярных регионов
Как биометрическая аутентификация защищает данные в условиях киберугроз
Как биометрическая аутентификация защищает данные в условиях киберугроз
NHB: Одиночество связано с повышенным риском сердечных заболеваний и инсульта
NHB: Одиночество связано с повышенным риском сердечных заболеваний и инсульта
Производство ацетальдегида: новые подходы в условиях заботы об окружающей среде
Производство ацетальдегида: новые подходы в условиях заботы об окружающей среде
Иммунитет и рост: как почвенные бактерии влияют на жизнь растений
Иммунитет и рост: как почвенные бактерии влияют на жизнь растений
Ученые выяснили, почему мы скорбим из-за смерти публичных персон
Ученые выяснили, почему мы скорбим из-за смерти публичных персон
Электронные отходы: новая золотая жила или экологическая бомба?
Электронные отходы: новая золотая жила или экологическая бомба?
Фосфорилирование как основа для «умных клеток»: прорыв в синтетической биологии
Фосфорилирование как основа для «умных клеток»: прорыв в синтетической биологии
Неожиданный поворот в изучении рака пищевода: открыта мутация, которая защищает
Неожиданный поворот в изучении рака пищевода: открыта мутация, которая защищает
Глобальный план действий против AMR — за здоровье людей, животных и экосистем
Глобальный план действий против AMR — за здоровье людей, животных и экосистем
Новый метод визуализации позволит отследить восстановление ахиллова сухожилия
Новый метод визуализации позволит отследить восстановление ахиллова сухожилия
NatPhot: Новый шаг к революции в обработке данных — люминесцентные нанокристаллы
NatPhot: Новый шаг к революции в обработке данных — люминесцентные нанокристаллы
Nature Cell Biology: Открыт новый способ замедлить развитие болезни Альцгеймера
Nature Cell Biology: Открыт новый способ замедлить развитие болезни Альцгеймера

Новости компаний, релизы

МФТИ подготовил более 140 специалистов в области синхротронных и нейтронных исследований
Фонд «Лига выпускников» совместно с научным сообществом поддержали идею создания центра компетенций ТЭК
Нижегородский завод продемонстрировал разработанные по нацпроекту материалы на AMTEXPO
Ученые Пермского Политеха выяснили, как повысить скорость и качество обработки новых титановых сплавов
Итоги IV конгресса молодых ученых