Инструменты искусственного интеллекта, такие как ChatGPT, хвалят за то, что они могут облегчить нагрузку на врачей, принимая пациентов, собирая истории болезни и даже ставя предварительные диагнозы. Эти инструменты, известные как LLM, пациенты уже используют, чтобы разобраться в симптомах и результатах медицинских анализов. Но если в стандартных медицинских тестах эти модели ИИ показывают впечатляющие результаты, то насколько хорошо они справляются с ситуациями, более приближенными к реальному миру? Согласно результатам нового исследования, проведенного под руководством ученых из Гарвардской медицинской школы и Стэнфордского университета, не так уж и хорошо. Для своего анализа, опубликованного 2 января в журнале Nature Medicine, исследователи разработали систему оценки — или тест — под названием CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) и применили ее к четырем крупноязычным моделям, чтобы проверить, насколько хорошо они работают в условиях, точно имитирующих реальное взаимодействие с пациентами. Все четыре крупноязычные модели хорошо справлялись с вопросами в стиле медицинских экзаменов, но их показатели ухудшались, когда они участвовали в беседах, более точно имитирующих реальное взаимодействие. По словам исследователей, этот недостаток свидетельствует о необходимости решения двух задач: Во-первых, создать более реалистичные оценки, которые позволят лучше оценить пригодность клинических моделей ИИ для использования в реальном мире, и, во-вторых, улучшить способность этих инструментов ставить диагноз на основе более реалистичных взаимодействий до того, как они будут внедрены в клинику. Инструменты оценки, подобные CRAFT-MD, по словам исследовательской группы, могут не только более точно оценить модели ИИ на предмет их пригодности в реальном мире, но и помочь оптимизировать их работу в клинике.
Лучший тест для проверки эффективности ИИ в реальном миреВ настоящее время разработчики проверяют эффективность моделей ИИ, предлагая им ответить на медицинские вопросы с несколькими вариантами ответов, которые обычно берутся из национальных экзаменов для студентов-медиков или из тестов, проводимых для резидентов-медиков в рамках их сертификации.
CRAFT-MD был разработан как один из таких более реалистичных измерителей.Для имитации взаимодействия с реальным миром CRAFT-MD оценивает, насколько хорошо крупноязычные модели могут собирать информацию о симптомах, лекарствах и семейной истории, а затем ставить диагноз. Агент искусственного интеллекта выступает в роли пациента, отвечая на вопросы в разговорном, естественном стиле. Другой агент ИИ оценивает точность окончательного диагноза, поставленного крупноязычной моделью. Эксперты-люди оценивают результаты каждой встречи на предмет способности собрать необходимую информацию о пациенте, точности диагностики при наличии разрозненной информации, а также на предмет следования подсказкам. Исследователи использовали CRAFT-MD для тестирования четырех моделей ИИ — как собственных или коммерческих, так и с открытым исходным кодом — на производительность в 2000 клинических виньеток с заболеваниями, распространенными в первичной медицинской помощи и в 12 медицинских специальностях. Все модели ИИ продемонстрировали свои недостатки, особенно в способности вести клинические беседы и рассуждать на основе информации, предоставленной пациентами. Это, в свою очередь, негативно сказывалось на их способности вести историю болезни и ставить правильный диагноз. Например, модели часто не могли задать правильные вопросы, чтобы собрать соответствующую историю болезни, пропускали важную информацию во время сбора анамнеза и с трудом синтезировали разрозненную информацию. Точность этих моделей снижалась, когда им предлагалась открытая информация, а не ответы с несколькими вариантами. Кроме того, эти модели хуже справлялись с задачей, когда они участвовали в обмене мнениями «спина к спине» — как в большинстве реальных бесед, — а не в обобщенных беседах. Рекомендации по оптимизации работы ИИ в реальном миреОсновываясь на этих выводах, команда предлагает ряд рекомендаций как для разработчиков ИИ, создающих модели ИИ, так и для регулирующих органов, которым поручено оценивать и утверждать эти инструменты. К ним относятся:
Кроме того, в оценке должны участвовать как агенты ИИ, так и эксперты-люди, рекомендуют исследователи, поскольку полагаться только на экспертов-людей трудоемко и дорого. Например, CRAFT-MD превзошел человеческих экспертов, обработав 10 000 разговоров за 48-72 часа, плюс 15-16 часов экспертной оценки. В отличие от этого, подходы, основанные на человеческом факторе, потребовали бы обширного набора персонала и примерно 500 часов для симуляции пациентов (почти 3 минуты на разговор) и около 650 часов для экспертной оценки (почти 4 минуты на разговор). Использование ИИ-оценщиков в качестве первой линии имеет дополнительное преимущество, поскольку исключает риск воздействия на реальных пациентов непроверенных инструментов ИИ. По словам исследователей, они ожидают, что сама система CRAFT-MD будет периодически обновляться и оптимизироваться для интеграции улучшенных моделей ИИ-пациентов.
Ранее мы опубликовали главные медицинские прорывы 2024 года. 02.01.2025 |
Net&IT
Разработан реалистичный тест для оценки навыков клинического общения ИИ | |
Инструменты искусственного интеллекта, такие к... |
Сети Wi-Fi-избавили от лишней «информационной нагрузки» | |
Ученые придумали, как сделать информацию ... |
Будущее наступило: квантовые технологии меняют нашу жизнь и кибербезопасность | |
Квантовые вычисления, обладающие революционным... |
ИИ нового поколения: машинная психология может сделать машины равными человеку | |
Искусственный интеллект, не уступающий че... |
Financial Analysts Journal: ChatGPT пока не может заменить финансовых спецов | |
В то время как большие языковые моде... |
Nature Human Behaviour: Заблуждение ИИ усиливает наши собственные заблуждения | |
Системы искусственного интеллекта склонны пере... |
Новую модель для графической нейросети сделают доступной для смартфонов | |
Среди множества моделей искусственного интелле... |
В ННГУ научились восстанавливать функции биологических нейросетей | |
Новую технологию, которая работает подобно кле... |
В ЛЭТИ разработали цифровой сервис с VR для обучения медицинских инженеров | |
Система SeVRis позволит инженерам учиться ремо... |
Scientific Reports: Разработано подвижное навигационное устройство для незрячих | |
Новаторская навигационная технология, использу... |
В МИФИ разработана нейросеть для расчета и синтеза голографических изображений | |
Обычно для создания оптических элементов,... |
NCS: Новый ИИ DIMON решает сложные инженерные задачи быстрее суперкомпьютеров | |
Моделирование того, как деформируются авт... |
Nature Communications: Аналоговые машины тоже могут обучаться | |
Все думают, что машинное обучение &m... |
Nature Communications: ИИ изучает язык расположения атомов в твердых телах | |
Новую модель искусственного интеллекта, котора... |
Science: Создана революционная технология, которая переписывает ДНК | |
Брайан Хи руководит Лабораторией эволюцио... |
Мемристоры сделают компьютеры будущего умными, как мозг | |
Новое вещество для изменения работы устро... |
В Японии предложили способ усовершенствовать дополненную реальность на смартфоне | |
Приложения дополненной реальности, которые раб... |
В МФТИ создали бота для распознавания нот | |
Студенты МФТИ создали программу под назва... |
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика | |
Студент первого курса Московского Политеха Арт... |
Ученые рассказали об уязвимостях в системе безопасности медицинских ИТ | |
Сотрудники кафедры ИБ Московского Политех... |
EgoTouch управляет VR-миром с ладони — речь идет о новом уровне взаимодействия | |
В обычной жизни мы не хотим постоянн... |
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса | |
Благодаря новым технологиям искусственный инте... |
Челябинские ученые сделают коммунальные машины автономными | |
Программу для управления техникой, котора... |
Школьники создали для музея бота-проводника по коммуналкам и книгам Булгакова | |
Сегодня музейные чат-боты могут гораздо больше... |
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров | |
Студенты Университета управления ТИСБИ в ... |
Nature: Созданные ИИ тексты будут размечаться водяными знаками | |
Исследователи из лондонской лаборатории G... |
Российская игра о наполеоновских войнах станет бесплатной | |
У российской аудитории растет интерес к в |
Ученые МГУ с коллегами предложили новый подход для создания квантового интернета | |
Создать устройство для гибридных квантовы... |
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев» | |
В Новосибирском государственном университете з... |
Российские ученые создали расчетные модули для системы инженерного анализа | |
Ученые из нескольких научных организаций ... |