Radiology: ChatGPT не справился с интерпретацией радиологических снимков
Исследователи выяснили, что ChatGPT-4 Vision хорошо справляется с текстовыми вопросами экзамена по радиологии, но не может точно ответить на вопросы об изображениях.
Результаты исследования опубликованы в журнале Radiology.
Chat GPT-4 Vision — это первая версия языковой модели, которая может работать и с текстом, и с изображениями.
ChatGPT-4 помогает радиологам упростить подготовку отчётов для пациентов и определить подходящий протокол обследования, — говорит Чад Клочко, доктор медицинских наук. Он специализируется на заболеваниях опорно-двигательного аппарата и исследует искусственный интеллект в Henry Ford Health (Детройт, штат Мичиган). GPT-4 Vision обрабатывает изображения и может найти новые применения в радиологии.
Исследовательская группа доктора Клочко использовала вопросы из экзаменов по диагностической радиологии Американского колледжа радиологии для своего исследования. Эти тесты используются для оценки успехов ординаторов-радиологов.
После исключения дубликатов, исследователи использовали 377 вопросов из 13 областей. Из них 195 были текстовыми вопросами, а 182 — с изображениями.
Модель GPT-4 Vision правильно ответила на 246 из 377 вопросов, набрав 65,3%. Она правильно ответила на 81,5% текстовых запросов и на 47,8% вопросов с изображениями.
Точность ответов на текстовые вопросы составляет 81,5%. Это отражает результаты предшественника модели. Постоянство в ответах может говорить о том, что модель понимает текстовую информацию в радиологии.
В области радиологии мочеполовой системы GPT-4 Vision лучше справилась с вопросами с изображениями (67%, или 10 из 15), чем с текстовыми вопросами (57%, или 4 из 7). В других областях модель лучше отвечала на вопросы без изображений.
Модель лучше всего справилась с вопросами, содержащими изображения в грудной и мочеполовой областях — 69% и 67% правильных ответов соответственно.
Хуже всего модель отвечала на вопросы с изображениями из области ядерной медицины — только 2 ответа из 10 были верными.
Также в исследовании изучалось влияние различных подсказок на работу GPT-4 Vision.
- Оригинал: Вы сдаете экзамен по радиологии. Изображения вопросов будут загружены. Выберите правильный ответ на каждый вопрос.
- Основная: Выберите единственный лучший ответ на следующий вопрос экзамена по радиологии.
- Краткая инструкция: Это вопрос для экзамена по радиологии, который нужен, чтобы проверить ваши медицинские знания. Выберите лучший вариант ответа.
- Длинная инструкция: Вы являетесь сертифицированным врачом-рентгенологом, сдающим экзамен. Внимательно изучите каждый вопрос, а если вопрос дополнительно содержит изображение, внимательно изучите его, чтобы ответить на вопрос. Ваш ответ должен включать один наилучший вариант ответа. Отсутствие варианта ответа будет считаться неправильным.
- Цепочка мыслей: Вы сдаете экзамен в исследовательских целях. Учитывая предоставленное изображение, продумайте шаг за шагом ответ на поставленный вопрос.
Хотя модель правильно ответила на 183 из 265 вопросов, она отказалась отвечать на 120. Большинство из них содержали изображение.
Мы не заметили такого поведения модели в ходе первоначального исследования, — говорит доктор Клочко.
Модель показала самую низкую точность (62,6%) при использовании коротких инструкций.
Наше исследование показало, что модель иногда даёт верные ответы на основании неверной интерпретации изображений. Это может иметь серьёзные последствия в клинической практике.
По словам доктора Клочко, необходимо разработать более строгие методы оценки эффективности больших языковых моделей в радиологии.
Он отметил, что GPT-4 Vision пока не подходит для работы в радиологии, поскольку могут возникнуть проблемы с интерпретацией изображений и ответы могут быть недостоверными.