Ученые нашли способ заставить языковую модель ИИ сомневаться в неверных ответах

Большие языковые модели помогают в решении множества задач: от перевода до выявления финансового мошенничества. Но иногда они дают неточные ответы, которым сложно доверять из-за самоуверенности модели.

Исследователи обычно проверяют, насколько можно доверять результатам модели машинного обучения. Хорошо откалиброванная модель должна быть менее уверена в неправильном прогнозе.

Но поскольку большие языковые модели (LLM) могут применяться для решения множества разнообразных задач, традиционные методы калибровки не работают.

Исследователи из Массачусетского технологического института и Лаборатории искусственного интеллекта MIT-IBM Watson предложили новый метод калибровки для больших языковых моделей. Он называется Thermometer и предполагает создание вспомогательной модели, которая запускается поверх основной для её калибровки.

Thermometer — эффективный метод, который требует меньше вычислений и при этом сохраняет точность модели. Он позволяет ей давать более точные ответы на новые задачи.

Thermometer помогает эффективно откалибровать LLM для разных задач. Это позволяет выявить ситуации, когда модель ошибается, и предотвратить её неудачное развёртывание.

С помощью Thermometer мы хотим дать пользователю понять, насколько точен ответ модели. Это позволит оценить её надёжность, — говорит Маохао Шен, аспирант факультета электротехники и информатики (EECS) и автор статьи о Thermometer.

Вместе с Шеном над статьей работали Грегори Уорнелл, профессор инженерии Sumitomo, возглавляющий лабораторию сигналов, информации и алгоритмов в Исследовательской лаборатории электроники и являющийся сотрудником лаборатории искусственного интеллекта MIT-IBM Watson; старший автор Сумья Гош, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson; а также другие сотрудники MIT и лаборатории искусственного интеллекта MIT-IBM Watson. Исследование было недавно представлено на Международной конференции по машинному обучению.

Универсальная калибровка

Традиционные модели машинного обучения создаются для выполнения одной задачи, поэтому их калибровка включает один метод, подходящий именно для этой задачи.

LLM могут выполнять множество задач, и использование традиционного метода калибровки может снизить эффективность модели для других задач.

Калибровку LLM проводят с помощью многократной выборки из модели для получения разных предсказаний, которые затем объединяют для более точной калибровки. Но из-за большого количества параметров в этих моделях такой подход требует больших вычислительных затрат.

Исследователи из проекта Thermometer разработали универсальный метод калибровки больших языковых моделей.

Этот метод использует классический подход, называемый температурным масштабированием. Он позволяет эффективно настроить модель под конкретную задачу.

В этом контексте «температура» означает параметр, который настраивает уровень доверия к модели и приводит её в соответствие с требуемой точностью предсказания. Раньше для определения правильной температуры использовали валидационный набор данных для конкретной задачи.

Поскольку LLM часто используются для новых задач, может быть сложно получить данные с метками. Например, у пользователя, который хочет применить LLM для ответов на вопросы покупателей о новом продукте, скорее всего, нет такого набора данных.

Вместо этого исследователи обучают модель «Термометр», которая работает поверх LLM и автоматически предсказывает температуру, необходимую для калибровки LLM под новую задачу.

Для обучения модели они используют данные с метками для нескольких репрезентативных задач. После обучения модель может обобщать данные на новые задачи без необходимости получения дополнительных данных с метками.

Модель Thermometer, обученная на множестве вопросов с несколькими вариантами ответов (включая вопросы по алгебре и медицине), может помочь настроить LLM для решения задач по геометрии или биологии.

Модель термометра должна получить доступ к небольшой части внутреннего устройства LLM, чтобы предсказать нужную температуру и настроить модель под конкретную задачу.

Эффективный подход

Техника Thermometer не требует многократного обучения и лишь немного замедляет работу LLM. При этом она сохраняет точность, поскольку температурное масштабирование не изменяет предсказания модели.

Thermometer даёт более точные калиброванные меры неопределённости, чем несколько базовых моделей на разных задачах. При этом он требует гораздо меньше вычислений.

Шен добавляет, что если обучить модель Thermometer на большом количестве задач, она сможет хорошо обобщать информацию и работать с новыми задачами, как и большая языковая модель.

Исследователи выяснили, что модель Thermometer, обученная на небольшом LLM, может быть использована для калибровки более крупного LLM из того же семейства.

В планах — расширить применение модели Thermometer для более сложных задач генерации текста и адаптировать её к ещё более крупным языковым моделям. Также исследователи хотят определить, сколько размеченных данных потребуется модели Thermometer для обобщения информации и выполнения новых задач.

31.07.2024


Подписаться в Telegram



Net&IT

Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто оши...

JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья

Новое приложение с искусственным интеллек...

В МТУСИ предложили усовершенствовать процессы SAST
В МТУСИ предложили усовершенствовать процессы SAST

Миллионы людей по всему миру ежедневно по...

Лабораторию цифровых двойников геосистем открыли в СПбГУТ
Лабораторию цифровых двойников геосистем открыли в СПбГУТ

В Санкт-Петербургском университете телекоммуни...

IJHCS: Пожилые хуже справляются с простыми задачами на компьютере
IJHCS: Пожилые хуже справляются с простыми задачами на компьютере

Исследование показало, что интеллект игра...

MIT: Создан алгоритм квантового компьютера для взлома криптосистемы RSA
MIT: Создан алгоритм квантового компьютера для взлома криптосистемы RSA

Исследователи предлагают новый способ создания...

Science: ИИ решает одну из самых сложных задач в квантовой химии
Science: ИИ решает одну из самых сложных задач в квантовой химии

Учёные из Имперского колледжа Лондона и&n...

CRPS: Гидрогель научили играть в пинг-понг, и он делает это как живой
CRPS: Гидрогель научили играть в пинг-понг, и он делает это как живой

Команда под руководством доктора Йошикацу...

European Radiology: ИИ может заменить ординатора, но не опытного врача
European Radiology: ИИ может заменить ординатора, но не опытного врача

В радиологии для интерпретации результато...

Цифровой полигон МФТИ ускорит разработку БПЛА в России
Цифровой полигон МФТИ ускорит разработку БПЛА в России

Сотрудники передовой инженерной школы МФТИ пре...

За 4 месяца модель ИИ научили исследовать урожайность полей
За 4 месяца модель ИИ научили исследовать урожайность полей

Модель искусственного интеллекта, созданная вы...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

A&D: Изменения в сосудах мозга помогут прогнозировать когнитивные нарушения
A&D: Изменения в сосудах мозга помогут прогнозировать когнитивные нарушения
Nature Physics: Ученые проследили эволюцию беспорядка в сверхпроводниках
Nature Physics: Ученые проследили эволюцию беспорядка в сверхпроводниках
PNAS: Жидкие кристаллы в движении имитируют биологические системы
PNAS: Жидкие кристаллы в движении имитируют биологические системы
Стандартизация крепежа позволила быстро построить хрустальный дворец в Лондоне
Стандартизация крепежа позволила быстро построить хрустальный дворец в Лондоне
NatComm: Найдены участки в мозге, которые действуют как связи в социальной сети
NatComm: Найдены участки в мозге, которые действуют как связи в социальной сети
Nature Astronomy: Черная дыра способна «морить голодом» галактику-хозяина
Nature Astronomy: Черная дыра способна «морить голодом» галактику-хозяина
КФУ: Кинетическая модель оптимизирует добычу битуминозной нефти
КФУ: Кинетическая модель оптимизирует добычу битуминозной нефти
В ЛЭТИ создали цифрового двойника для оптимизации солнечных электростанций
В ЛЭТИ создали цифрового двойника для оптимизации солнечных электростанций
Дыбка и трещотка: кого еще нашли ученые КФУ во время экспедиции
Дыбка и трещотка: кого еще нашли ученые КФУ во время экспедиции
Advanced Science: Гель из слизи коровы поможет при грыже межпозвоночного диска
Advanced Science: Гель из слизи коровы поможет при грыже межпозвоночного диска
DFCI: Как образ жизни после лечения влияет на результаты после диагноза рака
DFCI: Как образ жизни после лечения влияет на результаты после диагноза рака
Annals of Internal Medicine: Ложноположительные результаты распугивают пациенток
Annals of Internal Medicine: Ложноположительные результаты распугивают пациенток
Brain Communications: Разработан экспресс-тест для диагностики БАС по крови
Brain Communications: Разработан экспресс-тест для диагностики БАС по крови
Science: Разработан метод поиска молекул, подходящих всем известным белкам
Science: Разработан метод поиска молекул, подходящих всем известным белкам
PNAS: «Тихие» мутации могут иметь последствия не только для собственного гена
PNAS: «Тихие» мутации могут иметь последствия не только для собственного гена

Новости компаний, релизы

Впервые выбирают MITEX: дебютанты выставки 2024 года
Исследователи используют кантианскую модель рациональности для оценки этичности решений ИИ
Ученые Сеченовского университета разработали новый способ терапии вирусных заболеваний
Ученые СПбГУ и ЛЭТИ разработали методику изучения материалов на основе алмаза для космической электроники будущего
Межсетевой экран защитит компьютерные системы от киберугроз