Почему большие модели галлюцинируют и при чем тут прототипы

Максим Наговицын18.04.20262592

Вы когда-нибудь задумывались, почему человек легко узнает стул любой странной формы, а нейросеть — нет?

Почему большие модели галлюцинируют и при чем тут прототипы
Зрительные образы проходят через восприятие и память — так у человека складывается структурированное «визуальное знание», которого не хватает «чисто статистическим» большим моделям. Источник иллюстрации: нейросеть

В искусственном интеллекте появилось новое направление — «визуальное знание». Это способ упаковывать информацию о том, как выглядят предметы и как они связаны друг с другом, в четкую, понятную человеку форму. Такое знание не выдумали с нуля: у него глубокие корни в когнитивной психологии. Для людей зрительная картина мира — главный источник понимания. Ученые из колледжа компьютерных наук и технологий Чжэцзянского университета решили разобраться с этой темой системно.

Подробности опубликованы в издании Frontiers of Information Technology & Electronic Engineering.

Сначала ученые объяснили, откуда взялось визуальное знание и что это такое. Оказывается, мозг человека тратит на обработку зрительных сигналов почти половину всей коры. Мы запоминаем увиденное лучше, чем услышанное, и умеем мысленно крутить в голове трехмерные фигуры. Эти способности тесно связаны с нашим восприятием, памятью и накопленным опытом. В какой-то момент исследователи ИИ заметили, что у современных больших моделей (фундаментальных) этих природных механизмов нет, и предложили теорию визуального знания как недостающее звено.

По их определению, визуальное знание держится на четырех китах.

  • Первый — зрительное понятие. У каждого понятия есть прототип (типичные черты) и границы допустимых изменений (диапазон). Например, «стул» — это прототип с четырьмя ножками и спинкой, но табуретка или кресло-мешок все равно попадают в понятие „стул“ благодаря гибким границам.
  • Второй кит — зрительные отношения: геометрические (круг над квадратом), временные (дождь перед радугой), смысловые (кошка ест из миски), причинные (удар — трещина).
  • Третий — зрительные операции: как мы мысленно составляем одно из другого, деформируем, предсказываем движение.
  • Четвертый — зрительные рассуждения, то есть применение всех трех предыдущих частей для решения задач и принятия решений.

До эпохи больших моделей ученые уже пытались работать с визуальным знанием. Они создавали сети на основе прототипов и генеративные классификаторы вроде смесей гауссовых распределений, но уловить «границы изменчивости» толком не получалось. С отношениями пробовали справляться капсульные сети (для геометрии) и генерация графов сцен (для многих типов связей), но смысловые отношения автоматически выучить почти не выходило, а про функциональные связи вроде „ручка приделана к кружке“ вообще часто забывали. В области зрительных операций заметно продвинулись в генерации картинок по тексту, синтезе новых ракурсов (тут помогли трехмерные гауссовы сплеки) и предсказании траекторий людей или следующих кадров видео. А вот сложные вещи вроде разрушения или восстановления объектов остались слабо развиты. Что касается рассуждений, то использовали нейро-символьные вычисления — попытку подружить нейросети с логическими правилами, например, для ответов на вопросы по картинкам. Но позже большие модели только усилили проблему „черного ящика“, когда непонятно, почему машина выдала тот или иной ответ.

Визуальное знание опирается на понятия с прототипом и допусками, на отношения между объектами, на мысленные операции с образами и на рассуждения, которые связывают всё это в решении задач. Источник иллюстрации: нейросеть
Визуальное знание опирается на понятия с прототипом и допусками, на отношения между объектами, на мысленные операции с образами и на рассуждения, которые связывают всё это в решении задач. Источник иллюстрации: нейросеть

Исследование само по себе скорее теоретическое, но предлагаемые методы (например, визуальные понятия с прототипами) могут снизить потребность в огромных вычислительных мощностях. Если технологию внедрят, она станет доступнее для средних компаний и университетов, потому что не потребует тысяч дорогих видеокарт. Однако на практике пока никто не выпустил открытую библиотеку «визуального знания», так что доступность остается гипотетической.

Работа этична по замыслу: прозрачные модели легче проверять на предвзятость и ошибки. Но вред может быть в другом — если визуальное знание станет обязательным стандартом, то небольшие команды без доступа к психологическим и когнитивным данным окажутся в невыгодном положении. Кроме того, четкие «границы понятий» могут закрепить стереотипы (например, „прототип врача — мужчина“), если их не настраивать с осторожностью.

В ссвободном доступе результаты исследования окажутся, скорее всего, не раньше чем через три-пять лет. Сначала концепцию должны воплотить в конкретной библиотеке для Python или встраивании в популярные фреймворки вроде PyTorch. Обычный пользователь увидит это в виде «понятной нейросети» внутри фоторедактора или поиска по картинкам.

Прямые аналоги — нейро-символьные системы (CLEVR, NS-VQA) и методы объяснимого ИИ (SHAP, LIME). Отличие визуального знания в том, что оно опирается на когнитивную психологию, а не просто на статистику. SHAP показывает, какие пиксели важны для ответа, но не скажет, где границы понятия «стул». Визуальное знание пытается дать именно структуру понятий и их отношений — как в учебнике для человека, а не как в наборе весов нейросети.

Красивую структуру понятий и связей легче описать словами, чем получить из данных: без учителя или без огромных моделей теория рискует остаться пожеланием. Источник иллюстрации: нейросеть
Красивую структуру понятий и связей легче описать словами, чем получить из данных: без учителя или без огромных моделей теория рискует остаться пожеланием. Источник иллюстрации: нейросеть

Основная критика: авторы описывают визуальное знание как нечто отдельное и полезное, но не показывают, как именно его извлечь из данных без учителя. В реальном мире никто не размечает «границы изменчивости» для каждого понятия. Если это делать вручную — работа станет неподъемной. Если автоматически — мы возвращаемся к тем же большим моделям с их галлюцинациями. Получается замкнутый круг: визуальное знание должно лечить недостатки больших моделей, но для его добычи все равно нужны либо большие модели, либо титанический ручной труд. Без решения этой проблемы все красивые рассуждения рискуют остаться на уровне благих пожеланий.

Ранее ученые дали рекомендации, что делать, когда ИИ уверенно несет всякую околесицу.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT


Лента новостей

Пресс-релизы