ИИ научили сомневаться: как алгоритм SIFT борется с нейросетевым бредом
ChatGPT и ему подобные ИИ часто удивляют точностью ответов, но так же легко могут нести откровенную чушь.
Главная проблема в том, что мощные языковые модели (LLM) не различают, насколько они уверены в своих ответах. Они выдают и гениальные решения, и абсурд с одинаковой убедительностью.
Исследователи из ETH Zurich придумали, как заставить ИИ сомневаться правильно. Их алгоритм SIFT (Selecting Informative data for Fine-Tuning) учит модель выбирать только те данные, которые действительно полезны для ответа.
Как это работает
- Языковые модели хранят информацию в виде векторов — стрелок в многомерном пространстве. Чем ближе направление векторов, тем сильнее связаны понятия.
- SIFT анализирует запрос, находит в дополнительных данных (например, корпоративной базе или научных статьях) только релевантные фрагменты и отсекает лишнее.
Пример:
Спросите у ИИ: «Сколько лет Роджеру Федереру и сколько у него детей?»
Обычные модели могут зациклиться на дате рождения, потому что таких данных больше. SIFT же заметит, что вопрос состоит из двух частей, и найдет информацию и о возрасте, и о детях.
Почему это важно
- Ответы становятся точнее даже у небольших моделей. В тестах SIFT обогнал крупные ИИ, используя в 40 раз меньше вычислительных ресурсов.
- Алгоритм учится на ходу: чем чаще его используют, тем лучше он понимает, какие данные важны.
- В медицине, юриспруденции или бизнесе можно сразу увидеть, какие параметры критичны для решения.
Разработку уже отметили на престижных конференциях — ICLR и NeurIPS.
А это значит, что скоро ИИ станет не только умнее, но и скромнее — перестанет выдавать домыслы за истину.
Подобные исследования будут интересны и полезны различным аудиториям.
Для бизнеса:
- Компании смогут внедрять ИИ в узкоспециализированные области без дорогостоящего обучения с нуля. Достаточно «докормить» модель своими данными.
- Снизятся затраты на вычисления — не придется гонять гигантские алгоритмы ради простых задач.
Для науки:
- Ускорится анализ исследований. SIFT выявит ключевые данные в статьях, даже если их тысячи.
- В медицине можно определить, какие показатели (анализы, симптомы) действительно влияют на диагноз.
Для обычных пользователей:
- ИИ-ассистенты перестанут путаться в вопросах. Спросите о налогах или ремонте — получите ответ, основанный на актуальных законах или инструкциях, а не на устаревших данных.
Ранее мы писали, какие профессии вытеснит ИИ.