CodeSteer улучшает точность больших языковых моделей на 30%
Что если ошибку большого искусственного интеллекта можно исправить не очередным дорогостоящим обучением, а всего лишь парой вовремя данных подсказок?

Большие языковые модели, эти современные цифровые эрудиты, виртуозно справляются с текстом. Они улавливают тонкие нюансы смысла, анализируют контекст целого документа и выдают логичные, связные ответы о его содержании. Но стоит задать им простейшую математическую задачку, вроде сравнения чисел 9,11 и 9,9, как блеск тут же тускнеет. Модель, мыслящая текстовыми шаблонами, может запросто ошибиться, решив, что 9,11 больше, потому что «одиннадцать» больше, чем „девять“. Ирония в том, что та же модель может написать код на Python, который мгновенно даст верный ответ. Проблема не в способностях, а в выборе инструмента.
Этим моделям, как талантливому, но своенравному спортсмену, нужен опытный тренер, который подскажет, когда работать с текстом, а когда взять в руки более мощный инструмент — код. Таким тренером стал CodeSteer, умный помощник, созданный исследователями из MIT. Его задача — направлять большую языковую модель, подсказывая ей, когда нужно переключиться с генерации текста на генерацию кода, и наоборот, пока задача не будет решена идеально.
CodeSteer — это тоже языковая модель, но более компактная. Она действует итеративно: анализирует запрос, решает, какой метод подойдет лучше, и создает промт — инструкцию для большой модели. Та, в свою очередь, выдает ответ, а CodeSteer проверяет его. Если ответ неверен, тренер дает новую, уточненную подсказку: «Попробуй использовать такой-то алгоритм», „Здесь нужно учесть ограничение“, „Этот код слишком прост, усложни его“. Процесс продолжается до победы.
Исследователи обнаружили, что благодаря такому наставнику точность больших моделей на символических задачах — умножение, судоку, расстановка блоков — взлетела более чем на 30%. Более того, менее продвинутые модели, ведомые CodeSteer, начали обходить своих более мощных, но недисциплинированных конкурентов. Это открывает двери для решения по-настоящему сложных проблем, где одного текстового анализа мало: например, для прокладки маршрутов роботов в хаотичной среде или оптимизации логистики международных поставок.
Как отмечает Чучу Фан, профессор MIT:
Все стремятся создать универсальную модель, способную на все. Мы же выбрали другой подход. За годы исследований мы накопили множество эффективных инструментов для разных областей. Наша цель — научить LLM выбирать правильные инструменты и использовать заимствованную экспертизу, чтобы усиливать собственные возможности.
Реальная польза этого исследования выходит далеко за рамки академических тестов. Оно решает фундаментальную проблему внедрения ИИ в реальные, критически важные процессы. Вместо того чтобы пытаться создать дорогущего и прожорливого «идеального сотрудника», мы получаем гибкую систему „менеджер-исполнитель“. Легкий, недорогой в эксплуатации CodeSteer может выступать интеллектуальным роутером, распределяя задачи между специализированными инструментами (базами данных, вычислительными модулями, API) и большой LLM, которая выступает в роли универсального интерфейса. Это может значительно снизить стоимость и повысить надежность автоматизации в областях вроде:
- Юриспруденции: где нужно не просто найти документ по тексту, но и проверить формальные условия, сроки, иерархию законов.
- Медицинской диагностики: где LLM анализирует историю болезни (текст), а код проверяет симптомы по базе знаний и рассчитывает риски.
- Логистики: где модель описывает проблему срыва поставок, а код в реальном времени пересчитывает маршруты и оптимизирует цепочки.
Основное критическое замечание касается масштабируемости и скорости. Итеративный процесс подсказок и проверок, который использует CodeSteer, неизбежно ведет к многократному увеличению количества запросов к большой LLM. Это напрямую ведет к более высоким вычислительным затратам и значительно увеличивает задержку получения окончательного ответа. Для реальных систем, работающих в режиме реального времени (например, чат-бот поддержки или система принятия решений для робота), такие задержки могут быть неприемлемы. Исследователям предстоит найти баланс между точностью и скоростью, возможно, путем предварительного обучения CodeSteer на более широком наборе задач, чтобы сократить количество необходимых итераций.
Ранее ученые заметили, что ИИ становится носителем всех пороков человечества, включая расизм и сексизм.



















