Ученые разобрались, почему ИИ читает только начало и конец текста

Максим Наговицын07.07.2025798

Почему ИИ, как плохой студент, запоминает только начало и конец учебника?

Ученые разобрались, почему ИИ читает только начало и конец текста
Источник: нейросеть

Исследования показали: большие языковые модели (LLM) часто зацикливаются на начале и конце документа, а серединку проглатывают, как невкусную кашу.

Представьте адвоката, который ищет нужную фразу в 30-страничном аффидевите с помощью ИИ-ассистента. Если искомая строчка в первых или последних страницах — модель ее найдет. А если затерялась в середине? Шансы резко падают.

Ученые из MIT разобрались, почему так происходит. Они создали теоретическую модель, чтобы понять, как информация движется внутри архитектуры LLM. Оказалось, дело в двух вещах:

  • Как модель «читает» текст — например, если она анализирует слова только слева направо (как в книгах), то автоматически переоценивает начало.
  • Как запоминает порядок слов — если модель слишком привязывается к позициям, середина остается без внимания.

Но главное — их подход не просто объясняет проблему, а помогает ее исправить. Это значит, что в будущем:

  • чат-боты не будут терять нить в долгих диалогах;
  • медицинские ИИ станут объективнее анализировать историю болезни;
  • код-ассистенты перестанут пропускать критичные строки в программе.

Эти модели — черные ящики. Пользователь даже не подозревает, что порядок документов влияет на результат. А если понимаешь механизмы, можно их улучшить, — говорит Синьи У, аспирантка MIT и автор исследования.

Эксперимент подтвердил теорию: когда правильный ответ прятали в середине текста, точность падала, а в начале и конце — взлетала. Решение? Менять архитектуру: например, ослаблять «гипноз» начальных слов или добавлять подсказки для модели, где искать важное.

Исследование MIT — не просто академический интерес. Вот где оно реально пригодится:

  • Юриспруденция: поиск прецедентов в гигабайтах судебных решений без риска пропустить ключевой абзац.
  • Медицина: анализ длинных историй болезней, где симптомы в середине текста могут быть важнее, чем вводные данные.
  • Программирование: код-ревью без слепых зон — ИИ не проигнорирует баг в 500-й строке.

Главный плюс — подход позволяет диагностировать проблему, а не гадать, почему модель ошибается.

Отметим, что исследование фокусируется на архитектурных причинах ошибки, но почти не затрагивает контентные. Например:

  • Если в тренировочных данных важная информация чаще встречается в начале/конце (как в новостях), модель просто учится этому шаблону.
  • Эксперименты проводились на синтетических задачах — как поведение изменится в реальных сценариях (например, при анализе научных статей), пока неясно.

Ранее ученые нашли способ заставить ИИ сомневаться в неверных ответах.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT


Лента новостей

Пресс-релизы