Нейросети на пружинах: как физика объясняет искусственный интеллект

Максим Наговицын14.08.20251337

Физики и математики нашли способ объяснить нейросети через пружины и трение — и это сработало.

Нейросети на пружинах: как физика объясняет искусственный интеллект
Источник: нейросеть

Глубокие нейросети — основа современного искусственного интеллекта: от распознавания образов до языковых моделей вроде ChatGPT.

Суть в том, что во время обучения параметры искусственных нейронов настраиваются так, чтобы сеть могла выполнять конкретные задачи — например, находить объекты на изображениях без подсказок.

Но как именно это работает и почему одни сети мощнее других, до конца не ясно. Точного математического описания пока нет, а оно нужно, чтобы создавать ИИ, тратя минимум ресурсов.

Команда профессора Ивана Докманича из Базельского университета предложила неожиданно простую модель, которая повторяет ключевые свойства глубоких нейросетей и помогает оптимизировать их параметры.

Результаты опубликованы в журнале Physical Review Letters.

Как нейросети делят работу

Глубокие сети состоят из слоев нейронов. Когда модель учится отличать, скажем, кошек от собак на картинках, она делает это постепенно — слой за слоем.

Этот процесс называют разделением данных.

Разделение данных (data separation) — процесс, при котором нейросеть постепенно учится отличать один класс объектов от другого (например, кошек от собак). Каждый слой сети уточняет различия, пока в итоге не получается четкая граница между категориями.

Обычно каждый слой вносит равный вклад в разделение, но иногда основную работу выполняют либо первые, либо последние слои, — объясняет Докманич.

Все зависит от структуры сети. Если нейроны просто умножают входные данные на определенный коэффициент (линейная сеть), результат будет одним. Если же они проводят сложные вычисления (нелинейная сеть) — другим.

Еще один фактор — случайность. Например, в каждом цикле обучения часть нейронов может случайно «отключаться». Как ни странно, такой шум иногда улучшает работу сети.

Взаимодействие нелинейности и случайности создает крайне сложное поведение, которое трудно предсказать, — говорит Докманич. — Но мы знаем, что равномерное распределение разделения данных между слоями повышает эффективность.

Чтобы разобраться, ученые вдохновились физикой и создали механические аналоги обучения.

Растягивая и тряся рулетку

Одна из моделей — рулетка с подвижными секциями, где каждый сегмент соответствует слою сети. Если медленно тянуть за конец, раскрываются только первые секции — это аналог сети, где данные разделяются в начальных слоях. Если же дергать резко и слегка трясти, рулетка раскрывается равномерно — как сеть с одинаковым вкладом всех слоев.

Мы смоделировали похожие системы с блоками на пружинах, и результаты поразительно совпали с поведением реальных нейросетей, — говорит Ченг Ши, аспирант в группе Докманича.

Теперь метод хотят применить к большим языковым моделям. В будущем такие механические аналоги помогут настраивать нейросети без долгих проб и ошибок.

Главное преимущество работы — упрощение настройки нейросетей. Сейчас подбор параметров (например, уровня шума или степени нелинейности) часто делают наугад, что требует огромных вычислительных затрат. Если механические аналоги позволят заранее предсказывать оптимальные настройки, это сократит время и энергию на обучение моделей. Особенно ценно для:

  • Энергоэффективности: обучение крупных моделей вроде GPT-3 потребляет мегаватты энергии.
  • Малых устройств: можно создавать компактные сети для смартфонов или датчиков.
  • Интерпретируемости: проще объяснить, почему сеть принимает те или иные решения.

Модель пока проверена на относительно простых задачах (например, классификация изображений). Но в реальных сценариях — таких как генерация текста или анализ видео — нейросети сталкиваются с куда более сложными закономерностями. Не факт, что механические аналоги смогут адекватно описать их поведение. Кроме того, в работе не учтены архитектурные особенности современных сетей (например, внимание в трансформерах), которые могут нарушить предсказания модели.

Ранее ученые выяснили, что помогает ИИ резко поумнеть.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT


Лента новостей

Пресс-релизы