Открыт новый способ резать питание внутри чипа
В мире нейросетевых ускорителей есть досадная проблема — часть вычислительных ячеек простаивает, но продолжает тянуть энергию.

Современные нейросетевые модели требуют огромных вычислительных ресурсов. Обычные процессоры с этой задачей справляются плохо — слишком много энергии тратят. Поэтому в глубоком обучении уже давно применяют специализированные ускорители. Среди них особое место занимают матричные умножители на основе систолических массивов. Представьте себе решетку из множества одинаковых вычислительных ячеек — каждая перемножает числа и передает результат соседней. Такая конструкция отлично подходит для умножения матриц, а это главная операция в любой нейросети.
Но у этой красоты есть две серьезные проблемы. Первая — энергопотребление. Особенно остро она стоит для устройств на краю сети (так называют компактную электронику вроде камер, датчиков, дронов или смартфонов), где каждый ватт на счету. Вторая проблема — неравномерная загрузка. Современные нейросети часто используют разреженные вычисления или слои разного размера, поэтому часть вычислительных ячеек внутри ускорителя простаивает. Формально они включены и едят энергию, но никакой полезной работы не делают. Классический систолический массив заточен под плотные, регулярные вычисления, и он не умеет гибко отключать простаивающие элементы.
Над решением этих задач работала международная команда исследователей. В неё вошли специалисты из Пакистана (Институт GIK и Университет наук и технологий), Испании (Барселонский суперкомпьютерный центр), Южной Кореи (Национальный университет Инчхона и компания Nextwave Inc.), а также Великобритании (Манчестерский столичный университет). Они опубликовали работу под названием «SAPER-AI accelerator: a systolic array-based power-efficient reconfigurable AI accelerator» в издании Frontiers of Information Technology & Electronic Engineering.

Главная находка разработчиков — грубозернистое отключение питания. Они применили стандартный язык описания энергопотребления (UPF), который позволяет задать, какие блоки микросхемы можно выключать, не переделывая всю архитектуру с нуля. Идея простая: ускоритель отключает целые строки и столбцы вычислительных ячеек в зависимости от того, сколько вычислений требует текущий слой нейросети. Задача большая — работает весь массив. Задача поменьше — часть массива отключается полностью, не потребляя энергию. Это не мелкие ухищрения на уровне отдельных транзисторов, а именно грубый, но эффективный метод.
Исследователи сделали две версии ускорителя — с сеткой 32 на 32 ячейки и с сеткой 64 на 64. Испытания проводили на двух известных нейросетях: MobileNet и ResNet50, обученных на наборе изображений ImageNet. Для оценки брали четыре показателя: мощность, производительность, площадь чипа и энергоэффективность (произведение мощности на задержку). Всё моделировали с помощью профессиональных инструментов Synopsys на 32-нанометровой технологии.
Что получилось в цифрах
Для версии 32×32 удалось сэкономить около 10% энергии на MobileNet и 12% на ResNet50 по сравнению с обычными ускорителями, где отключения ячеек нет. Для версии 64×64 экономия оказалась заметно выше — примерно 22% на MobileNet и 25% на ResNet50. Кроме того, показатель энергоэффективности (PDP) улучшился примерно на 6% для большого массива — чем крупнее сетка, тем выгоднее применять такое отключение.
Интересная деталь: ResNet50 показала себя лучше, чем MobileNet, на обоих размерах ускорителя. Причина в том, что свертки в ResNet50 более регулярные, они лучше ложатся на структуру систолического массива. С ростом размера сетки разрыв в эффективности только увеличивается.
Стоимость и доступность технологии
Подход достаточно дешёвый. Авторы не используют экзотических материалов или сложной литографии — обычная 32-нанометровая технология, которая давно освоена производством. Но есть нюанс: внедрение такого ускорителя требует перепроектирования чипа, а это услуги дорогих инженеров и лицензии на инструменты вроде Synopsys. Небольшие компании или любители не смогут просто скачать готовое решение. Однако если производитель уже делает систолические массивы (например, для нейросетевых ускорителей в телефонах или камерах), то добавить функцию отключения строк и столбцов — не самая затратная доработка.
Прорыв ли это
До этого исследования уже существовали методы тонкого отключения отдельных вычислительных ячеек, а также динамической регулировки тактовой частоты. Но отключение целыми строками и столбцами — не революция, а скорее аккуратный инженерный шаг. Авторы взяли известную идею грубозернистого управления питанием и адаптировали её специально под систолические массивы. Прорывом это назвать нельзя, потому что похожие подходы применялись в FPGA и некоторых GPU. Однако для массовых нейросетевых ускорителей именно такая конфигурация ранее не была детально проработана и протестирована на реальных моделях.
Этичность и возможный вред
Работа полностью этична. В ней нет ни биометрических данных, ни слежки, ни военных применений. Максимальный гипотетический вред — если более энергоэффективный ускоритель позволит создавать более мощные автономные системы (например, дроны или роботов), которые

Когда обычный человек сможет это испытать
Прямо сейчас — никак. Это исследовательский прототип, который существует только в виде моделей и синтезированных схем на компьютере. До реального чипа, который можно купить или потрогать, обычно проходит от двух до пяти лет при условии, что крупный производитель вроде Samsung, TSMC или Intel заинтересуется идеей. Скорее всего, первыми технологию увидят инженеры в составе систем-на-кристалле для смартфонов, камер видеонаблюдения или автомобильных помощников. Обычный пользователь не заметит этого напрямую — просто батарейка на устройстве станет держать заряд чуть дольше.
Сравнение с аналогами
Вот главные конкуренты:
- Обычный систолический массив без отключения питания — проще в проектировании, но заметно прожорливее (на 10–25% в зависимости от нагрузки)
- Ускорители на основе потоковой обработки данных (например, Google TPU первых версий) — они тоже используют систолические принципы, но без гибкого отключения строк
- Динамическое масштабирование напряжения и частоты — снижает энергопотребление плавно, но не так эффективно на простаивающих блоках, потому что даже на пониженной частоте ячейки продолжают потреблять энергию утечки
- Разреженные ускорители (например, Eyeriss) — они лучше работают с разреженными данными, но хуже на плотных матрицах, тогда как SAPER-AI сохраняет хорошую производительность на любых данных, просто отключая лишнее
В исследовании есть два слабых места.
- Во-первых, авторы сравнивают свой ускоритель с «не-power-aware» дизайном, но не уточняют, насколько тот дизайн вообще оптимизирован. Если базовый вариант сделан небрежно, то выигрыш может быть раздут. В серьёзных работах принято сравнивать с лучшим доступным аналогом, а не с заведомо плохим.
- Во-вторых, грубозернистое отключение строк и столбцов даёт выигрыш только тогда, когда простаивают целые непрерывные блоки. Если нейросеть требует вычислений в шахматном порядке или очень мелких фрагментов, отключать целые строки не получится — либо отключишь нужные ячейки, либо простаивающие останутся включёнными.
Авторы выбрали удобные для себя модели (MobileNet и ResNet50), но на более рваных нейросетях эффект может оказаться близким к нулю. Главный подвох: эффективность сильно зависит от формы вычислительного графа, и заранее это предсказать трудно.
Ранее нейросеть Сбера сдала экзамен по музыке и поступила в Гнесинку.


















