Новую модель для графической нейросети сделают доступной для смартфонов

Среди множества моделей искусственного интеллекта и машинного обучения, доступных сегодня для перевода изображений, модели перевода изображений с помощью генеративных адверсарных сетей могут изменять стиль изображений.

Эти модели работают на основе двух входных изображений: изображения контента, которое изменяется в соответствии со стилем эталонного изображения. Эти модели используются для таких задач, как преобразование изображений в различные художественные стили, моделирование погодных изменений, улучшение разрешения спутникового видео и помощь автономным транспортным средствам в распознавании различных условий освещения, таких как день и ночь.

Теперь исследователи из Софийского университета разработали модель, которая позволяет снизить вычислительные требования, необходимые для запуска этих моделей, что делает возможным их запуск на широком спектре устройств, включая смартфоны. В исследовании, опубликованном в IEEE Open Journal of the Computer Society 25 сентября 2024 года, доцент Рина О и профессор Тад Гонсалвес с факультета информационных и коммуникационных наук Софийского университета предложили модель «однопоточного перевода изображения в изображение (SSIT)», которая использует только один кодер для выполнения этого преобразования.

Обычно для «понимания» изображений в моделях перевода с изображения на изображение требуется два кодера — один для изображения содержания и один для изображения стиля. Эти кодировщики преобразуют изображения содержания и стиля в числовые значения (пространство признаков), которые представляют ключевые аспекты изображения, такие как цвет, объекты и другие особенности. Затем декодер берет объединенные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем.

В отличие от этого, SSIT использует один кодировщик для извлечения пространственных характеристик, таких как формы, границы объектов и макеты изображения содержания. Для изображения стиля модель использует прямую адаптивную нормализацию экземпляров с пулингом (DAdaINP), которая захватывает ключевые детали стиля, такие как цвета и текстуры, фокусируясь на наиболее заметных особенностях для повышения эффективности. Затем декодер берет комбинированные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем.

Профессор О говорит:

Мы реализовали модель перевода изображения в изображение, которая выполняет преобразование стиля с меньшими вычислительными затратами на GPU, обращаясь при этом к входным изображениям стиля. В отличие от предыдущих подобных моделей, наш подход использует пулинг и деформируемую свертку для эффективного извлечения стилевых особенностей, что обеспечивает высококачественное преобразование стиля при снижении вычислительных затрат и сохранении пространственных особенностей в изображениях контента.

Модель обучается с помощью состязательного обучения, при котором сгенерированные изображения оцениваются дискриминатором с трансформатором зрения, который улавливает паттерны в изображениях. Дискриминатор оценивает, являются ли сгенерированные изображения настоящими или поддельными, сравнивая их с целевыми изображениями, а генератор учится создавать изображения, которые могут обмануть дискриминатор.

Используя модель, исследователи выполнили три типа задач по трансформации изображений. Первая включала в себя сезонную трансформацию, когда пейзажные фотографии преобразовывались из летних в зимние и наоборот. Вторая задача — преобразование фотографий в произведения искусства, в ходе которого пейзажные фотографии преобразовывались в известные художественные стили, такие как Пикассо, Моне или аниме. Третья задача была направлена на перевод времени и погоды для вождения, где изображения, снятые с передней части автомобиля, изменялись для имитации различных условий, таких как переход от дня к ночи или от солнечной погоды к дождливой.

Во всех этих задачах модель показала лучшие результаты, чем пять других GAN-моделей (а именно NST, CNNMRF, MUNIT, GDWCT и TSIT), с более низкими показателями Fréchet Inception Distance и Kernel Inception Distance. Это свидетельствует о том, что сгенерированные изображения были похожи на целевые стили и лучше воспроизводили цвета и художественные детали.

Наш генератор смог сократить вычислительные затраты и количество FLOP по сравнению с другими моделями, потому что мы использовали единый кодер, состоящий из нескольких слоев свертки только для изображения контента, и разместили слои объединения для извлечения особенностей стиля в разных ракурсах вместо слоев свертки, — говорит профессор О.

В долгосрочной перспективе модель SSIT способна демократизировать процесс преобразования изображений, сделав его доступным для использования на таких устройствах, как смартфоны или персональные компьютеры. Это позволит пользователям из различных областей, включая цифровое искусство, дизайн и научные исследования, создавать высококачественные преобразования изображений, не прибегая к дорогостоящему оборудованию или облачным сервисам.

Ранее стало известно, что 62% представителей бизнеса готовы поощрять сотрудников за использование нейросетей.

16.12.2024

Net&IT

Создана нейросеть для тестирования интерфейсов: как это работает
Создана нейросеть для тестирования интерфейсов: как это работает

Каждый день миллионы людей покупают товары, оп...

Диагноз от ChatGPT: почти как у терапевта, но без очереди
Диагноз от ChatGPT: почти как у терапевта, но без очереди

Использование генеративного ИИ для д...

Облака вместо складов: как ритейл выжимает максимум из цифры
Облака вместо складов: как ритейл выжимает максимум из цифры

Владимир Лебедев, директор по развитию би...

ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?
ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?

Если вы из 1,5 миллиарда пользовател...

ИИ на акустических волнах: тише едешь — дальше будешь
ИИ на акустических волнах: тише едешь — дальше будешь

Искусственный интеллект уже меняет нашу ж...

Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть
Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть

Эксперт по цифровым стратегиям Джулио Тос...

Море данных: физики доверили расчет жидкости ИИ
Море данных: физики доверили расчет жидкости ИИ

Искусственный интеллект уже изменил общес

Не биты, а кубиты: квантовые компьютеры играют в другой лиге
Не биты, а кубиты: квантовые компьютеры играют в другой лиге

Современные компьютеры, от смартфонов до&...

Квантовый мост: ученые соединили микроволны и свет в одном чипе
Квантовый мост: ученые соединили микроволны и свет в одном чипе

Физики из Гарвардской школы инженерии и&n...

40 000 точек вместо 12: наука усовершенствует слежение за взглядом
40 000 точек вместо 12: наука усовершенствует слежение за взглядом

Ученые из Университета Аризоны придумали,...

ИИ наступает: какие профессии выживут, а какие сдадут позиции
ИИ наступает: какие профессии выживут, а какие сдадут позиции

С каждым годом искусственный интеллект станови...

Защита на опережение: почему мир переходит на новое шифрование HQC
Защита на опережение: почему мир переходит на новое шифрование HQC

Национальный институт стандартов и технол...

Не просто облака, а целая экосистема: бизнес переосмыслил IT
Не просто облака, а целая экосистема: бизнес переосмыслил IT

Российский облачный рынок не просто расте...

Фотоны вместо битов: ученые придумали новый способ защиты данных
Фотоны вместо битов: ученые придумали новый способ защиты данных

Ученые из Пензенского государственного ун...

Сила света: ученые открыли новый способ хранения информации
Сила света: ученые открыли новый способ хранения информации

Ученые из Санкт-Петербургского государств...

ИИ после ChatGPT: куда движется искусственный интеллект
ИИ после ChatGPT: куда движется искусственный интеллект

В журнале Engineering недавно вышла статья, гд...

Индивидуальный подход в облаке: тренды 2025 года
Индивидуальный подход в облаке: тренды 2025 года

В 2025 году бизнес в России предъявляет н...

Облака под замком: как защитить данные в эпоху цифровых угроз
Облака под замком: как защитить данные в эпоху цифровых угроз

Международный облачный провайдер Serverspace п...

Машины, которые видят, слышат и создают: как ИИ меняет реальность
Машины, которые видят, слышат и создают: как ИИ меняет реальность

В последние десятилетия технологии сильно изме...

Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня
Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня

Ученые придумали новый способ обучать нейронны...

Облака на заказ: как бизнес находит идеальные IT-решения
Облака на заказ: как бизнес находит идеальные IT-решения

В 2025 году крупный и средний бизнес все&...

ИИ не создает неравенство — он учится ему у нас
ИИ не создает неравенство — он учится ему у нас

Исследователи говорят, что предвзятость И...

Меньше затрат, больше возможностей: как облака помогают бизнесу расти
Меньше затрат, больше возможностей: как облака помогают бизнесу расти

Облачные технологии помогают компаниям быстро ...

Казак, любовь и политика: как Кирша изменил историю России
Казак, любовь и политика: как Кирша изменил историю России

Сайберия Нова начала работу над дополнени...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Когда руки говорят быстрее слов: как мозг читает жесты
Когда руки говорят быстрее слов: как мозг читает жесты
Подростки, которые спят дольше, имеют лучшую память
Подростки, которые спят дольше, имеют лучшую память
Как солнечные панели и сельское хозяйство могут работать вместе
Как солнечные панели и сельское хозяйство могут работать вместе
Шьем объем: как с помощью швейной машинки создают мебель
Шьем объем: как с помощью швейной машинки создают мебель
Последние дни далекого мира: астрономы увидели, как планета превращается в пыль
Последние дни далекого мира: астрономы увидели, как планета превращается в пыль
Собака: друг, ребенок или подчиненный? Что наука знает о настоящей роли питомцев
Собака: друг, ребенок или подчиненный? Что наука знает о настоящей роли питомцев
Новый метод предсказывает стабильность кристаллических форм
Новый метод предсказывает стабильность кристаллических форм
Почти у половины онкобольных после химиотерапии страдает сердце
Почти у половины онкобольных после химиотерапии страдает сердце
Слепые пятна науки: почему мы теряем насекомых быстрее, чем это осознаем
Слепые пятна науки: почему мы теряем насекомых быстрее, чем это осознаем
«Нет» — самое экологичное слово: как одноразовый пластик душит планету
«Нет» — самое экологичное слово: как одноразовый пластик душит планету
Ученые улучшили катализатор для добычи водорода
Ученые улучшили катализатор для добычи водорода
Доказано: фастфуд вредит не только фигуре, но и мозгу
Доказано: фастфуд вредит не только фигуре, но и мозгу
Двухколесный мозг: студенты МИФИ за три дня собрали робота с нуля
Двухколесный мозг: студенты МИФИ за три дня собрали робота с нуля
Сердце на грани: как предсказать опасность после инфаркта
Сердце на грани: как предсказать опасность после инфаркта
Psychedelics: Одна доза психоделика улучшает работу мозга на недели
Psychedelics: Одна доза психоделика улучшает работу мозга на недели

Новости компаний, релизы

«Точки роста» в действии: как школы Симферопольского района перестали быть скучными
Крипта для людей: почему сложные сервисы теряют пользователей
Не успеешь моргнуть — WhisperX уже расшифровал: тест скорости от Ainergy
«Очпочдрон» взял первенство: как казанцы обошли всех на «Кибердроме»
Оперировать в VR: студенты придумали симулятор для хирургов