Среди множества моделей искусственного интеллекта и машинного обучения, доступных сегодня для перевода изображений, модели перевода изображений с помощью генеративных адверсарных сетей могут изменять стиль изображений. Эти модели работают на основе двух входных изображений: изображения контента, которое изменяется в соответствии со стилем эталонного изображения. Эти модели используются для таких задач, как преобразование изображений в различные художественные стили, моделирование погодных изменений, улучшение разрешения спутникового видео и помощь автономным транспортным средствам в распознавании различных условий освещения, таких как день и ночь. Теперь исследователи из Софийского университета разработали модель, которая позволяет снизить вычислительные требования, необходимые для запуска этих моделей, что делает возможным их запуск на широком спектре устройств, включая смартфоны. В исследовании, опубликованном в IEEE Open Journal of the Computer Society 25 сентября 2024 года, доцент Рина О и профессор Тад Гонсалвес с факультета информационных и коммуникационных наук Софийского университета предложили модель «однопоточного перевода изображения в изображение (SSIT)», которая использует только один кодер для выполнения этого преобразования. Обычно для «понимания» изображений в моделях перевода с изображения на изображение требуется два кодера — один для изображения содержания и один для изображения стиля. Эти кодировщики преобразуют изображения содержания и стиля в числовые значения (пространство признаков), которые представляют ключевые аспекты изображения, такие как цвет, объекты и другие особенности. Затем декодер берет объединенные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем. В отличие от этого, SSIT использует один кодировщик для извлечения пространственных характеристик, таких как формы, границы объектов и макеты изображения содержания. Для изображения стиля модель использует прямую адаптивную нормализацию экземпляров с пулингом (DAdaINP), которая захватывает ключевые детали стиля, такие как цвета и текстуры, фокусируясь на наиболее заметных особенностях для повышения эффективности. Затем декодер берет комбинированные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем. Профессор О говорит:
Модель обучается с помощью состязательного обучения, при котором сгенерированные изображения оцениваются дискриминатором с трансформатором зрения, который улавливает паттерны в изображениях. Дискриминатор оценивает, являются ли сгенерированные изображения настоящими или поддельными, сравнивая их с целевыми изображениями, а генератор учится создавать изображения, которые могут обмануть дискриминатор. Используя модель, исследователи выполнили три типа задач по трансформации изображений. Первая включала в себя сезонную трансформацию, когда пейзажные фотографии преобразовывались из летних в зимние и наоборот. Вторая задача — преобразование фотографий в произведения искусства, в ходе которого пейзажные фотографии преобразовывались в известные художественные стили, такие как Пикассо, Моне или аниме. Третья задача была направлена на перевод времени и погоды для вождения, где изображения, снятые с передней части автомобиля, изменялись для имитации различных условий, таких как переход от дня к ночи или от солнечной погоды к дождливой. Во всех этих задачах модель показала лучшие результаты, чем пять других GAN-моделей (а именно NST, CNNMRF, MUNIT, GDWCT и TSIT), с более низкими показателями Fréchet Inception Distance и Kernel Inception Distance. Это свидетельствует о том, что сгенерированные изображения были похожи на целевые стили и лучше воспроизводили цвета и художественные детали.
В долгосрочной перспективе модель SSIT способна демократизировать процесс преобразования изображений, сделав его доступным для использования на таких устройствах, как смартфоны или персональные компьютеры. Это позволит пользователям из различных областей, включая цифровое искусство, дизайн и научные исследования, создавать высококачественные преобразования изображений, не прибегая к дорогостоящему оборудованию или облачным сервисам. Ранее стало известно, что 62% представителей бизнеса готовы поощрять сотрудников за использование нейросетей. 16.12.2024 |
Net&IT
Новую модель для графической нейросети сделают доступной для смартфонов | |
Среди множества моделей искусственного интелле... |
В ННГУ научились восстанавливать функции биологических нейросетей | |
Новую технологию, которая работает подобно кле... |
В ЛЭТИ разработали цифровой сервис с VR для обучения медицинских инженеров | |
Система SeVRis позволит инженерам учиться ремо... |
Scientific Reports: Разработано подвижное навигационное устройство для незрячих | |
Новаторская навигационная технология, использу... |
В МИФИ разработана нейросеть для расчета и синтеза голографических изображений | |
Обычно для создания оптических элементов,... |
NCS: Новый ИИ DIMON решает сложные инженерные задачи быстрее суперкомпьютеров | |
Моделирование того, как деформируются авт... |
Nature Communications: Аналоговые машины тоже могут обучаться | |
Все думают, что машинное обучение &m... |
Nature Communications: ИИ изучает язык расположения атомов в твердых телах | |
Новую модель искусственного интеллекта, котора... |
Science: Создана революционная технология, которая переписывает ДНК | |
Брайан Хи руководит Лабораторией эволюцио... |
Мемристоры сделают компьютеры будущего умными, как мозг | |
Новое вещество для изменения работы устро... |
В Японии предложили способ усовершенствовать дополненную реальность на смартфоне | |
Приложения дополненной реальности, которые раб... |
В МФТИ создали бота для распознавания нот | |
Студенты МФТИ создали программу под назва... |
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика | |
Студент первого курса Московского Политеха Арт... |
Ученые рассказали об уязвимостях в системе безопасности медицинских ИТ | |
Сотрудники кафедры ИБ Московского Политех... |
EgoTouch управляет VR-миром с ладони — речь идет о новом уровне взаимодействия | |
В обычной жизни мы не хотим постоянн... |
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса | |
Благодаря новым технологиям искусственный инте... |
Челябинские ученые сделают коммунальные машины автономными | |
Программу для управления техникой, котора... |
Школьники создали для музея бота-проводника по коммуналкам и книгам Булгакова | |
Сегодня музейные чат-боты могут гораздо больше... |
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров | |
Студенты Университета управления ТИСБИ в ... |
Nature: Созданные ИИ тексты будут размечаться водяными знаками | |
Исследователи из лондонской лаборатории G... |
Российская игра о наполеоновских войнах станет бесплатной | |
У российской аудитории растет интерес к в |
Ученые МГУ с коллегами предложили новый подход для создания квантового интернета | |
Создать устройство для гибридных квантовы... |
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев» | |
В Новосибирском государственном университете з... |
Российские ученые создали расчетные модули для системы инженерного анализа | |
Ученые из нескольких научных организаций ... |
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме | |
Технологические корпорации всё чаще обращ... |
По событиям Смутного времени создадут игру — интерактивную новеллу | |
Компания Сайберия Нова и создатели игры С... |
JCM: ИИ быстрее человека определяет устойчивость бактерий к антибиотикам | |
Искусственный интеллект для поиска бактер... |
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому | |
В исследовании Имперского колледжа Лондона люд... |
В России создана нейросеть для оценки отторжения пересаженной почки | |
ИИ-модель, которая с помощью компьютерног... |
UIST: Приложение для смартфона делает захват движений тела в реальном времени | |
Инженеры Северо-Западного университета создали... |