Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления. Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений. Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума. Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion. Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон. Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми. Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения. Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.
По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения. Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам. В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз. Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения. Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности. ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время. Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения. 14.09.2024 |
Net&IT
В МФТИ разрабатывают приложение для планирования рабочего времени репетиторов | |
Студентка кафедры технологии будущего МФТИ Тат... |
FCS: Квантовые компьютеры ускоряют решение задач с матроидами | |
Квантовые компьютеры работают быстрее классиче... |
GATech: Расширения для браузеров ставят под угрозу данные пользователей | |
Расширения для браузеров пользуются огром... |
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом | |
Генеративный искусственный интеллект часто оши... |
IEEE TSP: Низкоорбитальные спутники можно сделать высокопроизводительными | |
Спутники на низкой орбите смогут обеспечи... |
Выпускница ЛЭТИ разработала ПО для подбора сотрудников в соцсетях | |
Приложение на основе нейросети поможет из... |
FBINF: Искать триггеры рака стало проще — на помощь пришел компьютерный алгоритм | |
Компьютерный алгоритм помогает находить генети... |
Разработан метод улучшения изображения, полученного при низкой освещенности | |
С развитием интеллектуальной эры все ... |
Nature Machine Intelligence: Генеративный ИИ берется за прогнозы в онкологии | |
Учёные из университетов Лозанны и Бе... |
Разработчик рассказал, когда искусственный интеллект превзойдет человеческий | |
Аналитик Эйтан Майкл Азофф считает, что л... |
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья | |
Новое приложение с искусственным интеллек... |
В ЛЭТИ разработали ПО для поисковых и спасательных дронов с компьютерным зрением | |
Учёные разрабатывают ПО, которое позволит дрон... |
В Киберателье УГНТУ создали «умную» одежду для работников нефтегазовой отрасли | |
Куртки с датчиками, изготовленные в ... |
В МТУСИ предложили усовершенствовать процессы SAST | |
Миллионы людей по всему миру ежедневно по... |
Radiology: ChatGPT не справился с интерпретацией радиологических снимков | |
Исследователи выяснили, что ChatGPT-4 Vis... |
Лабораторию цифровых двойников геосистем открыли в СПбГУТ | |
В Санкт-Петербургском университете телекоммуни... |
PNAS: Появилось новое решение одной из 10 самых известных проблем в информатике | |
Когда вы вызываете машину через приложени... |
Nature: Эксперимент провалился — ИИ не способен проводить лабораторные работы | |
Большая языковая модель может многое: читать л... |
IJHCS: Пожилые хуже справляются с простыми задачами на компьютере | |
Исследование показало, что интеллект игра... |
MIT: Данным для обучения больших языковых моделей часто не хватает прозрачности | |
Исследователи создали простой инструмент, кото... |
Раскрыт потенциал связи 6G с помощью нового поляризационного мультиплексора | |
Терагерцовая связь — это новый... |
ИИ помогает контролировать землепользование и пресекать самострой в Москве | |
С начала года в столице с помощью ци... |
Autism: Игра Dungeons & Dragons помогает аутистам обрести уверенность в себе | |
Dungeons and Dragons — популярная р... |
Nature: Лестничные молекулы улучшают проводимость в молекулярных соединениях | |
Размеры электронных устройств становятся всё&n... |
MIT: Создан алгоритм квантового компьютера для взлома криптосистемы RSA | |
Исследователи предлагают новый способ создания... |
Science: ИИ решает одну из самых сложных задач в квантовой химии | |
Учёные из Имперского колледжа Лондона и&n... |
CRPS: Гидрогель научили играть в пинг-понг, и он делает это как живой | |
Команда под руководством доктора Йошикацу... |
European Radiology: ИИ может заменить ординатора, но не опытного врача | |
В радиологии для интерпретации результато... |
Магистрант МАИ обучил нейронную сеть оптимизировать производство | |
Студент МАИ Семён Беляев предложил способ... |
Nature Reviews Materials: В поиске полимера будущего поможет ИИ | |
Нейлон, тефлон, кевлар — это л... |