Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления. Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений. Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума. Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion. Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон. Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми. Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения. Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.
По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения. Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам. В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз. Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения. Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности. ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время. Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения. 14.09.2024 |
Net&IT
Nature Communications: Ученые придумали способ ускорить разработку лекарств | |
Способ улучшить квантовые компьютеры для ... |
PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных | |
Поскольку наш цифровой мир создаёт о... |
В МФТИ создали ПО для нефтяников и золотодобытчиков | |
Сотрудники МФТИ предложили цифровое решение, к... |
В КФУ создали программу для определения свойств многокомпонентных материалов | |
Учёные вуза с помощью ИИ разработали... |
В России создали систему коррекции волнового фронта для квантовой связи | |
Ученые МТУСИ и ИДГ РАН разработ... |
MIT: Новый протокол безопасности защищает данные в облаке от злоумышленников | |
Модели глубокого обучения используются в ... |
Эксперт объяснил, как ИИ меняет творческий процесс в индустрии моды | |
Александр Бутаков, продюсер и специалист ... |
Студенты КНИТУ создали двуязычного ИИ-бота для туристов | |
Студенты КНИТУ создали туристического бота с&n... |
NatComm: С помощью ИИ найдено лучшее решение для хранения энергии | |
Найти иголку в стоге сена — пр... |
ACS Photonics: Разработаны улучшенные очки дополненной реальности | |
Дополненная реальность накладывает цифровые из... |
Journal of Consumer Affairs: Трекеры активности могут сформировать зависимость | |
Технологии для профилактики здоровья, так... |
Испытание лекарств на кардиотоксичность с помощью нейросетей предложили в МФТИ | |
Новый метод позволяет обнаружить потенциально ... |
В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов | |
Информационная безопасность веб-приложений&nbs... |
В МФТИ разрабатывают приложение для планирования рабочего времени репетиторов | |
Студентка кафедры технологии будущего МФТИ Тат... |
FCS: Квантовые компьютеры ускоряют решение задач с матроидами | |
Квантовые компьютеры работают быстрее классиче... |
GATech: Расширения для браузеров ставят под угрозу данные пользователей | |
Расширения для браузеров пользуются огром... |
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом | |
Генеративный искусственный интеллект часто оши... |
IEEE TSP: Низкоорбитальные спутники можно сделать высокопроизводительными | |
Спутники на низкой орбите смогут обеспечи... |
Выпускница ЛЭТИ разработала ПО для подбора сотрудников в соцсетях | |
Приложение на основе нейросети поможет из... |
FBINF: Искать триггеры рака стало проще — на помощь пришел компьютерный алгоритм | |
Компьютерный алгоритм помогает находить генети... |
Разработан метод улучшения изображения, полученного при низкой освещенности | |
С развитием интеллектуальной эры все ... |
Nature Machine Intelligence: Генеративный ИИ берется за прогнозы в онкологии | |
Учёные из университетов Лозанны и Бе... |
Разработчик рассказал, когда искусственный интеллект превзойдет человеческий | |
Аналитик Эйтан Майкл Азофф считает, что л... |
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья | |
Новое приложение с искусственным интеллек... |
В ЛЭТИ разработали ПО для поисковых и спасательных дронов с компьютерным зрением | |
Учёные разрабатывают ПО, которое позволит дрон... |
В Киберателье УГНТУ создали «умную» одежду для работников нефтегазовой отрасли | |
Куртки с датчиками, изготовленные в ... |
В МТУСИ предложили усовершенствовать процессы SAST | |
Миллионы людей по всему миру ежедневно по... |
Radiology: ChatGPT не справился с интерпретацией радиологических снимков | |
Исследователи выяснили, что ChatGPT-4 Vis... |
Лабораторию цифровых двойников геосистем открыли в СПбГУТ | |
В Санкт-Петербургском университете телекоммуни... |
PNAS: Появилось новое решение одной из 10 самых известных проблем в информатике | |
Когда вы вызываете машину через приложени... |