Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления. Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений. Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума. Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion. Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон. Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми. Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения. Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.
По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения. Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам. В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз. Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения. Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности. ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время. Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения. 14.09.2024 |
Net&IT
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика | |
Студент первого курса Московского Политеха Арт... |
Ученые рассказали об уязвимостях в системе безопасности медицинских ИТ | |
Сотрудники кафедры ИБ Московского Политех... |
EgoTouch управляет VR-миром с ладони — речь идет о новом уровне взаимодействия | |
В обычной жизни мы не хотим постоянн... |
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса | |
Благодаря новым технологиям искусственный инте... |
Челябинские ученые сделают коммунальные машины автономными | |
Программу для управления техникой, котора... |
Школьники создали для музея бота-проводника по коммуналкам и книгам Булгакова | |
Сегодня музейные чат-боты могут гораздо больше... |
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров | |
Студенты Университета управления ТИСБИ в ... |
Nature: Созданные ИИ тексты будут размечаться водяными знаками | |
Исследователи из лондонской лаборатории G... |
Российская игра о наполеоновских войнах станет бесплатной | |
У российской аудитории растет интерес к в |
Ученые МГУ с коллегами предложили новый подход для создания квантового интернета | |
Создать устройство для гибридных квантовы... |
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев» | |
В Новосибирском государственном университете з... |
Российские ученые создали расчетные модули для системы инженерного анализа | |
Ученые из нескольких научных организаций ... |
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме | |
Технологические корпорации всё чаще обращ... |
По событиям Смутного времени создадут игру — интерактивную новеллу | |
Компания Сайберия Нова и создатели игры С... |
JCM: ИИ быстрее человека определяет устойчивость бактерий к антибиотикам | |
Искусственный интеллект для поиска бактер... |
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому | |
В исследовании Имперского колледжа Лондона люд... |
В России создана нейросеть для оценки отторжения пересаженной почки | |
ИИ-модель, которая с помощью компьютерног... |
UIST: Приложение для смартфона делает захват движений тела в реальном времени | |
Инженеры Северо-Западного университета создали... |
PNAS Nexus: Разработана система мониторинга усталости рабочих на производстве | |
Новая разработка, система датчиков и маши... |
В СПбГУ с помощью ИИ создали систему распознавания нейротропных препаратов | |
Новую систему для скрининга нейротропных ... |
NatPhys: Поиск ошибок в процессоре поможет создать надежный квантовый компьютер | |
Чтобы достичь выдающихся результатов, квантовы... |
Новые ИИ-модели нагрева плазмы исправляют вычисления термоядерных исследований | |
Новые модели искусственного интеллекта для&nbs... |
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях | |
Два новых приложения помогут слепым людям орие... |
Nature Communications: Ученые придумали способ ускорить разработку лекарств | |
Способ улучшить квантовые компьютеры для ... |
PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных | |
Поскольку наш цифровой мир создаёт о... |
В МФТИ создали ПО для нефтяников и золотодобытчиков | |
Сотрудники МФТИ предложили цифровое решение, к... |
В КФУ создали программу для определения свойств многокомпонентных материалов | |
Учёные вуза с помощью ИИ разработали... |
В России создали систему коррекции волнового фронта для квантовой связи | |
Ученые МТУСИ и ИДГ РАН разработ... |
MIT: Новый протокол безопасности защищает данные в облаке от злоумышленников | |
Модели глубокого обучения используются в ... |
Эксперт объяснил, как ИИ меняет творческий процесс в индустрии моды | |
Александр Бутаков, продюсер и специалист ... |