Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления.

Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений.

Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума.

Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion.

Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон.

Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми.

Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения.

Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.

Эту проблему можно решить, если обучить модель на большем количестве изображений. Но это дорого и требует огромных вычислительных мощностей — сотен или даже тысяч графических процессоров, — говорит Ордоньес-Роман.

По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения.

Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам.

В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз.

Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения.

Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности.

ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время.

Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения.

14.09.2024


Подписаться в Telegram



Net&IT

Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса

Благодаря новым технологиям искусственный инте...

Челябинские ученые сделают коммунальные машины автономными
Челябинские ученые сделают коммунальные машины автономными

Программу для управления техникой, котора...

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками
Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной
Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме

Технологические корпорации всё чаще обращ...

HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому

В исследовании Имперского колледжа Лондона люд...

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Внеклеточные везикулы — новое слово в лечении воспалительных заболеваний кишечника
Внеклеточные везикулы — новое слово в лечении воспалительных заболеваний кишечника
The American Journal of Human Genetics: Бесплодие может быть вызвано мутацией
The American Journal of Human Genetics: Бесплодие может быть вызвано мутацией
Surfaces and Interfaces: Куркума и серебро на мембранах стерилизуют вирусы
Surfaces and Interfaces: Куркума и серебро на мембранах стерилизуют вирусы
1 укол вместо 15: в Челябинске предложили революционный метод лечения рака
1 укол вместо 15: в Челябинске предложили революционный метод лечения рака
Ученые из Новосибирска установили возраст шерсти детеныша саблезубой кошки
Ученые из Новосибирска установили возраст шерсти детеныша саблезубой кошки
Исследована двойная роль клеточного регулятора CED-9 в апоптозе
Исследована двойная роль клеточного регулятора CED-9 в апоптозе
Челябинские ученые создали систему управления объектами электроэнергетики
Челябинские ученые создали систему управления объектами электроэнергетики
PRL: Физики объяснили, как работает дробный заряд в пентаслойном графене
PRL: Физики объяснили, как работает дробный заряд в пентаслойном графене
Frontiers in Physiology: Космонавты обычно немного «тормозят» из-за стресса
Frontiers in Physiology: Космонавты обычно немного «тормозят» из-за стресса
PF: Семена чампати помогут физикам лучше понять оползни и каменные лавины
PF: Семена чампати помогут физикам лучше понять оползни и каменные лавины
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика
Ученые СПбГУ и Сколтеха открыли секрет появления цыпленка
Ученые СПбГУ и Сколтеха открыли секрет появления цыпленка
NF: Выравнивание спина для термоядерного топлива удешевит ядерную энергию
NF: Выравнивание спина для термоядерного топлива удешевит ядерную энергию
JACS: Открыт новый тип наночастиц гидрида палладия, которые запирают водород
JACS: Открыт новый тип наночастиц гидрида палладия, которые запирают водород
Ученые Пермского Политеха разработали новый способ печати стентов
Ученые Пермского Политеха разработали новый способ печати стентов

Новости компаний, релизы

3D-печать: от самых смелых концепций до твердой реальности
КНИТУ вошёл в тройку лидеров по количеству перспективных российских стартапов
В ПсковГУ состоялось открытие научно-образовательной лаборатории «Когнитивное развитие в образовании»
Квантовая неделя в Санкт-Петербурге пройдет на площадке СПбГУ
Пироговская олимпиада для школьников по химии и биологии