Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления.

Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений.

Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума.

Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion.

Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон.

Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми.

Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения.

Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.

Эту проблему можно решить, если обучить модель на большем количестве изображений. Но это дорого и требует огромных вычислительных мощностей — сотен или даже тысяч графических процессоров, — говорит Ордоньес-Роман.

По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения.

Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам.

В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз.

Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения.

Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности.

ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время.

Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения.

14.09.2024

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

ИИ предупреждает поломки в системах связи
ИИ предупреждает поломки в системах связи

Российские инженеры из компании Lauf...

Код под прикрытием: как ИИ-ассистент банка ловит баги на лету
Код под прикрытием: как ИИ-ассистент банка ловит баги на лету

Т-Банк создал первого в России ИИ-ассисте...

Сговор машин: что происходит, когда ChatGPT общается с себе подобными
Сговор машин: что происходит, когда ChatGPT общается с себе подобными

Новое исследование показало, что искусств...

Из слов в объем: Kandinsky 3D лепит модели на лету
Из слов в объем: Kandinsky 3D лепит модели на лету

Дизайнеры, инженеры, архитекторы — ...

Лишние узлы — долой: нейросеть научилась видеть главное в графах
Лишние узлы — долой: нейросеть научилась видеть главное в графах

Исследователи из Университета Кумамото ра...

Как ИИ выкручивается, когда не знает языковых правил
Как ИИ выкручивается, когда не знает языковых правил

Исследователи из Оксфорда и Allen In...

Банк для бизнеса доступен на российской мобильной ОС
Банк для бизнеса доступен на российской мобильной ОС

СберБизнес — мобильное приложение д...

От частного к общему: как алгоритмы учатся видеть связи между словами
От частного к общему: как алгоритмы учатся видеть связи между словами

В мире обработки естественного языка есть две&...

Заговор в пудре и шелках: как выжить при дворе Елизаветы Петровны
Заговор в пудре и шелках: как выжить при дворе Елизаветы Петровны

Студия Много Много игр выпустила новую ви...

Опасен ли искусственный интеллект для человечества
Опасен ли искусственный интеллект для человечества

Искусственный интеллект перестал быть фантасти...

Люди с ограниченной подвижностью смогут играть в VR
Люди с ограниченной подвижностью смогут играть в VR

Команда исследователей из Университета Ва...

Почти идеально: как квантовые компьютеры обходят суперкомпьютеры
Почти идеально: как квантовые компьютеры обходят суперкомпьютеры

Квантовые компьютеры могут решать задачи оптим...

Дипфейки научились дышать: как подделки имитируют сердцебиение
Дипфейки научились дышать: как подделки имитируют сердцебиение

Представьте мир, где дипфейки стали насто...

ИИ анализирует цветение злаков без помощи человека
ИИ анализирует цветение злаков без помощи человека

Ученые создали алгоритм, который учится сам&nb...

Социальный провал: как ИИ путает разговор с переходом улицы
Социальный провал: как ИИ путает разговор с переходом улицы

Оказывается, люди пока разбираются в соци...

Создана нейросеть для тестирования интерфейсов: как это работает
Создана нейросеть для тестирования интерфейсов: как это работает

Каждый день миллионы людей покупают товары, оп...

Диагноз от ChatGPT: почти как у терапевта, но без очереди
Диагноз от ChatGPT: почти как у терапевта, но без очереди

Использование генеративного ИИ для д...

Облака вместо складов: как ритейл выжимает максимум из цифры
Облака вместо складов: как ритейл выжимает максимум из цифры

Владимир Лебедев, директор по развитию би...

ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?
ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?

Если вы из 1,5 миллиарда пользовател...

ИИ на акустических волнах: тише едешь — дальше будешь
ИИ на акустических волнах: тише едешь — дальше будешь

Искусственный интеллект уже меняет нашу ж...

Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть
Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть

Эксперт по цифровым стратегиям Джулио Тос...

Море данных: физики доверили расчет жидкости ИИ
Море данных: физики доверили расчет жидкости ИИ

Искусственный интеллект уже изменил общес

Не биты, а кубиты: квантовые компьютеры играют в другой лиге
Не биты, а кубиты: квантовые компьютеры играют в другой лиге

Современные компьютеры, от смартфонов до&...

Поиск на сайте

ТОП - Новости мира, инновации

Почему созерцание сада успокаивает: объяснение ученых
Почему созерцание сада успокаивает: объяснение ученых
Ученые впервые смоделировали химические реакции на квантовом компьютере
Ученые впервые смоделировали химические реакции на квантовом компьютере
Прошла первая пересадка стволовых клеток от умершего донора пациенту с лейкозом
Прошла первая пересадка стволовых клеток от умершего донора пациенту с лейкозом
ИИ предупреждает поломки в системах связи
ИИ предупреждает поломки в системах связи
Ученые нашли в данных 30-летней давности тектонический пульс Венеры
Ученые нашли в данных 30-летней давности тектонический пульс Венеры
Новый метод терапии СМА работает безопасно и заранее — еще в утробе
Новый метод терапии СМА работает безопасно и заранее — еще в утробе
Приватность — не священная корова: что показал эксперимент MIT
Приватность — не священная корова: что показал эксперимент MIT
МРТ сердца выявляет скрытую генетическую болезнь
МРТ сердца выявляет скрытую генетическую болезнь
Наночастицы усиливают ультразвуковое разрушение опухоли
Наночастицы усиливают ультразвуковое разрушение опухоли
Загрязнение воздуха повышает риск эпилепсии
Загрязнение воздуха повышает риск эпилепсии

Новости компаний, релизы

От школьных проектов до заводских решений: чем живет нефтехимия в Нижнекамске
Три кита стабильности и цифровой рубль: о чем говорили на Альфа-Саммите
Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку