Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления.

Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений.

Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума.

Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion.

Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон.

Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми.

Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения.

Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.

Эту проблему можно решить, если обучить модель на большем количестве изображений. Но это дорого и требует огромных вычислительных мощностей — сотен или даже тысяч графических процессоров, — говорит Ордоньес-Роман.

По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения.

Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам.

В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз.

Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения.

Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности.

ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время.

Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения.

14.09.2024


Подписаться в Telegram



Net&IT

FCS: Квантовые компьютеры ускоряют решение задач с матроидами
FCS: Квантовые компьютеры ускоряют решение задач с матроидами

Квантовые компьютеры работают быстрее классиче...

Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто оши...

JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья

Новое приложение с искусственным интеллек...

В МТУСИ предложили усовершенствовать процессы SAST
В МТУСИ предложили усовершенствовать процессы SAST

Миллионы людей по всему миру ежедневно по...

Лабораторию цифровых двойников геосистем открыли в СПбГУТ
Лабораторию цифровых двойников геосистем открыли в СПбГУТ

В Санкт-Петербургском университете телекоммуни...

IJHCS: Пожилые хуже справляются с простыми задачами на компьютере
IJHCS: Пожилые хуже справляются с простыми задачами на компьютере

Исследование показало, что интеллект игра...

MIT: Создан алгоритм квантового компьютера для взлома криптосистемы RSA
MIT: Создан алгоритм квантового компьютера для взлома криптосистемы RSA

Исследователи предлагают новый способ создания...

Science: ИИ решает одну из самых сложных задач в квантовой химии
Science: ИИ решает одну из самых сложных задач в квантовой химии

Учёные из Имперского колледжа Лондона и&n...

CRPS: Гидрогель научили играть в пинг-понг, и он делает это как живой
CRPS: Гидрогель научили играть в пинг-понг, и он делает это как живой

Команда под руководством доктора Йошикацу...

European Radiology: ИИ может заменить ординатора, но не опытного врача
European Radiology: ИИ может заменить ординатора, но не опытного врача

В радиологии для интерпретации результато...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

AJPEM: Упражнения на выносливость позволяют сжигать жир, сохраняя вес
AJPEM: Упражнения на выносливость позволяют сжигать жир, сохраняя вес
eScience: С помощью реактивной химии ученые создали анод без дендритов
eScience: С помощью реактивной химии ученые создали анод без дендритов
В МФТИ разрабатывают приложение для планирования рабочего времени репетиторов
В МФТИ разрабатывают приложение для планирования рабочего времени репетиторов
Scientific Reports: Динго не имели отношения к собакам-изгоям
Scientific Reports: Динго не имели отношения к собакам-изгоям
FRBM: Микроглия — потенциальная мишень в лечении неврологических нарушений
FRBM: Микроглия — потенциальная мишень в лечении неврологических нарушений
Связанные с Альцгеймером белки ускоряют и замедляют мозг, и крадут ум
Связанные с Альцгеймером белки ускоряют и замедляют мозг, и крадут ум
Nature Ecology & Evolution: Экономия энергии благодаря миграции — заблуждение
Nature Ecology & Evolution: Экономия энергии благодаря миграции — заблуждение
В ТПУ создают алгоритмы адресной доставки лекарств при лёгочных заболеваниях
В ТПУ создают алгоритмы адресной доставки лекарств при лёгочных заболеваниях
ComBio: Как мутации в кальциевых каналах влияют на развитие мышечных заболеваний
ComBio: Как мутации в кальциевых каналах влияют на развитие мышечных заболеваний
В Сеченовском Университете создали метод оценки структур для выращивания тканей
В Сеченовском Университете создали метод оценки структур для выращивания тканей
BBRC: Ученые впервые измерили скорость фермента, расщепляющего древесину
BBRC: Ученые впервые измерили скорость фермента, расщепляющего древесину
Nature: ИИ помог проследить эволюцию вирусов, вызывающих денге и гепатит С
Nature: ИИ помог проследить эволюцию вирусов, вызывающих денге и гепатит С
Biology Letters: Альбатросы осязают клювами почти как приматы пальцами
Biology Letters: Альбатросы осязают клювами почти как приматы пальцами
Biology Letters: Для спасения от хищников ящерицы научились нырять с аквалангом
Biology Letters: Для спасения от хищников ящерицы научились нырять с аквалангом
JOV: Описан новый бистабильный феномен восприятия числовых символов
JOV: Описан новый бистабильный феномен восприятия числовых символов

Новости компаний, релизы

Впервые выбирают MITEX: дебютанты выставки 2024 года
Время разбрасывать камни: ультразвуковая чистка зубов возвращает уверенность в себе
Больше половины работодателей обращает внимание на навыки работы с ИИ при поиске сотрудников
Организаторы всероссийского конкурса «Знай наших» анонсировали новые номинации и партнеров проекта
Ученые СПбГУ нашли «безопасную» зону для проведения операций при ишемии нижних конечностей