Дата публикации
24.03.2025
Авторы
Марат Хамадеев Нина Коновалова
Поделиться

Семантическое выравнивание сделало генерацию 3D‑моделей консистентной


Диффузионные модели прочно заняли своё место в качестве инструмента для генерации изображений. Применяют их и для редактирования, подробнее об этом мы уже рассказывали в одном из прошлых блогов.

Но картинки — это не единственная модальность, в которой способна работать такая архитектура. Диффузию можно использовать также для генерации 3D-моделей по текстовому запросу (text‑to-3D) или на основе загруженного изображения (image‑to-3D).

Существует несколько подходов к этой задаче. Один из самых популярных — метод оптимизации функции потерь с помощью техники Score Distillation Sampling. Он переиспользует знания обычной диффузионной модели, что избавляет от необходимости в обширных датасетах с размеченными 3D-ассетами.

Несмотря на достигнутый прогресс, генерация 3D‑моделей сталкивается с рядом проблем. Так, все существующие подходы не способны обеспечить схожесть объектов, созданных из семантически близких промптов. Например, при генерации разных персонажей не удаётся добиться для них одинаковых поз даже при равных начальных значениях случайного генератора (сидах).

Существующие методы генерируют 3D-модели неплохого качества в соответствии с промптами, но без структурной консистентности

Эту трудность удалось преодолеть с помощью метода A3D, предложенного командой исследователей из нескольких российских и зарубежных научных центров, включая AIRI. Его работа основана на выучивании трансформаций между несколькими выровненными объектами.  

Для реализации этой идеи авторы обуславливали функцию потерь 3D-генератора на линейную комбинацию векторов латентного кода, соответствующих каждому запросу. Это позволило не только добиться выравнивания результатов генерации относительно друг друга, но и реализовать плавность переходов от одного результата к другому с помощью линейной интерполяции.

Такой приём даёт возможность проводить как глобальное, так и локальное редактирование 3D-моделей, в последнем случае за счёт парной или более генерации. Кроме того, новый метод помогает создавать гибридные объекты при промежуточных значениях интерполяции. Это может быть полезным в таких сферах деятельности, как трёхмерная анимация или дизайн. 


Примеры редактирования с помощью A3D при парной генерации

Статья с описанием метода была принята на конференцию ICLR 2025. Авторы также подготовили страничку проекта с демонстрацией разработки.



Присоединяйтесь к AIRI в соцсетях