Попытка понять поведение систем, состоящих из большого числа элементов, неизбежно требует вероятностного подхода. Система эволюционирует из одного состояния в другое — этому процессу соответствует трансформация распределений вероятностей, описывающих свойства элементов.
Такой картиной описывается множество вещей, начиная от диффузии атомов и молекул в газе и заканчивая превращением белого шума в осмысленное изображение, которое производят генеративные модели искусственного интеллекта. Из-за такой схожести в машинном обучении выделяют целый класс моделей, получивших название диффузионных.
Для скорейшей работы диффузионных моделей исследователи стараются добиться оптимального транспорта (Optimal Transport, OT) между распределениями. В последние годы популярность получил подход, в котором OT регуляризуется с помощью энтропии, то есть наделением этого процесса стохастическими свойствами, что позволяет изучать отображения «один ко многим» с настраиваемым уровнем разнообразия выборки. Мы уже касались вопроса энтропийного оптимального транспорта (Entropic Optimal Transport, EOT) в прошлый раз, когда рассказывали про новый бенчмарк, созданный командой исследователей из AIRI и Сколтеха, для тестирования нейронных методов его построения.
К сожалению, большинство существующих сегодня EOT-солверов численно неустойчивы, если параметр энтропийной регуляризации слишком мал, хотя именно это условие лучше всего подходит для генеративного моделирования. Чтобы решить эту проблему, часть той же команды в соавторстве с коллегами из ВШЭ, предложила новую формулировку для EOT-задачи.
Главная идея нового подхода — представить транспортную задачу как задачу поиска седловой точки некоторого функционала. В таком виде исследователям становится доступен арсенал из теории обобщённых функцию и вариационного исчисления. Полученный метод получил название Entropic Neural Optimal Transport (ENOT).
Предложенный подход является масштабируемым способом для обучения нейросетевых моделей для перевода домена с использованием непарных обучающих выборок. Фактически, речь идёт о теоретически обоснованном механизме для контроля уровня разнообразия в сгенерированных объектах, в то время как в существующих методах для решения задачи переноса домена такие механизмы преимущественно эвристические. Авторы убедились в этом, экспериментируя с модельными распределениями, датасетом Colored MNIST и набором портретов знаменитостей.
Результат работы метода в модельной задаче о сверхразрешении (деблюрринге) лиц знаменитостей
Код проекта доступен на GitHub, а подробности исследования можно узнать из статьи, опубликованной в сборнике трудов конференции NeurIPS 2023.