Дата публикации
22.12.2023
Авторы
Александр Коротин Марат Хамадеев
Поделиться

Экстремальный транспорт улучшил качество генерации при переносе домена


Для решения различных задач машинного обучения, таких, например, как распознавание лиц, анализ медицинских снимков или распознавание речи, очень часто требуется большой объем обучающих данных. Сложность в том, что точность работы модели зависит, в том числе и от того, насколько эти данные качественны. При этом, к сожалению, не всегда удается сформировать удовлетворительный обучающий набор.

Один из способов решения этой проблемы — доменная адаптация, то есть обучение модели на немного отличающейся, но богатой выборке, а затем её адаптация к нужным изображениям. Мы уже рассказывали о том, как такой подход ускоряет работу генеративно-состязательных сетей.

Ещё один путь — это синтез изображений с помощью генеративных моделей на основе каких-то входных данных, например, наброска или зашумленного изображения. Специалисты говорят при этом о переносе данных из одного домена в другой. На выходе такой алгоритм создаёт пару входному изображению, поэтому и обучать модель лучше на парных выборках. Но чаще всего приходится обходиться непарными наборами, где попытки связать исходный и целевой домены носят эвристический характер, а, значит, нестроги и настраиваются вручную.

Вместе с тем, задачу о переносе из одного домена в другой можно сформулировать математически строго, рассуждая о переходе от одного вероятностного распределения к другому. В этом случае полезным оказывается теория оптимального транспорта и её реализация с помощью разнообразных алгоритмов. Ранее мы писали про то, как группа учёных из AIRI и Сколтеха развила метод энтропийного оптимального транспорта с помощью нейросетей, а также создала бенчмарк для него и других подобных алгоритмов.

Параллельно с этими исследованиями группа выяснила, что можно добиться ещё большей схожести входного и выходного изображения за счёт рассмотрения специфических постановок задачи об оптимальном транспорте. Вдохновленная недавними достижениями в области нейронного оптимального транспорта, команда предложила математическую формулировку для поиска теоретически наилучшего перевода домена с использованием непарных обучающих выборок, который получил название метода экстремального транспорта.

Авторы создали алгоритм, который аппроксимирует такие отображения как предел решений частичного оптимального транспорта, а также показали его преимущества на модельных задачах и задачах стилизации изображений. В отличие от предшественников, предложенный метод позволяет достигать большего сохранения свойств входного объекта при переносе домена, а так же предоставляет механизмы для игнорирования выбросов в обучающей выборке.


Превращение сумок в обувь (слева) и знаменитостей в персонажей аниме (справа) с помощью нового алгоритма

Помимо преимуществ, достигаемых при стилизации изображений, наш подход обладает потенциалом для решения других проблем. В частности, он может применяться к классу задач с несбалансированными выборками. Кроме того, определенные свойства нового метода можно использовать для повышения надежности обучения, например, для игнорирования аномалий в целевом наборе данных.


Александр Коротин
Александр Коротин
Научный сотрудник AIRI и руководитель исследовательской группы Сколтеха

Код проекта доступен на GitHub, а подробности исследования можно узнать из статьи, опубликованной в сборнике трудов конференции NeurIPS 2023.

Присоединяйтесь к AIRI в соцсетях