Для решения различных задач машинного обучения, таких, например, как распознавание лиц, анализ медицинских снимков или распознавание речи, очень часто требуется большой объем обучающих данных. Сложность в том, что точность работы модели зависит, в том числе и от того, насколько эти данные качественны. При этом, к сожалению, не всегда удается сформировать удовлетворительный обучающий набор.
Один из способов решения этой проблемы — доменная адаптация, то есть обучение модели на немного отличающейся, но богатой выборке, а затем её адаптация к нужным изображениям. Мы уже рассказывали о том, как такой подход ускоряет работу генеративно-состязательных сетей.
Ещё один путь — это синтез изображений с помощью генеративных моделей на основе каких-то входных данных, например, наброска или зашумленного изображения. Специалисты говорят при этом о переносе данных из одного домена в другой. На выходе такой алгоритм создаёт пару входному изображению, поэтому и обучать модель лучше на парных выборках. Но чаще всего приходится обходиться непарными наборами, где попытки связать исходный и целевой домены носят эвристический характер, а, значит, нестроги и настраиваются вручную.
Вместе с тем, задачу о переносе из одного домена в другой можно сформулировать математически строго, рассуждая о переходе от одного вероятностного распределения к другому. В этом случае полезным оказывается теория оптимального транспорта и её реализация с помощью разнообразных алгоритмов. Ранее мы писали про то, как группа учёных из AIRI и Сколтеха развила метод энтропийного оптимального транспорта с помощью нейросетей, а также создала бенчмарк для него и других подобных алгоритмов.
Параллельно с этими исследованиями группа выяснила, что можно добиться ещё большей схожести входного и выходного изображения за счёт рассмотрения специфических постановок задачи об оптимальном транспорте. Вдохновленная недавними достижениями в области нейронного оптимального транспорта, команда предложила математическую формулировку для поиска теоретически наилучшего перевода домена с использованием непарных обучающих выборок, который получил название метода экстремального транспорта.
Авторы создали алгоритм, который аппроксимирует такие отображения как предел решений частичного оптимального транспорта, а также показали его преимущества на модельных задачах и задачах стилизации изображений. В отличие от предшественников, предложенный метод позволяет достигать большего сохранения свойств входного объекта при переносе домена, а так же предоставляет механизмы для игнорирования выбросов в обучающей выборке.
Превращение сумок в обувь (слева) и знаменитостей в персонажей аниме (справа) с помощью нового алгоритма
Код проекта доступен на GitHub, а подробности исследования можно узнать из статьи, опубликованной в сборнике трудов конференции NeurIPS 2023.