Дата публикации
09.01.2024
Авторы
Иван Оселедец Марат Хамадеев
Поделиться

Проблема восполнения матриц поможет улучшить самообучение


Методы машинного обучения традиционно относят к одному из двух классов: обучению с учителем и без учителя — либо к некоторому промежуточному варианту. В первом случае обучающая выборка обладает заданными метками и модель должна выучить эту зависимость. Во втором же случае от модели требуется лишь эффективно описать то, как неразмеченные данные располагаются в пространстве описаний — например, кластеризовать выборку.

Но часто возникает потребность выявить зависимость на большом количестве неразмеченных данных, создание меток для которых слишком затратно. В этом случае на помощь специалистом приходит самообучение (Self-Supervised Learning, SSL) — новый подход, который активно развивается в последние годы.

Он основан на автоматическом формировании меток на основе внутренней структуры данных либо некоторых базовых знаний, связанных с ними. Модель применяется к некоторой предварительной задаче (pretext task), в результате чего выучивается хорошее представление данных. В дальнейшем предобученная таким путем модель эффективнее решает основную задачу (downstream task).

Большинство SSL-методов опираются на эвристический подход к решению проблемы, поэтому их теоретическое обоснование могло бы помочь избежать потенциальных ошибок. На это направили свои усилия учёные из Германии и России под руководством СЕО AIRI и профессора Сколтеха Ивана Оселедца. Они стартуют с предположения, что многомерные данные лежат вдоль скрытого гладкого многообразия низкой размерности внутри многомерного пространства. Гладкость допускает введение дифференциального оператора Лапласа — Бельтрами, обобщающего более известный оператор Лапласа на случай римановых многобразий.

На практике исследователи работают с конечным (хотя и большим) числом точек многообразия. Тем не менее, принятая гипотеза позволяет аппроксимировать лапласиан графами или сетками и представить его с помощью векторов и матриц. Авторы показали, что выучивание оптимальных представлений эквивалентно задаче максимизации следа — одной из форм проблемы поиска собственных значений. Команда продемонстрировала, что три популярных SSL-метода (SimCLR, BarlowTWINS, VICReg) подчиняются такой формулировке.

Развивая свой формализм, исследователи смогли ответить на вопрос о том, как SSL-методы справляются с шумом или отсутствием данных, что часто имеет место на практике, и почему, несмотря на это, они сходятся. Оказалось, что с точки зрения оператора лапласа SSL-методы решают задачу восполнения низкоранговой матрицы. По мнению учёных, это открытие позволить оптимизировать подходы к самообучению и расширить их применение на большее количество областей машинного обучения.

Подробнее об этой работе можно узнать из статьи, опубликованной в сборнике трудов конференции NeurIPS 2023.


Присоединяйтесь к AIRI в соцсетях