К списку семинаров
Дата семинара
26.04.2023
Докладчик
Дмитрий Ветров
Оппонент
Ирина Пионтковская
Поделиться

Удивительные свойства ландшафта потерь в перепараметризованных моделях

Описание семинара

В последние годы было зафиксировано несколько необычных эффектов, наблюдаемых в процессе обучения современных глубоких нейронных сетей (ГНН): двойной спуск, связность мод, минные поля в ландшафте потерь и т. д. Все они связаны с перепараметризацией современных ГНН. Более глубокое понимание свойств перепараметризованных моделей может стать основой для разработки более совершенных алгоритмов для обучения ГНН.

В докладе исследователи поделятся некоторой интуицией и экспериментальными доказательствами, объясняющими многие необычные эффекты, упомянутые выше. В частности, сосредоточатся на так называемых масштабно‑инвариантных сетях и продемонстрируют, как выбор гиперпараметров влияет на процесс обучения и раскрывает некоторые свойства ландшафта потерь при обучении.

На семинаре будет рассмотрена упрощенная настройка полностью масштабно‑инвариантной нейронной сети с весами на единичной сфере, обучающейся методом стохастического градиентного спуска с постоянной скоростью обучения. Настройка позволяет устранить влияние инициализации, коэффициента затухания веса и графика скорости, оставив только один гиперпараметр (скорость обучения) для управления обучением. Запуская одну и ту же сеть с разными постоянными скоростями обучения, исследователи обнаруживают несколько разных, но стабильных фаз, которые связаны со свойствами ландшафта потерь и со способностью обученной сети к обобщению.

Подписывайтесь на YouTube-канал AIRI, чтобы не пропустить семинар.

Присоединяйтесь к AIRI в соцсетях