Удивительные свойства ландшафта потерь в перепараметризованных моделях
Описание семинара
В последние годы было зафиксировано несколько необычных эффектов, наблюдаемых в процессе обучения современных глубоких нейронных сетей (ГНН): двойной спуск, связность мод, минные поля в ландшафте потерь и т. д. Все они связаны с перепараметризацией современных ГНН. Более глубокое понимание свойств перепараметризованных моделей может стать основой для разработки более совершенных алгоритмов для обучения ГНН.
В докладе исследователи поделятся некоторой интуицией и экспериментальными доказательствами, объясняющими многие необычные эффекты, упомянутые выше. В частности, сосредоточатся на так называемых масштабно‑инвариантных сетях и продемонстрируют, как выбор гиперпараметров влияет на процесс обучения и раскрывает некоторые свойства ландшафта потерь при обучении.
На семинаре будет рассмотрена упрощенная настройка полностью масштабно‑инвариантной нейронной сети с весами на единичной сфере, обучающейся методом стохастического градиентного спуска с постоянной скоростью обучения. Настройка позволяет устранить влияние инициализации, коэффициента затухания веса и графика скорости, оставив только один гиперпараметр (скорость обучения) для управления обучением. Запуская одну и ту же сеть с разными постоянными скоростями обучения, исследователи обнаруживают несколько разных, но стабильных фаз, которые связаны со свойствами ландшафта потерь и со способностью обученной сети к обобщению.