Диффузионные методы генерации видео по тексту

Описание семинара

Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу видео по текстам на естественном языке (text-to-video), а также подходам к решению этой задачи на основе диффузии.

В рамках доклада будут обсуждаться теоретические аспекты диффузионного процесса, его преимущества и недостатки. Также участники поговорят об архитектуре Kandinsky 3.0, особенностях обучения этой модели, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах.

Во время семинара планируется обсудить задачу генерации видео по текстовому описанию, создание различных видов анимациии и end-to-end генерацию полноценных видеороликов по тексту. В докладе также будут обсуждаться основные трудности обучения и сложности оценивания качества генеративных моделей, также Денис Димитров расскажет про генерацию видео Kandinsky Video. В заключение будут обсуждены основные области применения text-to-video моделей и их потенциал в будущем.