Память в обучении с подкреплением – проблема или решение?
Описание семинара
Обучение с подкреплением основывается на формализме Марковского процесса принятия решений (MDP). Однако во многих задачах марковское свойство нарушается, и процесс становится частично наблюдаемым (POMDP). Для сведения POMDP к MDP используют агентов с памятью, которую разные авторы трактуют по-разному, что расширяет понимание этого понятия в обучении с подкреплением.
Кандидат компьютерных наук, руководитель группы «Воплощенные агенты» лаборатории когнитивных систем искусственного интеллекта AIRI Алексей Ковалёв рассмотрит различные трактовки памяти, к каким проблемам это приводят и как обстоят сейчас дела с бенчмарками агентов с памятью.
Оппонентом выступит исполнительный директор, team lead групп manipulation & llm в Центре робототехники Сбера Алексей Постников.
Докладчик
Оппонент