en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

NeurIPS

Дата публикации

09.12.2022

Авторы

Артем Сорокин Назар Бузун Леонид Пугачев Михаил Бурцев

Поделиться

Explain My Surprise: Learning Efficient Long-Term Memory by Predicting Uncertain Outcomes

Memory, RNN, Information Theory, Reinforcement Learning, POMDP

Аннотация

In many sequential tasks, a model needs to remember relevant events from the distant past to make correct predictions. Unfortunately, a straightforward application of gradient based training requires intermediate computations to be stored for every element of a sequence. This requires prohibitively large compute memory if a sequence consists of thousands or even millions elements, and as a result, makes learning of very long-term dependencies infeasible. However, the majority of sequence elements can usually be predicted by taking into account only temporally local information. On the other hand, predictions affected by long-term dependencies are sparse and characterized by high uncertainty given only local information. We propose MemUP, a new training method that allows to learn long-term dependencies without backpropagating gradients through the whole sequence at a time. This method can be potentially applied to any gradient based sequence learning. MemUP implementation for recurrent architectures shows performances better or comparable to baselines while requiring significantly less compute memory.

Читать в источнике

Похожие публикации

AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents

Пётр Анохин, Никита Семенов, Артем Сорокин, Дмитрий Евсеев, Михаил Бурцев, Евгений Бурнаев

Читать источник

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Юрий Куратов, Михаил Архипов, Айдар Булатов, Михаил Бурцев

Читать источник

GENATATOR: de novo Gene Annotation With DNA Language Model

Алексей Шмелёв, Artem Shadskiy, Юрий Куратов, Михаил Бурцев, Ольга Кардымон, Вениамин Фишман

Читать источник

Searching for Phenotypic Needles in Genomic Haystacks: DNA Language Models for Sex Prediction

Алла Чепурова, Юрий Куратов, Полина Белокопытова, Михаил Бурцев, Вениамин Фишман

Читать источник

Optical Memory and Neural Networks

Mastering Long-Context Multi-Task Reasoning With Transformers and Recurrent Memory

Айдар Булатов, Юрий Куратов, Михаил Бурцев

Читать источник

Nucleic Acids Research

GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences

Вениамин Фишман, Юрий Куратов, Алексей Шмелёв, Максим Петров, Дмитрий Пензар, Денис Шепелин, Николай Чеканов, Ольга Кардымон, Михаил Бурцев

Читать источник

NeurIPS / UniReps

Shared Recurrent Memory Improves Multi-agent Pathfinding

Алсу Сагирова, Юрий Куратов, Михаил Бурцев

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ