en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

AAAI

Дата публикации

24.03.2024

Авторы

Айдар Булатов Юрий Куратов Капушев Ермек Михаил Бурцев

Поделиться

Beyond Attention: Breaking the Limits of Transformer Context Length with Recurrent Memory

Аннотация

A major limitation for the broader scope of problems solvable by transformers is the quadratic scaling of computational complexity with input size. In this study, we investigate the recurrent memory augmentation of pre-trained transformer models to extend input context length while linearly scaling compute. Our approach demonstrates the capability to store information in memory for sequences of up to an unprecedented two million tokens while maintaining high retrieval accuracy. Experiments with language modeling tasks show perplexity improvement as the number of processed input segments increases. These results underscore the effectiveness of our method, which has significant potential to enhance long-term dependency handling in natural language understanding and generation tasks, as well as enable large-scale context processing for memory-intensive applications.

For more details see also version on arXiv
https://arxiv.org/abs/2304.11062v2

Читать в источнике Cкачать pdf

Похожие публикации

AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents

Пётр Анохин, Никита Семенов, Артем Сорокин, Дмитрий Евсеев, Михаил Бурцев, Евгений Бурнаев

Читать источник

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Юрий Куратов, Михаил Архипов, Айдар Булатов, Михаил Бурцев

Читать источник

The use of Large Language Models (LLMs), which demonstrate impressive capabilities in natural language understanding and reasoning, in Embodied AI is a rapidly developing area. As a part of an embodied agent, LLMs are typically used for behavior planning

Читать источник

GENATATOR: de novo Gene Annotation With DNA Language Model

Алексей Шмелёв, Artem Shadskiy, Юрий Куратов, Михаил Бурцев, Ольга Кардымон, Вениамин Фишман

Читать источник

Searching for Phenotypic Needles in Genomic Haystacks: DNA Language Models for Sex Prediction

Алла Чепурова, Юрий Куратов, Полина Белокопытова, Михаил Бурцев, Вениамин Фишман

Читать источник

Fast UCB-type algorithms for stochastic bandits with heavy and super heavy symmetric noise

Юрий Дорн, Александр Катруца, Ильгам Латыпов, Андрей Пудовиков

Читать источник

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Александр Никулин, Илья Зисман, Алексей Земцов, Вячеслав Синий, Владислав Куренков, Сергей Колесников

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ