en

Об институте
Публикации
Блог
Карьера

en

Источник

AAAI

Дата публикации

24.03.2024

Авторы

Михаил Бурцев

Капушев Ермек

Юрий Куратов

Айдар Булатов

Поделиться

Beyond Attention: Breaking the Limits of Transformer Context Length with Recurrent Memory

Аннотация

A major limitation for the broader scope of problems solvable by transformers is the quadratic scaling of computational complexity with input size. In this study, we investigate the recurrent memory augmentation of pre-trained transformer models to extend input context length while linearly scaling compute. Our approach demonstrates the capability to store information in memory for sequences of up to an unprecedented two million tokens while maintaining high retrieval accuracy. Experiments with language modeling tasks show perplexity improvement as the number of processed input segments increases. These results underscore the effectiveness of our method, which has significant potential to enhance long-term dependency handling in natural language understanding and generation tasks, as well as enable large-scale context processing for memory-intensive applications.

For more details see also version on arXiv
https://arxiv.org/abs/2304.11062v2

Читать в источнике Cкачать pdf

Похожие публикации

User Modeling and User-Adapted Interaction

Federated privacy-preserving collaborative filtering for on-device next app prediction

Альберт Саяпин, Глеб Балицкий, Daniel Bershatsky, Александр Катруца, Евгений Фролов, Алексей Фролов, Иван Оселедец, Виталий Харин

Читать источник

Epigenetics & Chromatin

Expanding the list of sequence-agnostic enzymes for chromatin conformation capture assays with S1 nuclease

Maria Gridina, Andrey Popov, Artem Shadskiy, Nikita Torgunakov, Andrey Kechin, Evgeny Khrapov, Ryzhkova Oxana, Maxim Filipenko, Вениамин Фишман

Читать источник

Biomedical Entity Representation with Graph-Augmented Multi-Objective Transformer

Артур Кадурин, Елена Тутубалина

Читать источник

BioASQ at CLEF2024: The Twelfth Edition of the Large-Scale Biomedical Semantic Indexing and Question Answering Challeng

Anastasios Nentidis, Anastasia Krithara, Georgios Paliouras, Martin Krallinger, Luis Gasco Sánchez, Salvador Lima, Eulalia Farre, , Наталия Лукачевич, Вера Давыдова, Елена Тутубалина

Читать источник

Scientific Reports

Forest age estimation in northern Arkhangelsk region based on machine learning pipeline on Sentinel-2 and auxiliary data

Alina Smolina, Светлана Илларионова, Дмитрий Шадрин, Alexander Kedrov, Евгений Бурнаев

Читать источник

LM-Polygraph: Uncertainty Estimation for Language Models

Ekaterina Fadeeva, Roman Vashurin, Аким Цвигун, Артем Важенцев, Sergey Petrakov, Кирилл Федянин, Daniil Vasilev, Елизавета Гончарова, Александр Панченко, Максим Панов, Timothy Baldwin, Артем Шелманов

Читать источник

Better Together: Enhancing Generative Knowledge Graph Completion with Language Models and Neighborhood Information.

Alla Chepurova, Айдар Булатов, Юрий Куратов, Михаил Бурцев

Читать источник

Институт искусственного интеллекта AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Карьера

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2024, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ