en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

ICML LCFM

Дата публикации

13.07.2025

Авторы

Andrew Argatkiny Илья Макаров

Поделиться

MatMuls are Enough for Efficient and Performant Linear-Time Attention

Аннотация

Transformers, despite empowering current AI revolution,are bottlenecked by suboptimal hardwareutilization and quadratic runtime complexity ofsoftmax attention w.r.t. input sequence length.Many recent architectures aspire to bring the complexitydown to sub-quadratic level without compromisingmodeling quality. However, they areeither much slower on all but very long sequencesor rely on low-level code tailored to a narrowsubset of modern hardware. To simultaneouslyachieve linear complexity, hardware efficiency,and portability, we completely eliminate softmaxfrom self-attention; remove, modify, or rearrangeother transformations in the Transformer block;and reduce number of attention heads. The resultingarchitecture, DenseAttention Network, iscomposed entirely of dense matrix multiplicationsin the attention which allows for efficient trainingand inference in both quadratic and linearmodes. It performs similarly with standard Transformerin language modeling and surpasses previousTransformer-based SOTA by 5% on challengingLong Range Arena benchmarks. DenseAttentionmodel written in plain PyTorch is up to 22%faster even on small context sizes, and by ordersof magnitude on longer sequences, than Transformerwith low-level FlashAttention kernel.

Похожие публикации

Automatic Interpretation of Ancient Egyptian Texts for Education and Research

Максим Голядкин, Иннокентий Хумонен, I. Plevokas, ЕКАТЕРИНА БУРЕЕВА, ЕКАТЕРИНА АЛЕКСАНДРОВА, Илья Макаров

Читать источник

Search Swarm: Multi-agent Large Language Models Framework for E-commerce Product Search

Нагим Исянбаев, Илья Макаров

Читать источник

Machine Learning Driven Optimization of Fe-Based TMCs for Photodynamic Therapy

Владимир Мануилов, Antonio Francés Monerris, Abdelazim Abdelgawwad, Daniel Escudero, Илья Макаров

Читать источник

ATGen: A Framework for Active Text Generation

Аким Цвигун, Даниил Васильев, Иван Цвигун, Иван Лысенко, Талгат Бектлеуов, Александр Медведев, Ульяна Виноградова, Никита Северин, Михаил Мозиков, Андрей Савченко, Ростислав Григорьев, Рамиль Кулеев, Федор Жданов, Артем Шелманов, Илья Макаров

Читать источник

WISP: Workframe for Interferogram Signal Phase-unwrapping

Тимофей Хирианов, Александра Хирианова, Егор Паркевич, Илья Макаров

Читать источник

Optimizing state monitoring with domain degradation knowledge

Дмитрий Жевненко, Илья Макаров

Читать источник

SODAOpt: Socio-Demographic and Textual Adaptive Fusion for Optimizing Developer Task Assignment

Карина Романова, Сергей Сеничев, Лина Вельтман, Иван Насонов, Андрей Кузнецов, Илья Макаров

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ