en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

ACL

Дата публикации

11.08.2024

Авторы

Антон Разжигаев Матвей Михальчук Елизавета Гончарова Николай Герасименко Иван Оселедец Денис Димитров Андрей Кузнецов

Поделиться

Your Transformer is Secretly Linear

Аннотация

This paper reveals a novel linear characteristic exclusive to transformer decoders, including models like GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering an almost perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed, due to a consistently low transformer layer output norm. Our experiments show that pruning or linearly approximating some of the layers does not impact loss or model performance significantly. Moreover, we introduce a cosine-similarity-based regularization in our pretraining experiments on smaller models, aimed at reducing layer linearity. This regularization not only improves performance metrics on benchmarks like Tiny Stories and SuperGLUE but as well successfully decreases the linearity of the models. This study challenges the existing understanding of transformer architectures, suggesting that their operation may be more linear than previously assumed.

Читать в источнике Cкачать pdf

Похожие публикации

Matematicheskie Zametki

Accelerated algorithm for splitting a vector into two vectors with small uniform norm

Борис Кашин, Иван Оселедец, Alexander Rudikov

Читать источник

DepthART: Monocular Depth Estimation as Autoregressive Refinement Task

Булат Габдуллин, Нина Коновалова, Николай Патакин, Дмитрий Сенюшкин, Антон Конушин

Читать источник

AI Diagnostic Assistant (AIDA): A Predictive Model for Diagnoses from Health Records in Clinical Decision Support Systems

Дмитрий Умеренков, Александр Нестеров, Владимир Шапошников, Елена Соколова, Руслан Абрамов, Николай Романенко, Владимир Кох, Марина Кирина, Антон Абросимов, Дмитрий Дылов, Иван Оселедец

Читать источник

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ

K-optimal preconditioners based on approximations of inverse matrices

Иван Оселедец, Екатерина Муравлева

Читать источник

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Kristian Kuznetsov, Лаида Кушнарева, Полина Дружинина, Антон Разжигаев, Анастасия Вознюк, Ирина Пионтковская, Евгений Бурнаев, Сергей Баранников

Читать источник

Run LoRA Run: Faster and Lighter LoRA Implementations

Дарья Чернюк, Александр Михалев, Иван Оселедец

Читать источник

HatePRISM: Policies, Platforms, and Research Integration. Advancing NLP for Hate Speech Proactive Mitigation

Naquee Rizwan, Seid Muhie Yimam, Дарина Дементьева, Florian Skupin, Tim Fischer, Даниил Московский, Aarushi Ajay Borkar, Robert Geislinger, Punyajoy Saha, Sarthak Roy, Martin Semmann, Александр Панченко, Chris Biemann, Animesh Mukherjee

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ