en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

ICML NFAM

Дата публикации

16.05.2025

Авторы

Никита Курдюков Антон Разжигаев

Поделиться

Hebbian Sparse Autoencoder

Hebbian Learning, Sparse Autoencoder, Dictionary Learning, Interpretability

Аннотация

We establish a theoretical and empirical connection between Hebbian WinnerTake-All (WTA) learning with anti-Hebbian updates and tied-weight sparse autoencoders (SAEs), offering a framework to explain the high selectivity of neurons to patterns induced by biologically inspired learning rules. By training a SAE on token embeddings of a small language model using a gradient-free Hebbian WTArule with competitive anti-Hebbian plasticity, we demonstrate that such methods implicitly optimize SAE objectives. However, they underperform backpropagation SAEs in reconstruction due to gradient approximations. Hebbian updates approximate reconstruction error (MSE) minimization under tied weights, while anti-Hebbian updates enforce sparsity/feature orthogonality, akin to explicit L1 L2 penalties in standard SAEs. This alignment with the superposition hypothesis (Elhage et al., 2022) reveals how Hebbian rules disentangle features in overcomplete latent spaces, marking the first application of Hebbian learning to SAEs for language model interpretability.

Cкачать pdf

Похожие публикации

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Kristian Kuznetsov, Лаида Кушнарева, Полина Дружинина, Антон Разжигаев, Анастасия Вознюк, Ирина Пионтковская, Евгений Бурнаев, Сергей Баранников

Читать источник

CLEAR: Character Unlearning in Textual and Visual Modalities

Алексей Донцов, Дмитрий Корж, Алексей Жаворонкин, Борис Михеев, Денис Бобков, Айбек Аланов, Олег Рогов, Иван Оселедец, Елена Тутубалина

Читать источник

Clarispeech: LLM-Enhanced Speech Recognition Post-Correction

Артём Юдин, Дмитрий Корж, Матвей Скрипкин, Олег Рогов

Читать источник

SODAOpt: Socio-Demographic and Textual Adaptive Fusion for Optimizing Developer Task Assignment

Карина Романова, Сергей Сеничев, Лина Вельтман, Иван Насонов, Андрей Кузнецов, Илья Макаров

Читать источник

NTIRE 2025 challenge on UGC video enhancement: Methods and results

Николай Сафонов, Алексей Брынцев, Андрей Москаленко, Дмитрий Куликов, Дмитрий Ватолин, Radu Timofte, Haibo Lei, Qifan Gao, Qing Luo, Yaqing Li, Jie Song, Shaozhe Hao, Meisong Zheng, Jingyi Xu, Chengbin Wu, Jiahui Liu, Ying Chen, Xin Deng, Mai Xu, Peipei Liang, Jie Ma, Junjie Jin, Yingxue Pang, Fangzhou Luo, Kai Chen, Shijie Zhao, Mingyang Wu, Renjie Li, Yushen Zuo, Shengyun Zhong, Zhengzhong Tu

Читать источник

Entropic neural optimal transport via diffusion processes

Никита Гущин, Александр Колесов, Александр Коротин, Дмитрий Ветров, Евгений Бурнаев

Читать источник

Binary Black Box Optimization via Decision Pretrained Transformer

A. Batsheva, Максим Куркин, Илья Зисман, Александр Никулин, Владислав Куренков, Иван Оселедец

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ