en

Об институте
Публикации
Блог
Карьера

en

Источник

ACL

Дата публикации

02.05.2022

Авторы

Олег Сериков

Ryan Teehan Miruna Clinciu Eliza Szczechla Natasha Seelam Shachar Mirkin Aaron Gokaslan

Поделиться

Emergent Structures and Training Dynamics in Large Language Models

Аннотация

Large language models have achieved success on a number of downstream tasks, particularly in a few and zero-shot manner. As a consequence, researchers have been investigating both the kind of information these networks learn and how such information can be encoded in the parameters of the model. We survey the literature on changes in the network during training, drawing fr om work outside of NLP when necessary, and on learned representations of linguistic features in large language models. We note in particular the lack of sufficient research on the emergence of functional units, subsections of the network wh ere related functions are grouped or organised, within large language models and motivate future work that grounds the study of language models in an analysis of their changing internal structure during training time.

Читать в источнике

Похожие публикации

mGPT: Few-Shot Learners Go Multilingual

Oleh Shliazhko, Алена Феногенова, Мария Тихонова, Anastasia Kozlova, Владислав Михайлов, Татьяна Шаврина

Читать источник

A Study on Manual and Automatic Evaluation for Text Style Transfer: The Case of Detoxification

Варвара Логачева, Дарина Дементьева, Ирина Кротова, Алена Феногенова, Ирина Никишина, Татьяна Шаврина, Александр Панченко

Читать источник

WikiOmnia: generative QA corpus on the whole Russian Wikipedia

Татьяна Шаврина, Дина Писаревская

Читать источник

5q032e@SMM4H’22: Transformer-based classification of premise in tweets related to COVID-19

Вадим Порватов, Наталья Семенова

Читать источник

Attention Understands Semantic Relations

Михаил Бурцев, Татьяна Шаврина, Олег Сериков, Санжар Мурзахметов, Анастасия Чижикова

Читать источник

Building a Bilingual QA-system with ruGPT-3

Татьяна Шаврина, Дина Писаревская, Валентин Малых

Читать источник

Razmecheno: Named Entity Recognition from Digital Archive of Diaries “Prozhito”

Олег Сериков, Тимофей Атнашев, Вероника Ганеева, Роман Казаков, Дария Матьяш, Майкл Сонкин, Екатерина Волошина, Екатерина Артемова

Читать источник

Институт искусственного интеллекта AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Карьера

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2024, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ