en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

TACL

Дата публикации

31.01.2024

Авторы

Oleh Shliazhko Алена Феногенова Мария Тихонова Anastasia Kozlova Владислав Михайлов Татьяна Шаврина

Поделиться

mGPT: Few-Shot Learners Go Multilingual

Аннотация

Recent studies report that autoregressive language models can successfully solve many NLP tasks via zero- and few-shot learning paradigms, which opens up new possibilities for using the pre-trained language models. This paper introduces two autoregressive GPT-like models with 1.3 billion and 13 billion parameters trained on 60 languages from 25 language families using Wikipedia and Colossal Clean Crawled Corpus. We reproduce the GPT-3 architecture using GPT-2 sources and the sparse attention mechanism; Deepspeed and Megatron frameworks allow us to parallelize the training and inference steps effectively. The resulting models show performance on par with the recently released XGLM models by Facebook, covering more languages and enhancing NLP possibilities for low resource languages of CIS countries and Russian small nations. We detail the motivation for the choices of the architecture design, thoroughly describe the data preparation pipeline, and train five small versions of the model to choose the most optimal multilingual tokenization strategy. We measure the model perplexity in all covered languages and evaluate it on the wide spectre of multilingual tasks, including classification, generative, sequence labeling and knowledge probing. The models were evaluated with the zero-shot and few-shot methods. Furthermore, we compared the classification tasks with the state-of-the-art multilingual model XGLM. source code and the mGPT XL model are publicly released.

Читать в источнике

Похожие публикации

COLING / Workshop

Genai content detection task 1: English and multilingual machine-generated text detection: Ai vs. human

Yuxia Wang, Артем Шелманов, Джонибек Мансуров , Аким Цвигун, Владислав Михайлов, Rui Xing, Zhuohan Xie, Jiahui Geng, Giovanni Puccetti, Екатерина Артемова, Minh Ngoc Ta, Mervat Abassy, Kareem Ashraf Elozeiri, Saad El Dine Ahmed El Etter, Майя Голобурда, Tarek Mahmoud, Raj Vardhan Tomar, Nurkhan Laiyk, Osama Mohammed Afzal, Ryuto Koike, Masahiro Kaneko, Alham Fikri Aji, Nizar Habash, Ирина Гуревич, Preslav Nakov

Читать источник

COLING GenAIDetect

English and Multilingual Machine-Generated Text Detection: AI vs. Human

Yuxia Wang, Артем Шелманов, Джонибек Мансуров , Аким Цвигун, Владислав Михайлов, Rui Xing, Zhuohan Xie, Jiahui Geng, Giovanni Puccetti, Екатерина Артемова, Jinyan Su, Minh Ngoc Ta, Mervat Abassy, Kareem Ashraf Elozeiri, Saad El Dine Ahmed El Etter, Майя Голобурда, Tarek Mahmoud, Raj Vardhan Tomar, Nurkhan Laiyk, Osama Mohammed Afzal, Ryuto Koike, Masahiro Kaneko, Alham Fikri Aji, Nizar Habash, Ирина Гуревич, Preslav Nakov

Читать источник

EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas

Михаил Мозиков, Никита Северин, Valeria Bodishtianu, Мария Глушанина, Иван Насонов, Даниил Орехов, Владислав Пехотин, Иван Маковецкий, Михаил Баклашкин, Василий Лаврентьев, Аким Цвигун, Денис Турдаков, Татьяна Шаврина, Андрей Савченко, Илья Макаров

Читать источник

ACL / Teaching NLP

Industry vs Academia: Running a Course on Transformers in Two Setups

Ирина Никишина, Мария Тихонова, Виктория Чекалина, Алексей Зайцев, Артем Важенцев, Александр Панченко

Читать источник

MERA: A Comprehensive LLM Evaluation in Russian

Алена Феногенова, Артём Червяков, Никита Мартынов, Анастасия Козлова, Мария Тихонова, Альбина Ахметгареева, Антон Емельянов, Денис Шевелев, Павел Лебедев, Леонид Синев, Катерина Коломейцева, Даниил Московский, Елизавета Гончарова, Никита Савушкин, Полина Михайлова, Анастасия Минаева, Денис Димитров, Александр Панченко, Сергей Марков

Читать источник

Super donors and super recipients: Studying cross-lingual transfer between high-resource and low-resource languages

Виталий Протасов, Елисей Стаковский, Екатерина Волошина, Татьяна Шаврина, Александр Панченко

Читать источник

A Study on Manual and Automatic Evaluation for Text Style Transfer: The Case of Detoxification

Варвара Логачева, Дарина Дементьева, Ирина Кротова, Алена Феногенова, Ирина Никишина, Татьяна Шаврина, Александр Панченко

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ