en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

COLING

Дата публикации

17.04.2022

Авторы

Татьяна Шаврина Дина Писаревская

Поделиться

WikiOmnia: generative QA corpus on the whole Russian Wikipedia

Аннотация

The General QA field has been developing the methodology referencing the Stanford Question answering dataset (SQuAD) as the significant benchmark. However, compiling factual questions is accompanied by time- and labour-consuming annotation, limiting the training data's potential size. We present the WikiOmnia dataset, a new publicly available set of QA-pairs and corresponding Russian Wikipedia article summary sections, composed with a fully automated generative pipeline. The dataset includes every available article from Wikipedia for the Russian language. The WikiOmnia pipeline is available open-source and is also tested for creating SQuAD-formatted QA on other domains, like news texts, fiction, and social media. The resulting dataset includes two parts: raw data on the whole Russian Wikipedia (7,930,873 QA pairs with paragraphs for ruGPT-3 XL and 7,991,040 QA pairs with paragraphs for ruT5-large) and cleaned data with strict automatic verification (over 160,000 QA pairs with paragraphs for ruGPT-3 XL and over 3,400,000 QA pairs with paragraphs for ruT5-large).

Читать в источнике

Похожие публикации

EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas

Михаил Мозиков, Никита Северин, Valeria Bodishtianu, Мария Глушанина, Иван Насонов, Даниил Орехов, Владислав Пехотин, Иван Маковецкий, Михаил Баклашкин, Василий Лаврентьев, Аким Цвигун, Денис Турдаков, Татьяна Шаврина, Андрей Савченко, Илья Макаров

Читать источник

Super donors and super recipients: Studying cross-lingual transfer between high-resource and low-resource languages

Виталий Протасов, Елисей Стаковский, Екатерина Волошина, Татьяна Шаврина, Александр Панченко

Читать источник

mGPT: Few-Shot Learners Go Multilingual

Oleh Shliazhko, Алена Феногенова, Мария Тихонова, Anastasia Kozlova, Владислав Михайлов, Татьяна Шаврина

Читать источник

A Study on Manual and Automatic Evaluation for Text Style Transfer: The Case of Detoxification

Варвара Логачева, Дарина Дементьева, Ирина Кротова, Алена Феногенова, Ирина Никишина, Татьяна Шаврина, Александр Панченко

Читать источник

Vote’n’Rank: Revision of Benchmarking with Social Choice Theory

Mark Rofin, Владислав Михайлов, Михаил Флоринский, Андрей Кравченко , Елена Тутубалина, Татьяна Шаврина, Daniel Karabekyan, Екатерина Артемова

Читать источник

5q032e@SMM4H’22: Transformer-based classification of premise in tweets related to COVID-19

Вадим Порватов, Наталья Семенова

Читать источник

Attention Understands Semantic Relations

Михаил Бурцев, Татьяна Шаврина, Олег Сериков, Санжар Мурзахметов, Анастасия Чижикова

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ