en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

LREC

Дата публикации

13.10.2022

Авторы

Олег Сериков Тимофей Атнашев Вероника Ганеева Роман Казаков Дария Матьяш Майкл Сонкин Екатерина Волошина Екатерина Артемова

Поделиться

Razmecheno: Named Entity Recognition from Digital Archive of Diaries “Prozhito”

Named entity recognition, Text annotation, Datasets

Аннотация

The vast majority of existing datasets for Named Entity Recognition (NER) are built primarily on news, research papers and Wikipedia with a few exceptions, created from historical and literary texts. What is more, English is the main source for data for further labelling. This paper aims to fill in multiple gaps by creating a novel dataset "Razmecheno", gathered from the diary texts of the project "Prozhito" in Russian. Our dataset is of interest for multiple research lines: literary studies of diary texts, transfer learning from other domains, low-resource or cross-lingual named entity recognition. Razmecheno comprises 1331 sentences and 14119 tokens, sampled from diaries, written during the Perestroika. The annotation schema consists of five commonly used entity tags: person, characteristics, location, organisation, and facility. The labelling is carried out on the crowdsourcing platfrom Yandex.Toloka in two stages. First, workers selected sentences, which contain an entity of particular type. Second, they marked up entity spans. As a result 1113 entities were obtained. Empirical evaluation of Razmecheno is carried out with off-the-shelf NER tools and by fine-tuning pre-trained contextualized encoders. We release the annotated dataset for open access.

Читать в источнике

Похожие публикации

COLING GenAIDetect

English and Multilingual Machine-Generated Text Detection: AI vs. Human

Yuxia Wang, Артем Шелманов, Джонибек Мансуров , Аким Цвигун, Владислав Михайлов, Rui Xing, Zhuohan Xie, Jiahui Geng, Giovanni Puccetti, Екатерина Артемова, Jinyan Su, Minh Ngoc Ta, Mervat Abassy, Kareem Ashraf Elozeiri, Saad El Dine Ahmed El Etter, Майя Голобурда, Tarek Mahmoud, Raj Vardhan Tomar, Nurkhan Laiyk, Osama Mohammed Afzal, Ryuto Koike, Masahiro Kaneko, Alham Fikri Aji, Nizar Habash, Ирина Гуревич, Preslav Nakov

Читать источник

Of Models and Men: Probing Neural Networks for Agreement Attraction with Psycholinguistic Data

Максим Бажуков, Екатерина Волошина, Сергей Плетенёв, Арсений Анисимов, Олег Сериков, Светлана Толдова

Читать источник

Representational dissimilarity component analysis (ReDisCA)

Алексей Осадчий, Илья Семенков, Анна Журавлёва, Олег Сериков, Екатерина Волошина

Читать источник

Lost in Translation: Chemical Language Models and the Misunderstanding of Molecule Structures

Вероника Ганеева, Андрей Саховский, Кузьма Храбров, Андрей Савченко, Артур Кадурин, Елена Тутубалина

Читать источник

Super donors and super recipients: Studying cross-lingual transfer between high-resource and low-resource languages

Виталий Протасов, Елисей Стаковский, Екатерина Волошина, Татьяна Шаврина, Александр Панченко

Читать источник

Chemical Language Models Have Problems with Chemistry: A Case Study on Molecule Captioning Task

Вероника Ганеева, Кузьма Храбров, Артур Кадурин, Андрей Савченко, Елена Тутубалина

Читать источник

mGPT: Few-Shot Learners Go Multilingual

Oleh Shliazhko, Алена Феногенова, Мария Тихонова, Anastasia Kozlova, Владислав Михайлов, Татьяна Шаврина

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ