Блог AIRI

Дата публикации

04.08.2022

Авторы

Пресс-служба AIRI

Применение Трансформера в задачах глубокого обучения

Впервые Трансформер как тип архитектуры нейронных сетей появился в 2017 году и к настоящему времени стал одной из наиболее обсуждаемых в AI-сообществе тем. Сейчас Трансформеры успешно применяются для решения множества задач глубокого обучения. В частности, для задач обработки естественного языка (Natural Language Processing, NLP).

Строго говоря, Трансформер – это модель глубокого обучения, основной составляющей которой является механизм внимания, оценивающий значимость элементов входной последовательности данных. Трансформер имеет доступ к каждому элементу обрабатываемой последовательности, но не хранит контекстную информацию, неявно представленную в тексте. Использование такой информации важно для концептуального понимания обрабатываемых текстов.

Применение Трансформера в исследованиях AIRI

Директор по фундаментальным исследованиям AIRI Михаил Бурцев и его коллега Алсу Сагирова из МФТИ исследовали свойства содержимого рабочей памяти, добавленной в декодировщик модели Transformer для хранения необходимой информации, на задаче машинного перевода. Рабочая память представляет собой фиксированное количество токенов, добавляемых к входной последовательности декодировщика. Токены памяти формируются, сохраняются и используются моделью таким же образом, как и токены перевода, причем позиции токенов рабочей памяти перемешаны с позициями элементов перевода текста в целевой последовательности модели.

Элементы рабочей памяти представляют собой слова или подслова из словаря модели, что позволяет анализировать содержимое памяти с точки зрения естественного языка. Добавление рабочей памяти к модели Transformer повышает качество предсказаний модели на задаче машинного перевода и работает как нейросимвольное представление информации, необходимой модели для генерации перевода.

Исследование содержимого памяти показало, что ключевые слова переведенного текста записываются в рабочую память, что указывает на релевантность содержимого памяти обрабатываемому тексту. Также ученые продемонстрировали, что разнообразие токенов и частей речи, хранящихся в рабочей памяти, коррелирует с лексико-грамматической сложностью переводимых текстов.

Михаил Бурцев

Директор по фундаментальным исследованиям AIRI

Результаты исследования

Современные нейросетевые модели решают поставленные перед ними задачи имплицитно и выдают пользователю готовый ответ, при этом строить логические рассуждения в процессе поиска решения они еще не научились. Движение в сторону моделирования рассуждений нейросетями, по мнению ученых, способно увеличить степень сложности решаемых моделями задач, а качество этих решений вывести на принципиально новый уровень.

Ознакомиться с полным материалом можно в журнале Cognitive Systems Research