Открытый набор данных AmbiK — самый большой в мире набор данных для проверки робототехнических систем на умение легко и точно понимать просьбы людей. Он содержит 2 тысячи примеров бытовых инструкций и позволяет тестировать способность роботов детектировать и устранять неточности, чтобы выполнить поставленную перед ними задачу.
Представьте, что вы просите домашнего робота-помощника: «Принеси что-нибудь попить». Казалось бы, простая задача? Для человека — да. Мы мгновенно учтем контекст: утро это или вечер, кто просит (ребенок или взрослый), что есть в холодильнике, даже наши собственные предпочтения. Но для робота эта фраза — настоящий лабиринт неопределенностей. Современные роботы и ИИ-ассистенты, управляемые голосом, часто буксуют на неоднозначности человеческого языка. Наши инструкции в быту редко бывают исчерпывающе точными.
Мы полагаемся на:
1. Общие знания о мире и контекст (Что вообще считается «напитком»? Чай? Вода? Молоко?).
2. Предположения о предпочтениях человека (Например, мама обычно пьет чай без сахара).
3. Соображения безопасности (Не стоит приносить кипяток ребенку? Лучше остудить воду).
Роботу эти нюансы изначально недоступны. Существующие системы либо рискуют выполнить задачу неправильно, принеся, например, бутылку растительного масла как «жидкость», либо надоедают пользователю бесконечными уточняющими вопросами по самым очевидным вещам, разрушая саму идею удобного взаимодействия. Для создания массовых ассистентов сначала требуется научить ИИ-системы понимать, когда неопределенность критична и требует уточнения, а когда ассистент может и должен действовать самостоятельно, опираясь на здравый смысл и контекст.
Для того, чтобы решить эту задачу нужны, во-первых, инструменты для сравнения разных алгоритмов, чтобы оценивать прогресс, а во-вторых, необходимы большие и правильно размеченные наборы данных, содержащие примеры человеческих запросов с неоднозначным содержанием.
Ученые из Института AIRI и МФТИ при поддержке Центра робототехники Сбера представили набор данных AmbiK, созданный для оценки систем, взаимодействующих с человеком через естественный язык. Основная задача проекта – моделировать ситуации, в которых робот сталкивается с неполными или неточными, многозначными инструкциями и должен запросить уточнения только тогда, когда это действительно необходимо.
Авторы AmbiK предлагают классифицировать неопределенности на три типа: связанные с предпочтениями пользователя, общими знаниями и вопросами безопасности. Такой подход помогает создавать более адаптивные и удобные для человека системы.
В ходе исследования был собран текстовый набор данных, включающий две тысячи задач с разметкой по типу неоднозначности для действий на кухне. Результаты показали, что существующие алгоритмы пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев. Новый набор данных стал самым большим в мире в своей предметной области, ранее существовавшие аналоги насчитывали порядка 600 примеров.
Исследование, датасет и сопутствующие материалы находятся в открытом доступе. Это делает бенчмарк не только научно значимым, но и практическим инструментом для создания более интуитивных и удобных интеллектуальных систем. Кроме того, текстовая природа AmbiK позволяет применять его для тестирования языковых моделей без привязки к визуальным данным.
«Еще одна важная особенность нашего датасета, которая пока не используется в проверяемых методах, но имеет большой потенциал, связана с инструкциями для многошаговых планов. Сейчас в исследовании мы рассматриваем команды как единичные действия — робот должен сразу определить, однозначна инструкция или требует уточнения. Однако в реальной робототехнике часто требуется планирование: разбивка задачи на последовательность шагов. Хотя текущие методы, которые мы сравниваем, не используют эту возможность, в нашем датасете дополнительно подготовлены планы для инструкций. Это означает, что можно анализировать, на каком именно этапе возникает неоднозначность. Таким образом, датасет пригоден не только для оценки распознавания нечетких команд, но и для систем, занимающихся планированием поведения», – отметил Алексей Ковалёв, руководитель группы «Воплощенные агенты» лаборатории «Когнитивные системы ИИ» Института AIRI.