Построение мультимодальных 3D-карт для интеллектуальных роботов с применением нейросетевых методов

трехмерная карта, мультимодальный метод, нейронная сеть, большая языковая модель, сегментация изображений, интеллектуальная робототехника

Abstract

Для систем навигации роботов все большую значимость набирают методы построения мультимодальных трехмерных карт. В таких картах каждая 3D-точка или объект содержат помимо информации о цвете и семантической категории, еще и сжатые векторные представления текстового описания или звука. Это позволяет решать задачи движения до объектов по сформулированным на естественном языке запросам, даже не содержащим упоминание объекта в явном виде. В настоящей статье предложена оригинальная таксономия методов, позволяющих строить мультимодальные 3D-карты с применением нейросетевых методов. Показано, что разреженные методы, использующие представление сцены в виде графа объектов и большие языковые модели для поиска ответа на сложные пространственные и семантические запросы, демонстрируют наиболее многообещающие результаты на существующих открытых бенчмарках. На основе проведенного анализа выявлены ограничения по выбору тех или иных методов для решения практических задач интеллектуальной робототехники.

Full text