Построение мультимодальных 3D-карт для интеллектуальных роботов с применением нейросетевых методов
Abstract
Для систем навигации роботов все большую значимость набирают методы построения мультимодальных трехмерных карт. В таких картах каждая 3D-точка или объект содержат помимо информации о цвете и семантической категории, еще и сжатые векторные представления текстового описания или звука. Это позволяет решать задачи движения до объектов по сформулированным на естественном языке запросам, даже не содержащим упоминание объекта в явном виде. В настоящей статье предложена оригинальная таксономия методов, позволяющих строить мультимодальные 3D-карты с применением нейросетевых методов. Показано, что разреженные методы, использующие представление сцены в виде графа объектов и большие языковые модели для поиска ответа на сложные пространственные и семантические запросы, демонстрируют наиболее многообещающие результаты на существующих открытых бенчмарках. На основе проведенного анализа выявлены ограничения по выбору тех или иных методов для решения практических задач интеллектуальной робототехники.
Similar publications
partnership