Source
Doklady Rossijskoj Akademii Nauk. Mathematika, Informatika, Processy
DATE OF PUBLICATION
12/31/2024
Authors
Share

Построение мультимодальных 3D-карт для интеллектуальных роботов с применением нейросетевых методов

Abstract

Для систем навигации роботов все большую значимость набирают методы построения мультимодальных трехмерных карт. В таких картах каждая 3D-точка или объект содержат помимо информации о цвете и семантической категории, еще и сжатые векторные представления текстового описания или звука. Это позволяет решать задачи движения до объектов по сформулированным на естественном языке запросам, даже не содержащим упоминание объекта в явном виде. В настоящей статье предложена оригинальная таксономия методов, позволяющих строить мультимодальные 3D-карты с применением нейросетевых методов. Показано, что разреженные методы, использующие представление сцены в виде графа объектов и большие языковые модели для поиска ответа на сложные пространственные и семантические запросы, демонстрируют наиболее многообещающие результаты на существующих открытых бенчмарках. На основе проведенного анализа выявлены ограничения по выбору тех или иных методов для решения практических задач интеллектуальной робототехники.

Join AIRI