Применение дифференцируемого представления трехмерных сцен для распознавания объектов
Реконструкция и распознавание трехмерных сцен только на основе изображений видеокамер; важный современный тренд, который позволяет существенно удешевить процесс построения 3D моделей отдельных объектов или сцен целиком. Это полезно для систем дополненной/виртуальной реальности, технологий Метавселенной, мобильных и манипуляционных роботов, автономных транспортных средств и т. п.
Наиболее качественные системы распознавания 3D-сцен, как правило, строятся на основе глубоких нейронных сетей, для обучения которых требуется выполнение условия дифференцируемости представления подобных трехмерных сред.
В докладе будет дан обзор существующих дифференцируемых представлений трехмерных сцен: NeRF (Neural Radiance Field), SDF (Signed Distance Field), прямой вокселизации. Подробно будут рассмотрены методы семантической сегментации изображений с нового ракурса съёмки с помощью NeRF, аспекты их обучения, качества работы и быстродействия. Будет произведено обсуждение подходов оценки неопределённости (uncertainity) при активной генерации изображений с возможностью сегментации.
На семинаре также будет рассмотрено обнаружение трехмерных объектов на дифференцируемом представлении сцены и как его применить для оптимизации захвата объектов манипулятором.