Command Palette
Search for a command to run...
Danila Rukhovich Anna Vorontsova Anton Konushin

摘要
本文将基于多视角RGB图像的3D物体检测任务建模为一个端到端优化问题。为解决该问题,我们提出ImVoxelNet,一种基于单目或多视角RGB图像的全新全卷积3D物体检测方法。在训练与推理过程中,每个多视角输入中的单目图像数量可动态变化,且不同输入间的图像数量可能各不相同。ImVoxelNet能够有效处理室内与室外场景,具备良好的通用性。具体而言,在仅接受RGB图像输入的方法中,ImVoxelNet在KITTI(单目)和nuScenes(多视角)数据集上的车辆检测任务中均取得了当前最优性能;同时,其在SUN RGB-D数据集上的表现也超越了现有基于RGB的3D物体检测方法。在ScanNet数据集上,ImVoxelNet为多视角3D物体检测设立了新的基准。相关源代码与训练好的模型已公开,地址为:https://github.com/saic-vul/imvoxelnet。
代码仓库
chetanmreddy/voxelnet_chetan
pytorch
GitHub 中提及
open-mmlab/mmdetection3d
pytorch
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| 3d-object-detection-on-dair-v2x-i | ImVoxelNet | AP|R40(easy): 44.8 AP|R40(hard): 37.6 AP|R40(moderate): 37.6  | 
| 3d-object-detection-on-scannetv2 | ImVoxelNet (RGB only) | mAP@0.25: 48.1 mAP@0.5: 22.7  | 
| monocular-3d-object-detection-on-sun-rgb-d | ImVoxelNet | AP@0.15 (10 / NYU-37): 42.69 AP@0.15 (10 / PNet-30): 48.74 AP@0.15 (NYU-37): 21.08  |