Command Palette
Search for a command to run...
Haiyang Wang Chen Shi Shaoshuai Shi Meng Lei Sen Wang Di He Bernt Schiele Liwei Wang

摘要
设计一种高效且易于部署的3D骨干网络以处理稀疏点云,是三维感知领域的基础性问题。相较于专用的稀疏卷积,Transformer中的注意力机制在灵活建模长距离依赖关系方面更具优势,且在实际应用中更易于部署。然而,由于点云具有稀疏特性,直接将标准Transformer应用于稀疏点上仍面临挑战。本文提出了一种单步长窗口机制的稀疏体素Transformer骨干网络——动态稀疏窗口Transformer(Dynamic Sparse Voxel Transformer, DSVT),专为室外三维感知任务设计。为高效并行处理稀疏点,我们提出了动态稀疏窗口注意力机制(Dynamic Sparse Window Attention),该机制根据每个窗口内点云的稀疏程度自适应地划分局部区域,并以完全并行的方式计算所有区域的特征。为进一步实现跨集合连接,我们设计了一种旋转集合划分策略,在连续的自注意力层中交替使用两种不同的划分配置。此外,为支持有效的下采样并更好地编码几何信息,我们提出了一种基于注意力机制的稀疏点三维池化模块,该模块无需依赖任何定制化的CUDA操作,兼具强大性能与良好的部署友好性。实验结果表明,DSVT在多种三维感知任务中均达到当前最优性能。尤为重要的是,DSVT可借助TensorRT实现轻松部署,并在真实场景中实现高达27Hz的实时推理速度。代码将开源,地址为:\url{https://github.com/Haiyang-W/DSVT}。
代码仓库
haiyang-w/dsvt
官方
pytorch
GitHub 中提及
open-mmlab/mmdetection3d
pytorch
GitHub 中提及
happytianhao/tade
pytorch
GitHub 中提及
open-mmlab/OpenPCDet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-nuscenes | DSVT | NDS: 0.73 mAAE: 0.14 mAOE: 0.30 mASE: 0.23 mATE: 0.25 mAVE: 0.25 |
| 3d-object-detection-on-nuscenes-lidar-only | DSVT | NDS: 72.7 NDS (val): 71.1 mAP: 68.4 mAP (val): 66.4 |
| 3d-object-detection-on-waymo-cyclist | DSVT(val) | APH/L2: 78.0 |
| 3d-object-detection-on-waymo-open-dataset | DSVT | mAPH/L2: 72.1 |
| 3d-object-detection-on-waymo-pedestrian | DSVT(val) | APH/L2: 76.4 |
| 3d-object-detection-on-waymo-vehicle | DSVT(val) | APH/L2: 74.1 L1 mAP: 82.1 |