Command Palette

Search for a command to run...

3 个月前

DSVT:带旋转集合的动态稀疏体素Transformer

Haiyang Wang Chen Shi Shaoshuai Shi Meng Lei Sen Wang Di He Bernt Schiele Liwei Wang

DSVT:带旋转集合的动态稀疏体素Transformer

摘要

设计一种高效且易于部署的3D骨干网络以处理稀疏点云,是三维感知领域的基础性问题。相较于专用的稀疏卷积,Transformer中的注意力机制在灵活建模长距离依赖关系方面更具优势,且在实际应用中更易于部署。然而,由于点云具有稀疏特性,直接将标准Transformer应用于稀疏点上仍面临挑战。本文提出了一种单步长窗口机制的稀疏体素Transformer骨干网络——动态稀疏窗口Transformer(Dynamic Sparse Voxel Transformer, DSVT),专为室外三维感知任务设计。为高效并行处理稀疏点,我们提出了动态稀疏窗口注意力机制(Dynamic Sparse Window Attention),该机制根据每个窗口内点云的稀疏程度自适应地划分局部区域,并以完全并行的方式计算所有区域的特征。为进一步实现跨集合连接,我们设计了一种旋转集合划分策略,在连续的自注意力层中交替使用两种不同的划分配置。此外,为支持有效的下采样并更好地编码几何信息,我们提出了一种基于注意力机制的稀疏点三维池化模块,该模块无需依赖任何定制化的CUDA操作,兼具强大性能与良好的部署友好性。实验结果表明,DSVT在多种三维感知任务中均达到当前最优性能。尤为重要的是,DSVT可借助TensorRT实现轻松部署,并在真实场景中实现高达27Hz的实时推理速度。代码将开源,地址为:\url{https://github.com/Haiyang-W/DSVT}。

代码仓库

haiyang-w/dsvt
官方
pytorch
GitHub 中提及
open-mmlab/mmdetection3d
pytorch
GitHub 中提及
happytianhao/tade
pytorch
GitHub 中提及
open-mmlab/OpenPCDet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-nuscenesDSVT
NDS: 0.73
mAAE: 0.14
mAOE: 0.30
mASE: 0.23
mATE: 0.25
mAVE: 0.25
3d-object-detection-on-nuscenes-lidar-onlyDSVT
NDS: 72.7
NDS (val): 71.1
mAP: 68.4
mAP (val): 66.4
3d-object-detection-on-waymo-cyclistDSVT(val)
APH/L2: 78.0
3d-object-detection-on-waymo-open-datasetDSVT
mAPH/L2: 72.1
3d-object-detection-on-waymo-pedestrianDSVT(val)
APH/L2: 76.4
3d-object-detection-on-waymo-vehicleDSVT(val)
APH/L2: 74.1
L1 mAP: 82.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供