Command Palette

Search for a command to run...

5 个月前

BEVFormer:通过时空Transformer从多相机图像中学习鸟瞰图表示

Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

BEVFormer:通过时空Transformer从多相机图像中学习鸟瞰图表示

摘要

三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在本研究中,我们提出了一种新的框架,称为BEVFormer,该框架通过使用时空变换器学习统一的鸟瞰图(BEV)表示来支持多种自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力机制,每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意力机制,以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%,比之前的最佳方法高出9.0个百分点,并且性能与基于激光雷达(LiDAR)的基线相当。此外,我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取:https://github.com/zhiqi-li/BEVFormer。

代码仓库

zhiqi-li/BEVFormer
官方
GitHub 中提及
valeoai/pointbev
pytorch
GitHub 中提及
fundamentalvision/BEVFormer
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-dair-v2x-iBEVFormer
AP|R40(easy): 61.4
AP|R40(hard): 50.7
AP|R40(moderate): 50.7
3d-object-detection-on-nuscenesBEVFormer
NDS: 0.57
mAAE: 0.13
mAOE: 0.38
mAP: 0.48
mASE: 0.26
mATE: 0.58
mAVE: 0.38
3d-object-detection-on-nuscenes-camera-onlyBEVFormer
Future Frame: false
NDS: 56.9
bird-s-eye-view-semantic-segmentation-onBEVFormer
IoU lane - 224x480 - 100x100 at 0.5: 25.7
IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 35.8
IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 42.0
IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 39.0
IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 45.5
bird-s-eye-view-semantic-segmentation-on-lyftBEVFormer (EfficientNet-b4)
IoU vehicle - 224x480 - Long: 44.5
IoU vehicle - 224x480 - Short: 69.9
bird-s-eye-view-semantic-segmentation-on-lyftBEVFormer(ResNet-50)
IoU vehicle - 224x480 - Long: 43.2
IoU vehicle - 224x480 - Short: 68.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供