Command Palette
Search for a command to run...
Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

摘要
三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在本研究中,我们提出了一种新的框架,称为BEVFormer,该框架通过使用时空变换器学习统一的鸟瞰图(BEV)表示来支持多种自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力机制,每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意力机制,以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%,比之前的最佳方法高出9.0个百分点,并且性能与基于激光雷达(LiDAR)的基线相当。此外,我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取:https://github.com/zhiqi-li/BEVFormer。
代码仓库
zhiqi-li/BEVFormer
官方
GitHub 中提及
valeoai/pointbev
pytorch
GitHub 中提及
fundamentalvision/BEVFormer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| 3d-object-detection-on-dair-v2x-i | BEVFormer | AP|R40(easy): 61.4 AP|R40(hard): 50.7 AP|R40(moderate): 50.7  | 
| 3d-object-detection-on-nuscenes | BEVFormer | NDS: 0.57 mAAE: 0.13 mAOE: 0.38 mAP: 0.48 mASE: 0.26 mATE: 0.58 mAVE: 0.38  | 
| 3d-object-detection-on-nuscenes-camera-only | BEVFormer | Future Frame: false NDS: 56.9  | 
| bird-s-eye-view-semantic-segmentation-on | BEVFormer | IoU lane - 224x480 - 100x100 at 0.5: 25.7 IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 35.8 IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 42.0 IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 39.0 IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 45.5  | 
| bird-s-eye-view-semantic-segmentation-on-lyft | BEVFormer (EfficientNet-b4) | IoU vehicle - 224x480 - Long: 44.5 IoU vehicle - 224x480 - Short: 69.9  | 
| bird-s-eye-view-semantic-segmentation-on-lyft | BEVFormer(ResNet-50) | IoU vehicle - 224x480 - Long: 43.2 IoU vehicle - 224x480 - Short: 68.8  |