Command Palette
Search for a command to run...
Rawal KhirodkarTimur BagautdinovJulieta MartinezSu ZhaoenAustin JamesPeter SelednikStuart AndersonShunsuke Saito

摘要
我们提出 Sapiens,这是一个面向四大核心人类中心视觉任务的模型系列:2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理,并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调,轻松适配至具体任务。我们观察到,在相同计算预算下,基于精心筛选的人类图像数据集进行自监督预训练,能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力,即使在标注数据稀缺或完全为合成数据的情况下亦然。此外,我们设计的模型结构简单,具备良好的可扩展性——随着参数量从0.3亿增至20亿,各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K(姿态估计)任务上,相比先前最先进方法,mAP 提升7.6;在 Humans-2K(部位分割)任务上,mIoU 提升17.1;在 Hi4D(深度估计)任务上,相对RMSE降低22.4%;在 THuman2(表面法向预测)任务上,相对角度误差降低53.5%。
代码仓库
facebookresearch/sapiens
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-coco-wholebody-1 | Sapiens-2B | WB: 74.4 body: 79.2 face: 91.2 foot: 84.1 hand: 70.4 |
| 2d-human-pose-estimation-on-coco-wholebody-1 | Sapiens-0.3B | WB: 62.0 body: 66.4 face: 87.1 foot: 67.3 hand: 58.1 |
| keypoint-detection-on-coco | Sapiens-1B | Validation AP: 82.1 |
| keypoint-detection-on-coco | Sapiens-2B | Validation AP: 82.2 |
| keypoint-detection-on-coco | Sapiens-0.3B | Validation AP: 79.6 |
| keypoint-detection-on-coco | Sapiens-0.6B | Validation AP: 81.2 |