Command Palette

Search for a command to run...

5 个月前

智人:人类视觉模型的基础

智人:人类视觉模型的基础

摘要

我们提出 Sapiens,这是一个面向四大核心人类中心视觉任务的模型系列:2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理,并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调,轻松适配至具体任务。我们观察到,在相同计算预算下,基于精心筛选的人类图像数据集进行自监督预训练,能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力,即使在标注数据稀缺或完全为合成数据的情况下亦然。此外,我们设计的模型结构简单,具备良好的可扩展性——随着参数量从0.3亿增至20亿,各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K(姿态估计)任务上,相比先前最先进方法,mAP 提升7.6;在 Humans-2K(部位分割)任务上,mIoU 提升17.1;在 Hi4D(深度估计)任务上,相对RMSE降低22.4%;在 THuman2(表面法向预测)任务上,相对角度误差降低53.5%。

代码仓库

基准测试

基准方法指标
2d-human-pose-estimation-on-coco-wholebody-1Sapiens-2B
WB: 74.4
body: 79.2
face: 91.2
foot: 84.1
hand: 70.4
2d-human-pose-estimation-on-coco-wholebody-1Sapiens-0.3B
WB: 62.0
body: 66.4
face: 87.1
foot: 67.3
hand: 58.1
keypoint-detection-on-cocoSapiens-1B
Validation AP: 82.1
keypoint-detection-on-cocoSapiens-2B
Validation AP: 82.2
keypoint-detection-on-cocoSapiens-0.3B
Validation AP: 79.6
keypoint-detection-on-cocoSapiens-0.6B
Validation AP: 81.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供