8 个月前

计算机视觉

多任务学习

计算机视觉

Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito

摘要

我们提出 Sapiens，这是一个面向四大核心人类中心视觉任务的模型系列：2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理，并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调，轻松适配至具体任务。我们观察到，在相同计算预算下，基于精心筛选的人类图像数据集进行自监督预训练，能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力，即使在标注数据稀缺或完全为合成数据的情况下亦然。此外，我们设计的模型结构简单，具备良好的可扩展性——随着参数量从0.3亿增至20亿，各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K（姿态估计）任务上，相比先前最先进方法，mAP 提升7.6；在 Humans-2K（部位分割）任务上，mIoU 提升17.1；在 Hi4D（深度估计）任务上，相对RMSE降低22.4%；在 THuman2（表面法向预测）任务上，相对角度误差降低53.5%。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

计算机视觉

Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito

摘要

我们提出 Sapiens，这是一个面向四大核心人类中心视觉任务的模型系列：2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理，并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调，轻松适配至具体任务。我们观察到，在相同计算预算下，基于精心筛选的人类图像数据集进行自监督预训练，能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力，即使在标注数据稀缺或完全为合成数据的情况下亦然。此外，我们设计的模型结构简单，具备良好的可扩展性——随着参数量从0.3亿增至20亿，各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K（姿态估计）任务上，相比先前最先进方法，mAP 提升7.6；在 Humans-2K（部位分割）任务上，mIoU 提升17.1；在 Hi4D（深度估计）任务上，相对RMSE降低22.4%；在 THuman2（表面法向预测）任务上，相对角度误差降低53.5%。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供