8 个月前

摘要

我们的研究解决了头戴式设备（HMD）上向下摄像头进行以自我为中心的人体姿态估计的问题。这一场景具有挑战性，因为身体的某些部分经常超出图像范围或被遮挡。以往的解决方案通过使用鱼眼镜头来捕捉更宽广的视野，从而减少这一问题，但这可能导致硬件设计上的难题。此外，这些方法还通过预测每个关节的2D热图并将其提升到3D空间来处理自遮挡问题，但这种方法需要庞大的网络架构，在资源受限的HMD上难以部署。我们使用常规矩形镜头相机拍摄的图像来预测姿态。这解决了硬件设计问题，但也意味着身体部分经常不在画面内。因此，我们直接回归参数化人体模型中的矩阵费舍尔分布表示的概率关节旋转。这使我们能够量化姿态不确定性，并解释不在画面内或被遮挡的关节。同时，这也消除了计算2D热图的需求，允许简化深度神经网络（DNN）架构，从而减少计算需求。鉴于缺乏使用常规矩形镜头的以自我为中心的数据集，我们引入了SynthEgo数据集，这是一个包含60,000张立体图像的合成数据集，涵盖了高多样性的人体姿态、形状、服装和肤色。我们的方法在这一具有挑战性的配置中取得了最先进的结果，整体上减少了23%的平均关节位置误差，下肢部位减少了58%的误差。我们的架构参数量也比当前最先进的方法少八倍，并且运行速度提高了两倍。实验表明，在我们的合成数据集上训练可以很好地泛化到真实世界图像而无需微调。

源 PDF 查看代码