HyperAIHyperAI

Command Palette

Search for a command to run...

从语音生成整体3D人体运动

Hongwei Yi Hualin Liang Yifei Liu Qiong Cao Yandong Wen Timo Bolkart Dacheng Tao Michael J. Black

摘要

这项研究解决了从人类语音生成三维全身动作的问题。给定一段语音录音,我们合成了真实且多样的三维身体姿态、手势和面部表情序列。为了实现这一目标,我们首先构建了一个高质量的同步语音三维全身网格数据集。接着,我们定义了一种新颖的语音到动作生成框架,其中面部、身体和手部被分别建模。这种分离建模源于面部动作与人类语音之间存在强相关性,而身体姿态和手势的相关性较弱。具体而言,我们使用了自动编码器来处理面部动作,并采用了一种组合式的向量量化变分自动编码器(VQ-VAE)来生成身体和手部的动作。组合式 VQ-VAE 是生成多样化结果的关键。此外,我们提出了一种交叉条件自回归模型,该模型能够生成连贯且真实的全身动作和手势。大量的实验和用户研究表明,我们的方法在定性和定量方面均达到了当前最佳性能。我们的新型数据集和代码将发布在 https://talkshow.is.tue.mpg.de 以供研究使用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供