HyperAI超神经

摘要

基于生成对抗网络（GAN）的声码器（vocoder）因其能够以高于实时的速度合成高保真音频波形而受到广泛关注。然而，已有研究指出，大多数GAN在特征空间中难以获得区分真实数据与伪造数据的最优投影。在现有文献中，研究已证明一种改进的GAN训练框架——切片对抗网络（Slicing Adversarial Network, SAN），能够有效寻找最优投影，在图像生成任务中表现出显著性能。本文旨在探究SAN在声码器任务中的有效性。为此，我们提出一种改进方案，对当前大多数基于GAN的声码器所采用的最小二乘GAN（Least-Squares GAN）进行调整，使其损失函数满足SAN的要求。实验结果表明，仅通过少量修改，SAN即可显著提升基于GAN的声码器（包括BigVGAN）的性能。相关代码已开源，地址为：https://github.com/sony/bigvsan。

摘要

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BigVSAN：通过切片对抗网络增强基于GAN的神经声码器

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BigVSAN：通过切片对抗网络增强基于GAN的神经声码器

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BigVSAN：通过切片对抗网络增强基于GAN的神经声码器

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

摘要

用 AI 构建 AI

HyperAI Newsletters