摘要

本文的研究目标是实现对未见说话人的“开放集”说话人识别，理想的嵌入表示应能将信息压缩为紧凑的语音段级表征，同时具备较小的说话人内距离和较大的说话人间距离。在说话人识别领域，一种普遍观点认为，采用分类目标训练的网络性能优于度量学习方法。本文在VoxCeleb数据集上对主流的说话人识别损失函数进行了全面评估。结果表明，原始的三元组损失（vanilla triplet loss）在性能上可与基于分类的损失方法相媲美；而采用本文所提出的度量学习目标训练的模型，则优于当前最先进的方法。

源 PDF