
生成建模、表征学习与分类是机器学习(ML)领域的三个核心问题,然而当前最先进(SoTA)的解决方案在很大程度上彼此割裂。本文提出一个关键问题:是否能够通过一个统一的原则同时解决这三个问题?这种统一有望简化机器学习流程,并促进不同任务之间的协同效应。为此,我们提出潜在区域网络(Latent Zoning Network, LZN),作为迈向这一目标的重要一步。LZN的核心思想是构建一个共享的高斯潜在空间,用于编码所有任务的信息。每种数据类型(如图像、文本、标签)均配备一个编码器,将样本映射至互不重叠的潜在区域;同时配备一个解码器,将潜在表示还原为原始数据。机器学习任务通过这些编码器与解码器的组合来实现:例如,标签条件下的图像生成使用标签编码器与图像解码器;图像嵌入使用图像编码器;分类任务则结合图像编码器与标签解码器。我们在三个逐步复杂的场景中验证了LZN的潜力:(1)增强现有模型(图像生成):当与当前最先进模型——修正流模型(Rectified Flow)结合时,LZN在CIFAR10数据集上的FID得分从2.76提升至2.59,且无需修改原始训练目标。(2)独立完成任务(表征学习):LZN可在无需辅助损失函数的情况下实现无监督表征学习,在ImageNet上的下游线性分类任务中,分别超越经典方法MoCo与SimCLR 9.3%和0.2%。(3)联合求解多任务(联合生成与分类):通过设计图像与标签的编码器/解码器,LZN能够原生地联合执行生成与分类任务,不仅提升了FID性能,还在CIFAR10上实现了分类准确率的最先进水平。相关代码与训练好的模型已开源,地址为:https://github.com/microsoft/latent-zoning-networks。项目主页见:https://zinanlin.me/blogs/latent_zoning_networks.html。