Command Palette
Search for a command to run...

摘要
生成模型的最新进展凸显了图像分词(image tokenization)在高效合成高分辨率图像中的关键作用。分词技术将图像转换为潜在表示,相较于直接处理像素,显著降低了计算开销,同时提升了生成过程的有效性与效率。以往的方法(如VQGAN)通常采用固定下采样率的二维潜在网格进行分词。然而,这类二维分词方法在处理图像中固有的冗余信息时面临挑战——图像中相邻区域往往具有高度相似性。为解决这一问题,我们提出了一种基于Transformer的一维分词器(Transformer-based 1-Dimensional Tokenizer, TiTok),该方法将图像分词为一维潜在序列。TiTok能够生成更加紧凑的潜在表示,其效率和表达能力均显著优于传统技术。例如,对于一张256×256×3的图像,TiTok仅需32个离散令牌,远少于以往方法所得的256或1024个令牌。尽管表示极为紧凑,TiTok在性能上仍可与当前最先进方法相媲美。具体而言,在相同的生成器框架下,TiTok在ImageNet 256×256基准测试中取得1.97的gFID,较MaskGIT基线显著提升4.21。当处理更高分辨率图像时,TiTok的优势更加突出:在ImageNet 512×512基准测试中,TiTok不仅超越了当前最先进的扩散模型DiT-XL/2(gFID 2.74 vs. 3.04),还将图像令牌数量减少64倍,使生成速度提升410倍。我们表现最佳的变体在保持生成高质量样本的同时,生成速度比DiT-XL/2快74倍,且gFID达到2.13,显著优于DiT-XL/2的3.04。
代码仓库
lukaslaobeyer/token-opt
jax
GitHub 中提及
bytedance/1d-tokenizer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| image-generation-on-imagenet-256x256 | TiTok-S-128 | FID: 1.97  | 
| image-generation-on-imagenet-256x256 | TiTok-B-64 | FID: 2.48  | 
| image-generation-on-imagenet-256x256 | TiTok-B-32 | FID: 2.77  | 
| image-generation-on-imagenet-512x512 | TiTok-L-64 | FID: 2.49  | 
| image-generation-on-imagenet-512x512 | TiTok-B-128 | FID: 2.13  | 
| image-reconstruction-on-imagenet | TiTok-S-128 | FID: 1.71  |