3 个月前

一张图像对于重建和生成而言价值32个token

Qihang Yu Mark Weber Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

摘要

生成模型的最新进展凸显了图像分词（image tokenization）在高效合成高分辨率图像中的关键作用。分词技术将图像转换为潜在表示，相较于直接处理像素，显著降低了计算开销，同时提升了生成过程的有效性与效率。以往的方法（如VQGAN）通常采用固定下采样率的二维潜在网格进行分词。然而，这类二维分词方法在处理图像中固有的冗余信息时面临挑战——图像中相邻区域往往具有高度相似性。为解决这一问题，我们提出了一种基于Transformer的一维分词器（Transformer-based 1-Dimensional Tokenizer, TiTok），该方法将图像分词为一维潜在序列。TiTok能够生成更加紧凑的潜在表示，其效率和表达能力均显著优于传统技术。例如，对于一张256×256×3的图像，TiTok仅需32个离散令牌，远少于以往方法所得的256或1024个令牌。尽管表示极为紧凑，TiTok在性能上仍可与当前最先进方法相媲美。具体而言，在相同的生成器框架下，TiTok在ImageNet 256×256基准测试中取得1.97的gFID，较MaskGIT基线显著提升4.21。当处理更高分辨率图像时，TiTok的优势更加突出：在ImageNet 512×512基准测试中，TiTok不仅超越了当前最先进的扩散模型DiT-XL/2（gFID 2.74 vs. 3.04），还将图像令牌数量减少64倍，使生成速度提升410倍。我们表现最佳的变体在保持生成高质量样本的同时，生成速度比DiT-XL/2快74倍，且gFID达到2.13，显著优于DiT-XL/2的3.04。

代码仓库

lukaslaobeyer/token-opt

jax

GitHub 中提及

bytedance/1d-tokenizer

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-generation-on-imagenet-256x256	TiTok-S-128	FID: 1.97
image-generation-on-imagenet-256x256	TiTok-B-64	FID: 2.48
image-generation-on-imagenet-256x256	TiTok-B-32	FID: 2.77
image-generation-on-imagenet-512x512	TiTok-L-64	FID: 2.49
image-generation-on-imagenet-512x512	TiTok-B-128	FID: 2.13
image-reconstruction-on-imagenet	TiTok-S-128	FID: 1.71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

一张图像对于重建和生成而言价值32个token

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters