Command Palette

Search for a command to run...

3 个月前

一张图像对于重建和生成而言价值32个token

一张图像对于重建和生成而言价值32个token

摘要

生成模型的最新进展凸显了图像分词(image tokenization)在高效合成高分辨率图像中的关键作用。分词技术将图像转换为潜在表示,相较于直接处理像素,显著降低了计算开销,同时提升了生成过程的有效性与效率。以往的方法(如VQGAN)通常采用固定下采样率的二维潜在网格进行分词。然而,这类二维分词方法在处理图像中固有的冗余信息时面临挑战——图像中相邻区域往往具有高度相似性。为解决这一问题,我们提出了一种基于Transformer的一维分词器(Transformer-based 1-Dimensional Tokenizer, TiTok),该方法将图像分词为一维潜在序列。TiTok能够生成更加紧凑的潜在表示,其效率和表达能力均显著优于传统技术。例如,对于一张256×256×3的图像,TiTok仅需32个离散令牌,远少于以往方法所得的256或1024个令牌。尽管表示极为紧凑,TiTok在性能上仍可与当前最先进方法相媲美。具体而言,在相同的生成器框架下,TiTok在ImageNet 256×256基准测试中取得1.97的gFID,较MaskGIT基线显著提升4.21。当处理更高分辨率图像时,TiTok的优势更加突出:在ImageNet 512×512基准测试中,TiTok不仅超越了当前最先进的扩散模型DiT-XL/2(gFID 2.74 vs. 3.04),还将图像令牌数量减少64倍,使生成速度提升410倍。我们表现最佳的变体在保持生成高质量样本的同时,生成速度比DiT-XL/2快74倍,且gFID达到2.13,显著优于DiT-XL/2的3.04。

代码仓库

lukaslaobeyer/token-opt
jax
GitHub 中提及
bytedance/1d-tokenizer
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供