Qwen-Image:解锁原生文本渲染的创意新境界
Qwen-Image是一款200亿参数的MMDiT图像基础模型,专为复杂文本渲染与精准图像编辑而设计,现已正式发布。用户可通过通义千问聊天界面选择“图像生成”功能体验最新模型。 该模型在多项权威基准测试中表现卓越,涵盖通用图像生成(GenEval、DPG、OneIG-Bench)与图像编辑(GEdit、ImgEdit、GSO)任务,均达到当前最先进水平。尤其在文本渲染方面,Qwen-Image展现出强大优势,尤其在中文场景下表现突出。在LongText-Bench、ChineseWord和TextCraft等评测中,其生成效果显著超越现有模型,充分体现了其在中英文混合、复杂排版与高精度文字呈现上的领先能力。 在实际应用中,Qwen-Image可实现高度还原的场景化文本生成。例如,在宫崎骏动漫风格的古街场景中,模型精准呈现“云存储”“云计算”“云模型”等中文招牌,以及酒缸上“千问”字样,文字清晰、布局合理,且与整体画面融合自然。在中式厅堂对联场景中,模型准确生成左右对联与横批,并还原书法风格与岳阳楼画作,青花瓷质感逼真。 英文文本渲染同样出色。无论是书店橱窗的“New Arrivals This Week”标签,还是多本书籍封面文字的精确复现,模型均能准确识别并生成。在复杂信息图设计中,模型可完整布局六大模块,包含标题、图标、说明文字,整体风格兼具艺术性与可读性。 对于小尺寸或长篇文本,模型同样表现优异。在人物手持泛黄纸张的场景中,即使文字仅占图像极小比例,仍能清晰呈现整段诗句。在玻璃板上书写多行中英双语内容时,模型可自由切换语言,实现自然流畅的混合排版。 Qwen-Image还具备强大的海报与PPT生成能力。可一键生成电影海报、科技感十足的企业级PPT,支持复杂排版、风格统一、中英混排,适用于品牌宣传、创意设计等专业场景。 除文本渲染外,模型在通用图像生成方面覆盖写实、动漫、水墨、极简等多种风格,支持风格迁移、物体增删、细节增强、姿态调整等多样化编辑操作,让普通用户也能轻松完成专业级图像创作。 总体而言,Qwen-Image致力于推动视觉内容生成技术的发展,降低创作门槛,激发创新应用。我们诚邀社区积极参与,共同构建开放、透明、可持续的生成式AI生态。