HyperAI超神经

Qwen-Image是一款200亿参数的MMDiT图像基础模型，专为复杂文本渲染与精准图像编辑而设计，现已正式发布。用户可通过通义千问聊天界面选择“图像生成”功能体验最新模型。该模型在多项权威基准测试中表现卓越，涵盖通用图像生成（GenEval、DPG、OneIG-Bench）与图像编辑（GEdit、ImgEdit、GSO）任务，均达到当前最先进水平。尤其在文本渲染方面，Qwen-Image展现出强大优势，尤其在中文场景下表现突出。在LongText-Bench、ChineseWord和TextCraft等评测中，其生成效果显著超越现有模型，充分体现了其在中英文混合、复杂排版与高精度文字呈现上的领先能力。在实际应用中，Qwen-Image可实现高度还原的场景化文本生成。例如，在宫崎骏动漫风格的古街场景中，模型精准呈现“云存储”“云计算”“云模型”等中文招牌，以及酒缸上“千问”字样，文字清晰、布局合理，且与整体画面融合自然。在中式厅堂对联场景中，模型准确生成左右对联与横批，并还原书法风格与岳阳楼画作，青花瓷质感逼真。英文文本渲染同样出色。无论是书店橱窗的“New Arrivals This Week”标签，还是多本书籍封面文字的精确复现，模型均能准确识别并生成。在复杂信息图设计中，模型可完整布局六大模块，包含标题、图标、说明文字，整体风格兼具艺术性与可读性。对于小尺寸或长篇文本，模型同样表现优异。在人物手持泛黄纸张的场景中，即使文字仅占图像极小比例，仍能清晰呈现整段诗句。在玻璃板上书写多行中英双语内容时，模型可自由切换语言，实现自然流畅的混合排版。 Qwen-Image还具备强大的海报与PPT生成能力。可一键生成电影海报、科技感十足的企业级PPT，支持复杂排版、风格统一、中英混排，适用于品牌宣传、创意设计等专业场景。除文本渲染外，模型在通用图像生成方面覆盖写实、动漫、水墨、极简等多种风格，支持风格迁移、物体增删、细节增强、姿态调整等多样化编辑操作，让普通用户也能轻松完成专业级图像创作。总体而言，Qwen-Image致力于推动视觉内容生成技术的发展，降低创作门槛，激发创新应用。我们诚邀社区积极参与，共同构建开放、透明、可持续的生成式AI生态。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Qwen-Image：解锁原生文本渲染的创意新境界

相关链接

Command Palette

Qwen-Image：解锁原生文本渲染的创意新境界

相关链接

Command Palette

Qwen-Image：解锁原生文本渲染的创意新境界

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟