通义千问开源 Qwen-Image 文生图模型

通义千问官方宣布开源一个20B的MMDiT模型 Qwen-Image ,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。在多个公开基准测试中, Qwen-Image 在各类生成与编辑任务中均获得 SOTA 。该模型突出能力之一是能够在不同场景中实现高保真的文本渲染。除了文本处理,也能在通用图像生成方面表现出色,支持多种艺术风格。在图像编辑方面支持风格迁移、增减修改、细节增强、文字编辑、人物姿势调整等多种操作。

—— 通义千问
 
 
Back to Top