通义千问发布最新端到端多模态旗舰模型

周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。该模型现已在 Hugging FaceGitHubModelScopeDashScope上开源开放,用户可以通过其Demo体验互动功能,或是通过 QwenChat 直接发起语音或视频聊天,沉浸式体验全新的 Qwen2.5-Omni 模型强大性能。Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型。在多模态任务OmniBench,新模型达到了SOTA的表现。

—— 通义千问
 
 
Back to Top