阿里通义 Qwen3-TTS 家族上新两款 AI 模型:声音不仅能复制,还可以定制

IT之家 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特点如下:

Qwen3-TTS-VD-Flash

Qwen3-TTS 支持通过自然语言描述生成定制化的音色形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出自己期望的声音形象。

可控生成:在 InstructTTS-Eval 中,Qwen3-TTS 综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越 Gemini-2.5-pro-preview-tts。

图片

Qwen3-TTS-VC-Flash

Qwen3-TTS 支持通过自然 3s 级别音色克隆,并且可以基于克隆的音色生成多语种音频,同时对复杂文本和野生音频都有较高的鲁棒性。

多语种音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等语项的内容稳定性优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均词错误率(WER)位居第一。

图片

Qwen3-TTS-Voice-Design API 文档:

https://www.alibabacloud.com/help/zh/model-studio/qwen-tts-voice-design?spm=a2ty_o06.30285417.0.0.56a0c9216Ey6VM

Qwen3-TTS-Voice-Clone API 文档:

https://www.alibabacloud.com/help/zh/model-studio/qwen-tts-voice-cloning?spm=a2ty_o06.30285417.0.0.56a0c921WnHNlN