实测千问 App 生图、生视频功能:国产实用主义的突围

作者|Cynthia

编辑| 郑玄

Sora 2 的与奥特曼对话的音画同步视频生成,还有 Nano Banana Pro 的风格化生图狂欢热潮还没过去,多模态 AI 领域又有重磅更新上场:

阿里的千问 APP 在 12 月初悄然完成了一次关键版本更新,接入国内最强 AI 生视频模型 Wan 2.5,以及全球开源领先 AI 生图模型的特供满血版 Qwen-Image 2511,更重要的是,生图功能直接拉满免费不限次,彻底降低用户的使用门槛。

在此之前,我们曾深度测评过 Wan 2.5 的网页版(详见 从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录 ),当时就觉得这模型实用到不像当下 AI 圈的东西:没有追 1 分钟长视频的噱头,也没讲各种用户根本看不懂的参数。就专注一件事:把 10 秒内的音画同步、细节还原做到了极致。

如今它下放到手机端,再配上 Qwen-Image 2511 这张 免王牌」一同下放到千问 APP,可以说,这是阿里将 B 端沉淀的多模态技术向 C 端场景落地的重要尝试。

那么 APP 端视频生成的体验究竟是否能像此前网页端一样惊艳?还有,卷了这么多年的图片生成大模型,这次千问+ Qwen-Image 2511 又能带来什么惊喜?

带着两个核心疑问,我们用一周时间把这两个功能用到了极致,试图为大家解决以下问题:

Qwen-Image 2511 是否能真正解决传统 AI 生图的人物崩脸、中文乱码等行业痛点?Wan 2.5 在音画同步、长视频叙事上与国际主流模型的差距是否缩小?免费模式背后,阿里又在构建怎样的 AI 生态闭环?

 

01

视频能力实测:

Wan 2.5背后国产模型的实用主义路线

 

Wan 2.5 是谁,相信很多了解过 AI 视频生成的朋友已经对此并不陌生。

作为为数不多能够对标谷歌 Veo3 的视频生成大模型,Wan 2.5 核心突破在于音画同步与 10 秒长视频生成以及更精细、好看的画面。

说的更直白一点,Wan2.5 不仅是 2025 年国内最先进的多模态生成模型之一,绝对也是你用过最具性价比的一梯队 AI 视频生成产品。

接下来,我们从音画同步、场景化功能、细节表现三个层面,解析其实际表现。

测试一:音画同步、时长

音画不同步、短时长限制、细节不突出,是过去国产视频模型与 Sora、Veo3 等国际模型的主要差距。针对以上问题,我们直接让 Wan2.5 生成:在复杂场景中,生成两个不同风格人物对话的剧情。

提示词如下:

暮春午后,石质柱廊蜿蜒延伸,青灰色石板映着斑驳光影,阶前青草点缀,风拂过荀子身着玄色宽袍腰束素带,与身披浅灰亚麻袍、赤足踏石的苏格拉底相对而立。镜头先以全景定格,随即推进至荀子中近景,他广袖一扬,特写中眼神如炬,沉凝有力地掷出:「人性本恶!争则乱,乱则穷!」镜头横切至苏格拉底,中近景里他双手自然摊开,指尖轻叩石面,眉宇从容,温和却带锋芒地反驳:「人性本善,无人有意作恶。」最后镜头从两人面部拉远,回归全景,柱廊光影流转,风拂衣袂,两人对立的身影在古意场景中定格。

看似简单,但这段提示词里,实际埋了三个坑:

第一,风格冲突:需兼顾古风与西方两种人物风格,避免不同穿着人物实际共用一张脸的情况;

第二,音画同步:两个角色的台词「人性本恶!争则乱,乱则穷」「人性本善,无人有意作恶」要对口型,还要匹配动作,并且两人的语气与神情各不相同。

第三,复杂画面,元素不丢:石质柱廊,青灰色石板、斑驳光影、阶前青草点缀,不能随着镜头的切换凭空消失。

最终生成效果如下:

可以看到,Wan2.5 的音画同步准确率相当不错,而且我们一开始担心各种问题,Wan2.5 都解决的很好。首先是高度一致的音画同步,细节上,不仅人物挥动衣袖的动作、身体、音画同步自然流畅,就连场景也有很高的一致性,整体画面切换调度也颇有动画电影的水平。

测试二:细节控制

如果说卡通测试是基础题,那电影级写实测试就是附加题。

此前在 Wan2.5-Preview 时期,我们就已经见识到了它在细节还原、氛围打造上的厉害之处。不过这次,我们让难度再升级,从黄昏树林中静止的男生,变成真实复杂场景中,两个运动中的主角。

提示词:【风格设定】电影级写实风格,画面干净通透,兼具温柔氛围感与高级电影感;线条细腻,质感真实。【人物 + 动物+动作设定】

人物:20 岁年轻白人女孩,轮廓分明,皮肤白皙,长发微卷,眼神清澈带一丝温柔沉思;穿着米白色棉麻长裙(领口微敞,袖口随意卷起),衣料有自然褶皱,质感轻薄透气。

动物:一只温顺的小鹿(毛色浅棕带白色斑点,鹿角短小圆润),头部轻靠女子左臂,眼神柔和,耳朵偶尔轻微晃动,与女子互动自然不僵硬。

动作:女孩牵着鹿从森林中缓缓走来

【场景设定】黄昏稀疏落叶林,树干笔直修长,树叶泛黄带绿(秋夏交替质感),地面覆盖少量浅棕色落叶;时间为日落前 1 小时,天色呈暖橙与淡紫渐变,空气通透无雾气。

【镜头与光影核心要求】

镜头参数:长镜头(无切换),中景构图(人物 + 小鹿占画面 60%),中心构图(人物与小鹿位于画面正中心),干净单人 + 动物镜头(无多余路人 / 杂物);背景虚化(景深 f/2.8),突出主体,虚化后背景呈斑驳圆形光斑。

光影层次:

逆光:太阳位于人物后方偏左侧,形成金色轮廓光(勾勒发丝、肩膀、衬衫边缘),轮廓光宽度 1-2cm,柔和不刺眼;

侧光:右侧补柔和侧光,照亮人物半张脸,避免面部全黑,形成「半明半暗」的层次感;

柔光:整体光线经过树叶过滤,呈漫射效果,无硬边阴影。

先说结论,这是最近各种 AI 视频测试中,最让我感到惊喜的一个。

先看必答题:女孩的棉麻长裙,袖口卷起的地方有自然的褶皱,不是熨烫平整的假质感;小鹿的头靠在女孩手臂上时,耳朵会轻轻晃动,不是 焊死在头上;逆光的金色轮廓光,刚好勾勒在发丝和肩膀边缘,没有糊成一片。女孩转弯前真实的眼神变化,走路时自然飘动的发丝,真实到仿佛电影画面。背景虚化后的光斑是圆形斑驳,不是呆板的圆形光斑,这细节已经能吊打不少 老法师了。

然后是彩蛋:我忘记了在提示词里写任何声音,但视频里居然有 咔嚓咔嚓女孩和小鹿踩过落叶时的脚步声,声音会随着步伐的快慢变化;背景里还有清脆且有空间远近层进的鸟叫声。

据了解,这种画面审美突破的核心在于,Wan 2.5 通过引入人类反馈的强化学习(RLHF),把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型,从而彻底让 AI 视频生成摆脱了过去诡异中带着点赛博丑陋的标签。

测试三:场景化功能体验

不同于国际模型侧重各种技术极限,Wan 2.5 更注重实用场景适配,此前通义推出的全民舞王一度让全中国的奶牛猫都突然站立开始跳印度舞,虽然魔性,但直指普通用户的创作痛点。

这里的测试,我们不再采用固定的模版,而是玩了个 脑洞测试:上传一张小猫的照片,让它驮着孙悟空在非洲大草原狂奔。

这个需求的难点在于双重动态:小猫跑步时的肌肉形变、孙悟空的丝带飘动,还要保持小猫的原长相。毕竟,很多 AI 处理图生视频 + 复杂动作时,会把主体搞成橡皮泥,要么肌肉不动,要么脸崩了。

效果如下:

可以看到,这里的测试效果依然很稳定,小猫已经驮着孙悟空在非洲大草原奔驰,会有肌肉的运动,孙悟空的丝带飘向风的方向,不是 360 度乱转;最关键的是,小猫的脸和我上传的照片几乎一致——耳朵的弧度、眼睛的颜色,甚至额头的精细花纹全都没丢。

 

02

生图实测:

免费工具的专业度上限有多高

 

原本测完视频能力之后,我已经觉得不会有更多超出的惊喜出现了,但万万没想到 Qwen-Image 2511 模型的能力,同样打了我个措手不及。

官方资料显示,Qwen-Image 2511 模型在 Huggingface 趋势榜登顶数周,开源生态贡献度全球第一,AI arena 竞技场排名仅次于闭源模型 nano banana 与 seedream 4.0。

不过这些数据对用户而言,其实价值意义不大,还需转化为实际使用体验才能被认可,我们依然通过三组核心测试验证其落地能力。

测试一:连续创作过程中的人物一致性。

AI 生图的核心痛点之一,是无法在多轮生成中保持人物特征稳定性,经常是更换场景、调整动作后,人物面部特征易出现崩脸、换脸问题。这就导致,AI 出神图容易,但是用在生产环境稳定出图反而是个问题,而 Qwen-Image 2511 很好的解决了这个问题。

我们以同一人物(动物)多场景生成为测试场景,来「嫁祸」一只小猫咪:

输入素材:一张金渐层小猫的照片

生成指令:给小猫穿上粉色裙子、给小猫面前放个花瓶小猫推花瓶、让花瓶碎在小猫面前

可以看到,Qwen-Image 2511 完整保留了测试对象也就是金渐层的面部特征之外,穿上的衣服也与小猫的身形完美符合,一个有些有意思的细节是,每次 Qwen-Image 2511 生图都是四张,而这四组图片中,小猫的裙子颜色、花的颜色与款式,都是完全一一对应的,细节满分。

测试二:中文文字+商用场景适配

对中小商家而言,AI 生图的核心价值在于降低商用素材制作成本——能否生成符合平台规范的商品图、海报图,直接决定工具的实用价值。

此外,中文场景下,当前市面上的其他 AI 生图常出现文字乱码、字体错位问题,说白了就是像鬼画符。其中,表现差一点的,完全看不出来文字到底是什么;表现稍好一点的,也会出现某个字少个偏旁,缺了一横,或者多了一竖。总之,模型对中文语义与排版逻辑的理解始终弱于英文。

这次,我们测试直接上难度,不只要能写汉字,还要有排版,写的好看,并且还要搭配复杂商用级别画面。

提示词:做一个海报,核心主题「天然无谷狗粮 | 狗狗健康成长的能量源泉」

视觉主体:纯种金毛,6-12 个月幼犬,毛发蓬松有光泽,眼神灵动,正低头大口啃食狗粮(嘴角带少量粮屑,呈现「适口性极佳」的真实感),姿态放松愉悦(如趴在草地 / 地毯上,尾巴轻摇)

产品呈现:打开的狗粮包装袋(透明开窗设计,可见颗粒分明的狗粮,颗粒呈不规则六边形,颜色为浅棕 + 深棕渐变),袋身斜靠在木质托盘上,,标注「无谷配方」「鲜肉含量≥85%」「益生菌添加」核心卖点。辅助元素为:旁边摆放 1 个陶瓷食盆(装满狗粮,少量颗粒散落在食盆边缘),1 片新鲜胡萝卜 / 西兰花(呼应「天然食材」),1 滴透明鱼油(暗示「美毛护肤」功效)

场景氛围:户外场景:青翠草地 + 蓝天白云,狗狗趴在野餐垫上进食,周围点缀几朵小雏菊,远处有模糊的树木轮廓,整体色调清新自然

风格与质感:超写实质感,细节拉满(狗狗毛发根根分明,狗粮颗粒的纹理、油脂光泽,食盆的陶瓷磨砂质感均清晰可见),避免卡通化或模糊处理

色彩搭配:暖橙色(传递「温暖」「食欲」)+ 浅草绿(呼应「天然」)+ 原木色(增强「安全」「质朴」感)

 

图片

 

测试结果显示,Qwen-Image 2511 在基础测试中完全规避了文字截断、字体混淆问题,不仅实现了海报标题的精准呈现,画中画的狗粮包装袋上文字依然精准呈现。此外,画面中胡萝卜的大小、狗粮的质感,幼犬的形态、狗毛的真实毛绒质感还原也非常到位,可以直接用于电商平台上架。

此外,更惊喜的是,Qwen-Image 2511 生图时支持一键调整比例(1:1/2:3/3:4/9:16/4:3/16:9/3:2),无需借助第三方工具裁剪。此外在后期,Qwen-Image 2511 还支持局部改字/改色、扩图、修改尺寸等等修改,而这对生产级场景来说,非常重要:毕竟 AI 生图,一次性得到满意结果的概率并不大,往往需要非常精细、复杂的后期修改。而现在这件事情,已经可以彻底交给 AI,精准修改。

 

图片

 

对比一些付费生图工具,Qwen-Image 2511 不仅在纹理还原度上表现更优,而且成本直接降为零,这对需批量制作素材的中小商家而言,具备极强的实用价值。

 

03

国产 AI 的实用主义突围

 

测完千问 APP 的两个新功能,我突然明白阿里这次升级的 野心:

无论是 Qwen-Image 2511 解决中文生图痛点,还是 Wan 2.5 补齐国产视频音画同步短板,千问的此次升级,其实背后正是国产 AI 模型的差异化突围范本:

Wan 2.5 的环境音自适应、元素 ID 锁定,不仅能用于阿里电商的短视频带货场景,也能让普通人享受和家里宠物跨物种对话的神奇;

Qwen-Image 2511 的 中文渲染以及精细控制能力,不仅能够造福各种中小商家,也能让没有作图能力的手残党感受创作的快乐。

当这些 B 端技术被改造成 C 端用户能轻松上手甚至免费的功能时,AI 才真正从实验室走进了日常生活。而伴随创作成本大幅降低,国产 AI 工具也才有了成为新时代内容创作的标准的可能,而这才是真正的 AI 普惠。