作者|张鹏
编辑| 郑玄
半年前,我写过一篇火山引擎的战略方向分析,当时我判断,火山引擎已经被明确为字节的一个战略目标:因为字节在 AI 时代需要有最好的底层技术和基础设施,那么这件事必须不能只是自造自用,而是要通过「外循环」来验证和放大,所以火山引擎要做好,也必须是 「AI 云原生」。
其实过去两年,所有云业务的企业,都已经意识到云的未来,不再是旧赛道里卖服务器、卖带宽的存量博弈,而是 AI 能力带来的全新需求。在这个新时代,云厂商卖的不再是底层的「资源」,而是经过封装的「能力」。
有趣的是,MaaS(模型即服务)过去 2 年被提出,但是经历了早期「尝鲜」后,也一度被业界怀疑过,当时主要的原因是模型如果本身不行,不能真正解决企业问题,这个模式就不能真正成立。
不过这半年火山引擎死磕 MaaS 的一些更具体的业务发展,我觉得 MaaS 这件事已经可以不用讨论了,它绝对就是未来的云服务的核心业务。
为什么说火山是在「死磕」MaaS 呢?先说个最近在媒体上看到了一个火山的「八卦」,大概意思是说火山引擎内部,CDN 这种传统业务的销售权重被降到了很低;而 AI 的 Token 调用量,直接成了核心指标。甚至有的销售 CDN 等其他传统云业务做得挺好,但因为 MaaS 卖不出去就最终淘汰出局。
这个「八卦」如果换个视角看,反而说明火山引擎对 AI 云原生和 MaaS 的重视相当贯穿到执行层,确实在用 组织架构的调整、用考核机制的引导来推动战略 。
压强够了,事情就会有突破。从我在业界了解的消息看,更重要的是火山引擎 2025 年相当突飞猛进,业绩上非常火。而这个火也确实来自于 MaaS 惊人的高速增长。结合 12 月 18 号的 Force 大会上我看到的一些信息,感觉又值得分析下这个 AI 云原生领域的大玩家「火从何来」了。
MaaS 的核心是
「与商业世界的需求对齐」
想要让销售劝客户把预算从传统 IT 转给 AI,前提是手里的模型和工具得真能解决业务问题,而不是让客户当「小白鼠」。这次 Force 大会,给我的最大感受是: 火山引擎展示的不仅是模型,也相对更全面的展示了为了让 AI 能真正落地,他们过去所积累的「家底」。
企业 AI 下一阶段是让 Agent 真正创造业务价值丨来自:2025 原动力大会·冬
未来的大模型,理解和执行是统一的。我们现在看到的 AI 大多还在「理解」阶段——用户向 AI 提出需求,它可以帮忙写写文案、聊聊天。但现实世界的需求其实已经要求模型必须能直接操控软件、调用 API、完成复杂的企业级 RPA 任务。
不知道大家是否注意到了,豆包 1.8 有一个明显的进化方向,就是 Agentic 代理能力。豆包在这个版本里重点增强了 Tool Use(工具调用)和 OS Agent(屏幕操控)等能力。这和 Gemini 3.0 Pro 等全球顶尖模型的进化路径是完全一致的: 让模型这个大脑不仅「能理解」,还要长出「能干活的手」。
举例来看,豆包 1.8 现在支持 OS Agent,意味着它可以像人一样「看懂」电脑屏幕,去点击按钮、填写表单。天下绝大部分的公司都不是「AI Native」的,所以这次升级对于企业内部大量陈旧的、没有 API 接口的 ERP 系统来说,这就是让 AI 接管繁琐工作的关键钥匙。
以前大家关注模型的能力聚焦在追求智能上限,我相信这一点是字节内部的基础模型团队一直在做的。而火山引擎是字节跳动「内循环」+「外循环」的好处,就是一方面可以依托字节基础模型团队,既支持与字节的业务发展,同时也连接着更大真实世界的需求。
有了需求目标,从基模能力到可用的模型技术的发展,才变得更有方向感,比如「理解和执行一体化」的能力,就是可以对现在非「AI Native 企业」AI 进化关键的落地点,而前段时间火爆的豆包手机助手,其实就是这个能力的「内循环」,而火山引擎现在把这种能力同步开启「外循环」,会让技术创新变得更有意义。
MaaS 过去一段时间能卖的那么火,以及未来可以继续看涨,本质上还是因为这个 「双循环」带来的目标与能力和真实商业世界的对齐。
另外,从这次火山引擎正式发布了 Agent 开发套件「Agentkit」来看,其具备 8 个核心模块依旧是在「与现实商业世界对齐」。这次火山提供了 Agent 在开发、部署、运维、调优等各个阶段所需要的工具和基础设施。其中让我印象很深刻的有两个模块: Identity(身份与权限)和 Evalution(评估)。
Agent 落地到企业里,一个很细节但是关键的问题就是怎么给 Agent 设定清楚它的身份——比如一个客服 Agent 能接触到哪些数据,可以回答什么样的问题;比如一个实习生的 Copilot,和高级副总裁的个人助理,怎么避免二者的信息权限混淆。规避实习生可以通过 AI 轻松拿到公司敏感信息这种情况出现。这些都是看似细节基础,但实际上做起来复杂,而一旦出现问题却有可能给企业造成重大损失的实干问题。
还有就是 Evalution(评测)的能力。做过 Agent 开发的人都知道,最大的痛点不是怎么搭建环境训出一个 Agent,而是不知道怎么评估一个 Agent 在业务场景里的能力,毕竟不能把一个刚训出来还不知深浅的 Agent,随便就丢进生产环境里测试。
而 Agentkit 的 Evalution(评测),其实就是一系列评测 Agent 在真实场景中工作能力的测试集。这个一直是个没有被很好解决的问题,如果对标一下其他国际云大厂,其 Agent 开发工具内置的评测集好像也只有十几套。而火山这次一口气发布了超过 50 套评估测试集。
场景积累的意义在这里就体现了。显然字节跳动内部本身就有几万个 Agent,每天进行几十万次的评测,所以火山是个巨大的基础资产。从抖音电商的客服机器人,到 TRAE 的 Coding 助手,这些业务的需求倒逼火山团队必须建立有效的 Agent 评测能力。这些为了支撑内部庞大业务而磨练出的「基建能力」,现在成了火山 MaaS 服务的底座。
多模态一定是云厂商竞争的「新赛点」
除了基模和基建的扎实推进,在这次 Force 大会上,我们还看到了一个信号: 多模态(视频、语音、图像)的理解和生成能力,正在成为 MaaS 增长的新赛点 。
据我了解,火山内部也已经形成了一个认知 :每增加一种多模态模型能力,MaaS 的销售就能带来显著的百分比增长。
这不难理解,今天商业世界的大量场景是视觉的。视频带货、在线教育、娱乐社交,这些才是用户和需求最集中的场域,而要让 AI 和 Agent 在这些场域发挥作用,不论是与用户对话交互、生成内容,还是理解这些场景里的内容,解决用户或者创作者的问题,都离不开多模态模型的能力。
而多模态能力恰恰也是字节跳动的「主场」。豆包是最早具备图像识别能力的大模型之一,还记得 2025 年高考时,豆包在看图解题上的表现就让人印象深刻。而在今年 IF 大会上做出精彩分享的张楠,其领导的即梦在今年国内「产业级 AI 视频生成」落地竞赛里处于领先地位,这背后其实都是同源的技术栈。
而这次发布的 Seedance 1.5 Pro,解决的核心问题不是「生成」,而是「可用性」。它重点突破了音画高精同步和多语种对白,尤其擅长中文方言和对口型等。做过影视创作或短视频的人都知道,这才是从「玩具」变成「生产力」的关键。这意味着,未来的短剧、广告片,甚至是一部分的电影镜头,真的可以用 AI 直接生成了。
豆包 Seedance 1.5 Pro 丨来自:2025 原动力大会·冬
同时,豆包 1.8 的视觉理解能力也大幅提升,支持 90 分钟长视频的低帧率快速理解,并且支持调用工具对关键片段进行高帧率处理。这意味着模型不再是只能看懂一张图,而是能像人一样看完半场篮球赛,并分析出战术布局。
简单总结一下就可以看出,火山引擎未来一段的发展战略和主要焦点,就是在「与商业世界对齐」的工具环境和模型能力上。而多模态能力的领先,恰恰将给火山引擎带来重要的战役制高点。
客户实际上在买
字节跳动的「技术溢出」
要理解为什么火山引擎今年这么火,其实值得换个客户视角看看他们买单的深层逻辑到底是什么?
由于极客公园接触创业者比较多,至少从他们的视角,我听到了一个有趣的观点: 今天企业用火山引擎,本质上其实就是在「薅字节跳动的技术羊毛」,享受其技术外溢的红利。
我们来看一组震撼的数据。在这次 Force 大会上,火山公布了一个核心数字: 豆包大模型的日均 Tokens 调用量已经突破了 50 万亿 。
这是什么概念?作为对比,谷歌此前刚刚宣布今年 9 月的全月 Tokens 消耗量为 1.3 千万亿,也就是日均 43.3 万亿。换句话说,火山引擎如果没吹牛,那么每天处理的 AI 调用量,已经站在了全球云平台的第一梯队,甚至在某些维度上实现了超越。
这 50 万亿的调用量似乎是有水分呢?我觉得如果考虑到字节跳动内部庞大的「内循环」需求,大概率是差不多的。
2025 Force 大会上火山引擎发布全景图丨来自:2025 原动力大会·冬
字节跳动的特点是,模型闷头做,然后自己的狗粮自己猛吃。其内部大量的应用和场景,模型调用早就无处不在,每天都在产生海量的 Tokens 调用。这种天然的环境就必然带来一个原生的能力——为了支撑这个体量的内循环,为了让字节自己的业务能跑通、能赚钱,字节的技术团队必须把推理成本压到极致,必须把 AI 云原生的能力做好。
其实今天我接触的优秀创业团队和投资人们都有个共识, 无论什么形态的产品,今天都是个「容器」:一个在场景里赢得用户,形成「数据飞轮」的容器。它的形态会不断演化,甚至终将走向「产模一体」(也就是需要有自己的最优模型) 。但是今天的核心不是探讨模型是谁的,基础设施是谁的,而是最高效构建可以拉进用户,产生数据飞轮的进程。
所以这个时候,就可以理解为什么创业者们一方面「怕字节」做和自己类似的产品,但是又很坚决的会选择火山引擎的 MaaS 服务。核心是他们希望抓住字节跳动内部技术能力的溢出,就算随着发展和能力积累肯定要自己的有模型,那今天也要坚决薅「字节的技术羊毛」。
显然更多的真实商业世界里的企业,也开始想清楚了这个问题。目前火山引擎日均 Tokens 调用量突破一万亿的企业客户已经超过了 100 家,这个数字还在快速上升。
火山引擎这种在 AI 时代支持字节「内循环」+商业世界「外循环」的双循环模式,确实有点势不可挡。接下来几年,是国内商业世界非常值得关注的一个新变量了。