深聊豆包手机:该关注这场「技术核试验」的什么?

最近,字节跳动和中兴努比亚合作的「豆包手机」成了科技圈最热、最出圈的话题,甚至引发了社会层面的热议。一时间,关于「封杀」、「反制」的讨论甚嚣尘上。大家都在吃瓜,看大厂之间的攻防战。

如果我们把目光只停留在「谁封了谁」这种问题,就会错过重点。真正的重点,应该是如何看清和手机做了深度整合的豆包手机助手的技术创新到底是什么?以及就算字节这次看似只是扔了个「炮仗」,但它可能引发的「蝴蝶效应」该如何推导?

以下是我的一些信息梳理和推理思考,和大家一起探讨。

01 热闹之下,真刀真枪的技术如何?

我们不妨先放下巨头冲突的喧嚣,先从技术的视角,拆解一下「豆包手机」的技术,看看它只是简单的「外挂」,还是真正的系统级创新?

通过手机圈内的专家(@ZEALER @ 老戴Donald)对数据的抓包和系统日志的观测,可以发现豆包的技术实现路径,非常「硬核」,绝对是目前看到的第一个具有强泛化能力的 GUI Agent(图形用户界面智能体)。

豆包手机有一个「独立的大脑」。从内存占用上观测,其 Native 堆(大概率是 C 或 C++ 语言编写,直接运行在 CPU 上,跑在安卓虚拟机之外)大小达到了 160MB,这部分是直接连 CPU 的;而跑在安卓虚拟机上的 Java 堆(Dalvik)只有 6MB。这意味着豆包手机里推测是有一个本地推理框架,拥有极高的系统权限和执行效率。它不是一个简单的 APP 外壳,而是把 AI 模型的一部分能力直接埋进了系统底层。

同时,从进程占用和数据包的角度推测,豆包手机拥有一双「独立的眼睛」。它读取屏幕的方式,拿的是非常底层的 GPU 的渲染缓冲区,而不是传统的截屏路径。可以理解为手机里实际上运行着一块虚拟的专属 AI 屏幕,这块屏幕分辨率和人眼看到的一样,锁定 60 帧,亮度为零的无头屏幕(人眼不可见),永远处于「解锁」和「受信任」状态。更重要的是,这块虚拟屏幕和人看的物理屏幕焦点可以分离,不需要抢你的操控,也不需要一直占着你的屏幕。也就是说,你可以在手机上刷着短视频,而 AI 可以在后台的那块虚拟屏幕上帮你去订票、去比价。实现人机互不干扰,真正的「双核」操作。

再看豆包手机是怎么「动手」的?它没有走常规的安卓无障碍路径,而是直接向虚拟屏幕注入事件。这是一种系统级的特权,只有和手机厂商深度合作才能做到。这也是为什么字节必须找中兴合作,因为只有拿到系统底层的权限,才能突破安卓的围墙。

豆包手机是真正的「云端协同」。圈内技术大神通过日志分析,看到当豆包手机助手要做自动化操作的时候,大概每 3 到 5 秒会向云端发送约 250k 的数据包(推理是单帧的 AI 专属屏幕的截图),然后获得 1k 左右的反馈指令。这说明手机在做操作时,是云端的大模型大脑在实时看着屏幕,进行推理,然后下达指令,例如:打开应用、点击屏幕、输入文本、滑动屏幕、等待、记笔记、停止。

从技术层面看,这绝对是业界第一个具有强泛化能力的 GUI Agent。 这种泛化能力之高,能把系统底层权限和云端大模型结合得这么顺滑,不得不说,字节的技术工程能力确实值得点赞。

02 不是「偷袭珍珠港」,而是一次「核试验」

技术看完了,再看意图。

这两天,微信封禁、阿里设限、银行风控,满城风雨。很多人问我:字节这是要向所有大厂宣战吗?这是要「偷袭珍珠港」吗?

我的判断是:不是。

首先,从个人渠道了解到的豆包手机的备货量,以及豆包内部「不知道能活几天」的心理预期来看,他们自己心里很清楚,这更像是一次技术实验和试探,而不是为了立刻大批量出货去席卷市场。

这更像是一次「核试验」。

我猜测字节没有想靠这一款工程机就颠覆巨头的生态,这更多是一次技术实验和边界试探。他们想验证的是:当 AI 真正拥有了系统级权限,真正接管了 GUI,用户体验能做到什么突破?

但坦率地说,这次试验在战术执行上,显得有些像个「新兵蛋子」。行动上有些粗糙了,甚至浪费了一个很好的契机。

这本该是一次珍贵的「核试验」,目的是为了测试技术边界、收集用户反馈。要达成这个目标,就得让它「活」得久一点,反馈拿得足一点。

任何变革的核心问题,都是「谁是敌人?谁是朋友?」。而且大部分时候用户不是朋友,是上帝。即便是为了用户好,用户发现这个手机影响了自己的日常应用的使用,肯定是不行的。

所以这个实验最好的方式就是不要上来就引来尖锐矛盾。不是「直捣黄龙」几乎一下子就把所有的平台方都惊成了敌人,也堵了自己实验的路线。

具体点说,比如一上来如果没有开启操控微信、操控淘宝等大平台的能力(实际上就是目前沟通调整后的状态),这个实验可以低调一点,进行得会更有意义一些。毕竟类似 RPA 型(机器人流程自动化)的工具确实与大部分 APP 的用户协议冲突,如果对方一点不包容地封掉,于情于理都不是问题。而今天这些具有「履约能力」的大平台既不可替代,也没道理把大门敞开给豆包。

所以如果复盘这次行动:技术上很创新,战略上很对头,但在行动上有优化空间

当然,大多数时候贫穷限制了我们的想象。不管是这次手机出货因此受到影响,或者这场试验即便有浪费,可能对字节也不是问题。资源足够充沛的时候,战术上的细腻是次要的。

03 价值漂移:从「应用内闭环」到「直连物理世界」

核心的问题是,豆包手机这个「技术核试验」,响过之后,会留下什么?

我认为,要看到未来商业生态格局中一种「价值漂移」的可能性。

在这场「价值漂移」中,最核心的问题依然是那个:谁会是 Agent 的朋友?谁是它的敌人?

如果只站在今天移动互联网的存量格局里,不得不承认,会是「敌多友少」的局面。

现有的互联网平台,无论是阿里、腾讯还是美团,它们的商业模式建立在「需求和供给的集结」之上。它们把离散的需求和供给集结在平台上,通过分发流量、广告推荐来获利。它们在意 DAU,在意用户习惯和时长,在意自己的生态闭环。

而 AI Agent 的逻辑会是「直连」。

当 Agent 把那些大平台变成「货架」和「履约执行者」,用户不需要再自己打开 APP,不再贡献活跃度,不再看广告,只把需求交给 Agent 去后台下单——这对平台来说,就是一种「降维打击」。只要平台还在意自身的生态闭环,它们注定会视 Agent 为敌人。

当然我们不能上来就想终局,要看到即便这种变化不可阻挡,这种变化会先从局部分流开始,还不会一下子带来颠覆。就算是 Agent 时代,现有的 APP 也不一定立即会失去自身的价值。例如有些需求是需要「逛」的,比如买服饰、看视频,现有的应用和平台依旧存在价值。

同时,GUI Agent 的技术不会只有豆包具备,相信各家都有在探索和推进。智谱最近就开源了类似的技术,加上字节的这次演示,GUI Agent 正在成为一种行业标配。 接下来,也许所有的大厂都会被迫卷入这场追赶,相信淘宝会有自己的 Agent,微信也会有。大家最终可能都会在自己的 APP 里内置一个「超级助理」,也都会被迫进化,被迫去适应这个「机器能操控能下单」的新世界。

当我们不武断地从「这是一场立即马上的革命」和「这是根本搞不成的闹剧」的二元思维中跳出来,我们才会看到一些「灰度」的价值。因为现有的移动互联网的商业世界虽然严密,但不是没有缝隙,不是没有变化的可能。

大家可以想象一个场景:你家孩子的遥控车遥控器没电了,你需要新的电池了。以前「省钱至上」的你,路径是:研究下这是几号电池,打开(可能不止一个)电商 APP -> 搜索 -> 比价 -> 下单。

未来,如果你的手机里有一个足够信任的 Agent,你可能只是手机拍了下电池发给豆包,随口说一句:「这个电池没电了,帮我买点。」

这时候,Agent 可能不需要再去逛淘宝、京东、拼多多了。如果像南孚这样的电池厂商,直接在官网上开放了专门为 Agent 准备的数据接口,你的 Agent 就可以直接连到厂商,下单、支付,通过现有的物流体系发货。而且这电池未必会比平台买的贵。

所以 Agent 有可能直连物质世界,抹平中间商,让需求端(用户)直连供给端(工厂/品牌)。

对于这些拥有好产品、好服务,但不擅长搞流量、不想被平台「收租」的品牌和厂商来说,Agent 就是朋友。它们不在意用户是否逛了商场,它们只在意自己的商品是否卖出去了。那么,这个世界上就出现了很多豆包手机的朋友。

这就是我说的「价值漂移」。

未来,Agent 可能会成为新的入口、打开新的通道。如果现有平台不合作,不愿意开放数据,那么 Agent 可能会连接更小的垂类平台,甚至可能会跳过平台,直接连接那些愿意开放的垂直厂商、品牌官网。变革未必不能从微小但有意义的地方开始。

当然,这还是一个很远的推演。眼下,豆包手机还需要解决很多问题——安全问题、隐私问题需要重点应对,与各方的谈判协商也还要持续进行。

我们作为吃瓜群众,不要因为现在的混乱就否定了这个方向。我们可能正在目睹一个新的「人机交互」时代的萌芽。毕竟原来的那套「APP 孤岛」的移动互联网玩法,在 AI 时代也应该要变一变了。

所以,不管是大厂还是创业者,或者是商家,每一个商业世界的玩家都得思考一下:当 AI Agent 推动商业生态价值漂移,我在哪里?