离职的 LeCun(IT之家注:杨立昆),反手就给 Meta 一记重锤:差评如潮的 Llama4 真的作弊刷榜了!
结果的确被篡改了一点。
为了更好的结果,团队对不同基准测试使用了不同的模型。
都说别惹离职 er,不止 LeCun,田渊栋也在个人年终总结中透露了一点内幕。
明明是被拉来给 Llama4 救火的,事先预想了四种可能,结果小扎给了我第五种……
(扶额苦笑.jpg)
Anyway,至于离职后的打算,两位大神都不约而同地表示:创业!
DeepSeek 还是给小扎压力太大。
此前就有消息爆料,DeepSeek 的横空出世,让 Llama 4 还没发布就被甩在身后,逼得小扎疯狂加码 AI 投资。
这一点也得到了 LeCun 的证实。
小扎确实慌了,对内 push 上强度,要求 GenAI 部门加速 AI 开发和部署,还拉来原 FAIR 团队的田渊栋救火。
结果就是,团队之间沟通直接破裂。LeCun 他们想要做些新东西,但小扎更想要已经被验证过的、可以直接落地的技术。
真正的导火索则来自于 Llama 4 的惨败。
不仅输了,还因为排行榜造假名声大跌,于是小扎彻底对团队所有人失去了信心,并将他们全部边缘化。
这也直接导致 Meta 开启了团队大换血:一边天价从硅谷各个公司挖人,一边又大刀阔斧裁掉老员工们。
田渊栋及其团队则是被率先波及的一群人。一月份被赶鸭子上架加入 Llama 4,十月份 Llama 4.5 一训完就被卸磨杀驴。这波田渊栋都得喊冤……
因为上头的压力,全组被迫放下手头正在做的工作,来 Llama 4 接烂摊子,距离发布 ddl 就剩 2 个月,还要处理所有 dirty work。
为此,田渊栋那时还专门画了个 2x2 的回报矩阵,计算了下干这事的四种结局:
但老板都发话了,不得不干啊,田渊栋想着那就但求尽力而为,问心无愧吧。
结果哼哧哼哧干了几个月,小扎一个都没选,给了 Plan E:不问责负责人,转头把田渊栋和组员们一脚踢了出去。
难怪田渊栋复盘这段经历时,也要来一句:
这也让我对这社会的复杂性有了更为深刻的认识。
不过好在田渊栋自己也想得开,他说自己已经待在 Meta 十多年了,最近几年更是抱着“公司快把我开了吧”的心态,所以也算是因祸得福吧,还给他接下来的小说创作提供了很多新素材(doge)。
(咳咳)言归正传,这几个月对于田渊栋来说,也不算一无所获,在强化学习训练的核心问题上他也有了些新的探索。
首先是大模型推理,继 2024 年底团队公开的连续隐空间推理(coconut)引发广泛关注后,团队继续通过理论工作 Reasoning by Superposition 进一步阐明了连续隐空间推理的优势所在。
与此同时,也分别从不同角度尝试提升模型推理效率:Token Assorted 通过隐空间的离散 token 减少计算开销、DeepConf 基于置信度提前终止推理、ThreadWeaver 制造并行思维链加速推理,以及在不同规模模型中用 RL 学习推理能力。
在可解释性方面,研究聚焦于 Grokking(顿悟)这一特征涌现现象,从记忆到泛化的突变过程入手,试图解释模型究竟学到了什么、和输入数据的关系、能达到怎样的泛化,也就是打开模型的黑箱。
简而言之,对于被拉来“背黑锅”这事,田渊栋对老东家还是手下留情了,虽然你不地道,但我已经 Let it go~
不过紧随其后离职的 LeCun 就没那么心软了,直接痛批 Meta 内部对 LLM 上瘾过甚,尤其是那些新挖来的超级智能实验室成员。
他点名批评亚历山大王:年轻且缺乏经验。
虽然学得快,但压根不懂研究,不知道怎么做、也不知道如何和研究员们共处。
在 LeCun 面前,这个 27 岁的年轻人,简直像个 little baby。
但大语言模型并非他们所想象的那样美好,LeCun 直言,LLM 有用但本质受限于语言,夸张一点说:
LLM 是死胡同。
要实现人类水平智能,就必须了解物理世界的运作规律,也就是 LeCun 长期专注的世界模型,但 Meta 对此已经丧失了兴趣。
在研究路线上的分歧,也让 LeCun 不得不离开公司,开启自己人生的下一章 —— 创业。
LeCun 的新公司名为 Advanced Machine Intelligence(AMI),做的还是他心心念念的世界模型,而且 all in 开源。
不过据他自己透露,他只会担任新公司的执行主席而不是 CEO。
我是一名科学家,我能激励人们从事工作,以及猜测哪项技术会成功,但我不擅长组织管理,也实在太老了。
LeCun 将拥有和之前在 Meta 相同的研究自由度,而负责带领 AMI 的将交给法国医疗 AI 初创公司 Nabla 的联合创始人兼 CEO Alex LeBrun。
他们将目光聚焦在 V-JEPA 架构上,试图通过学习视频和空间数据来理解物理世界,让 AI 完成规划、推理并拥有长期记忆,也就是他常说的高级机器智能。
LeCun 预计将在 12 个月内,见证该项技术的初始版本诞生,并在最近几年内实现大规模进展,虽然它显然还远远称不上超级智能,但至少在通往 AGI 的道路上,它存在希望。
而作为 LeCun 的老下属,田渊栋也拒绝了大厂们纷纷为他抛来的橄榄枝,刚刚正式宣布创业!
具体细节暂时未表,但他表示:
乘着自己还年轻,去当一家新初创公司的联合创始人。
不管怎样,先安静地忙活一阵。
参考链接:
[1]https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2
[2]https://zhuanlan.zhihu.com/p/1990809161458540818
本文来自微信公众号:量子位(ID:QbitAI),作者:鹭羽,原标题《LeCun 曝 Meta 作弊刷榜,田渊栋:我没想到这个结局》