K2 Thinking再炸场,杨植麟凌晨回答了21个问题

文|邓咏仪

编辑|苏建勋

继上周发布K2 Thinking再度引起全球热议后,很快,北京时间凌晨11月11日,月之暗面创始人杨植麟,以及合伙人周昕宇、吴育昕,在Reddit社区进行了长达数小时的线上AMA(Ask Me Anything)环节,解答新模型相关的问题。

这也是数位联创第一次共同露面。

从高举高打到转向模型技术冲锋,如今的Kimi不再投流,愈发安静了。这次的新模型发布,和三个月前K2发布一样走低调路线:不开线下正式发布会,在社区直接发布模型。

团队主创选择在Reddit、知乎上回答问题,也和Kimi现在的开源路线一脉相承——这些社区都是AI从业者、极客聚集的地方。

国外开发者们毫不吝啬对Kimi K2的喜爱。AMA环节开始后,数十个问题很快填满讨论串,夹杂着对Kimi性价比、开源深度的称赞,“绝对伟大的模型!”不少用户表示。

不少开发者还现场“催更”,希望Kimi团队快点推出K2 Thinking更小体量的模型,部署在PC端,或者用于企业生产环境。

杨植麟也首次澄清了一系列传闻——还会继续开源吗?K2 Thinking的460万美金训练成本是真的吗?以及下一代K3模型的计划,K2 Thinking关键的训练细节。

图片

△杨植麟回应训练成本问题

图片

△以后会发布更大规模的闭源模型吗?一个含蓄的回答:如果模型变得越来越危险的话:)

Kimi团队也坦诚回应了技术讨论,甚至幽默地回应了一下最近的AI泡沫——“我们也不知道(为什么OpenAI烧钱哦),只有Sam知道,我们有自己的节奏。”月之暗面联合创始人周昕宇表示。

图片

△月之暗面联合创始人周昕宇

新发布的K2 Thinking,是个高达1万亿参数,稀疏混合专家(MoE)架构模型——这是开源模型里相当大的体量。

在多个代表前沿能力的基准测试中,K2 Thinking确实取得了不错的成绩,尤其强在推理、任务执行上。

在以高难度著称的测试集HLE(Humanity's Last Exam,有超过3000道高难度人类专家测试题)、BrowseComp(自主网页浏览)等Agent榜单上,K2-Thinking的分数甚至超过了GPT-5。

K2 Thinking继承了DeepSeek的架构设计,不过在此基础上做了更多创新工作——参数放得更大,采用了INT4等新的量化手段。

从价格上看,K2-Thinking的成本优势巨大,其百万token输出价格为2.5美元,仅为GPT-5(10美元)的四分之一,被很多人称之为GPT-5和Claude Sonnet 4.5的“平替”。

“这是又一次DeepSeek式的辉煌时刻吗?”K2 Thinking发布后,Hugging Face联合创始人Thomas Wolf在X上感慨。

最近几个月,可以说是国产大模型的丰收季。各大厂商像是约好了接力开源,给了硅谷一点小小的震撼——9月,智谱发布GLM-4.6,10月MiniMax发布M2,加上这次的K2 Thinking,在全球榜单上上打得有来有回,好不热闹。

(我们也将此次AMA的完整问答整理在了文末)

话唠的K2 Thinking,是为了更好做任务

在AMA环节以及知乎等社区,不少开发者的第一个感觉是:K2 Thinking很话唠。问它一个问题,思考时间很长,虽然便宜,但Token消耗巨大。

话唠,其实是为了一个最重要的目的:让AI能够帮人类完成更多任务。

从K2到K2 Thinking,一切设计都围绕这一点开始:专注Agentic(智能体)能力,让AI不只是聊天,而是能真正完成任务。

K2 Thinking高达万亿参数,但大体量并不是为了炫技,而是希望能够让模型能够囊括更多知识,有利于理解和执行任务,这相当于“脑子更聪明”;但K2 Think在实际运行时,激活参数控制在300亿,也保证了回答问题和执行任务的速度足够快。

长思维链是K2 Thinking的长板。据Kimi官方介绍,K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,保证任务连续性。

知乎上的一位答主@平凡就做了个实验:给K2 Thinking一个博士级别的数学难题,仅用了23次工具调用,K2 Thinking就成功了解决问题。

K2 Thinking的具体执行过程是这样的:

循环:在"思考-调用工具-验证结果"的循环中不断迭代,直到问题解决

不难看出,这是在模仿人类解决问题的过程,在“思考-调用工具-验证结果”的循环中不断迭代。

“步数”衡量的是模型的长程执行能力和耐力。步数越多,代表模型能处理的任务越复杂、越需要多轮迭代,并且在这个过程中,如何让模型不容易跑偏最初的目标,这个是训练的主要难点之一。

K2 Thinking的很多设计,核心目标是确保模型能够完整处理复杂任务而不丢失信息。为了达到“性能第一”这个目标,Kimi团队的取舍在于,可以牺牲一点Token效率——话唠一点也没关系,但要保证任务完成。

对于前不久DeepSeek爆火的OCR路线研究(纯像素输入模型),团队也谈了谈想法。“我个人觉得这条路走得有点重了,我更倾向于继续在特征空间(Feature Space)里下功夫,去找到更通用、并且与具体模态无关(Modality-agnostic)的方法,来提升模型效率。”月之暗面联合创始人吴育昕说。

图片

△月之暗面联合创始人周昕宇

除了文本模型,Kimi团队也表示,其他模态如视觉理解,正在努力当中,时间线可能还要往后推推。

Claude断供后,国内创新速度反而更快了

无论是Kimi K2 Thinking的发布,还是GLM、MiniMax M2,共同指向的一个趋势是:在基础设施如芯片受限、Claude断供的情况下,国产大模型在算法创新上反而加快了进程。

关于训练成本,杨植麟明确表示460万美元“不是官方数字”,并表示很难量化培训成本,因为主要部分是研究和实验,这部分无法包含在一次性训练成本当中。

可以肯定的是,K2 Thinking是在比较有限的条件下完成的。杨植麟表示,K2 Thinking包括在配备Infiniband的H800 GPU上进行训练。相比美国,Kimi在GPU数量上处于劣势,但把每张显卡的性能都压榨到了极致。

不止是Kimi,如今仍在基座模型上投入的国内团队,都在算法层面找到了细分创新方向。

一个典型例子是,MiniMax和月之暗面面对“如何高效处理长上下文”这个问题,就给出了不一样的选择。

MiniMax的上一代模型M1,采用的一个关键模型极致是Linear Attention(线性注意力机制),但到了M2,又回退到了full attention(全注意力机制)。

两者区别在于,MiniMax希望技术实现更稳定,在处理长链条信息时不要丢失关键内容。MiniMax在近期的技术博客就表示:在实际应用中发现,虽然Linear Attention能省算力,但对于多步推理的复杂Agent任务,传统方法反而更可靠,他们更看重在当前工程体系下的稳定性。

Kimi则选择了更激进的路径。比如最近发布的Kimi Linear,从更底层的硬件、架构层面,研发了KDA+MLA路线,即用3:1的比例,把KDA和MLA路线混合在一起。

传统的Transformer架构,就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住,不会遗漏细节;但记的东西越多,模型的计算时间就以平方为单位增加。

而采用KDA架构之后,迫使模型学会“抓重点信息”。模型可以选择性按照每个字来标注重要性、时效性等维度,选择性忘掉一些细节。这种新架构在性能、速度、显存占用上,会有巨大优势。

技术路线的选择背后,也和各家如今商业目标的不同有关。

各家公司的打法开始出现明显分化。Minimax M2的定位是性价比,推理速度快,多模态选择丰富,希望吸引开发者在他们的平台上构建丰富的应用生态;

Kimi则选择继续“爬山”,专注于把文本模型的能力做到极致,探索智能的上限。在这个目标之下,团队选择性能为先,让Agent更可用,暂时不太考虑Token消耗效率。

而智谱GLM就抢占了不少Claude断供之后的市场,特别是在编程和推理场景,GLM-4.6从性能、效率和价格上,是一个相对全面的模型,让企业能够快速上手使用,很多应用厂商也可以直接套壳。

这些选择没有对错之分,只是在当前环境下不同的生存策略。

实际上,中国开源模型的应用生态正在形成自己的优势——许多海外开发者开始在中国的开源模型上构建应用,并积极提供反馈。可以预见的是,这场开源风暴,也会带来应用的更多爆发。

附在AMA环节问答,经《智能涌现》编辑整理,有部分合并:

Q:460万美元训练成本是真的吗?

Kimi:这不是一个官方数字。很难量化培训成本,因为还有很大一部分工作是研究和实验。

Q:是什么导致你们这些疯子(深情地说),选择用一个相对未经测试的优化器,来训练如此庞大的模型?

Kimi:Muon是一个未经其他人测试的优化器(Optimizer),但是在我们的实验里,它通过了缩放定律验证流程(Scaling Laws Ladder)。

我们对我们的研究体系(Research Stack)有信心,你可能会认为我们选择Muon只是运气好,但是选择的背后是,有几十个优化器和架构没有(在实验中)通过考验。

Q:你们的训练硬件配置是怎么样的?想了解一下你们的基础设施和美国顶尖公司相比有什么不同。

Kimi:我们用的是配备Infiniband的H800 GPU。虽然不如美国的高端GPU,我们在数量上也不占优势,但我们充分利用了每一张卡!

Q:在你们的预训练中过程中,最重要的指标是什么?消融架构更改的过程是怎么样的?在什么尺度上进行测试,需要查看哪些指标,以确保模型表现良好?

以及,你们做了什么,在预训练前后,让数据更有利于模型学习?有哪些指标可以预测数据是否对模型有益/有益,可以分享一些经验吗?

Kimi:最重要的指标是:损失(Loss)、基准测试(Benchmarks)和内部稳定性内部指标。

我们有一个在多个尺度上不断发展的缩放定律验证流程,模型消融环节必须在进行下一个之前通过小规模验证。所有指标都很重要。

如果有任何意外,我们将暂停扩大模型规模,直到问题被理解和解决。

最重要的超参数是学习率(以及学习率调度器)。变量太多,所以最好在深入超参数搜索工作之前,先了解一下超参数的情况。

一个好的数据集,必须在训练期间有一个好的基准趋势。如果不是,那就好优化数据或找到一个更好的基准来显示进展。

我想说的是,找到合适的数据集(data mixture)是一门艺术。因为数据集之间有太多的交互和共享模式。从你的直觉开始,但最终相信实验。

Q:只做纯文本模型,这是一个为了达到SOTA(达到当前最好的性能)的取舍,还是说这是你们真就押注的长期方向?未来会考虑增加上下文窗口到1M吗?

Kimi:要做视频理解模型,获取数据和训练都需要时间,因此我们选择首先发布文本模型。

我们以前做过1M上下文窗口,但是现在服务太贵了。我们将来会重新审视更长的上下文窗口。我们应该能够在未来的版本中增加上下文长度。

Q:你们会发布适合MacBook的小型模型吗?或者有没有计划制作32B或20B 模型?

Kimi:我们注意到了这个需求,但目前没有对MacBook友好型模型的具体计划。像Kimi Linear这样的小模型很可爱,我们很可能会在未来发布更多作为研究演示。

Kimi-Linear-48B-A3B-Instruct是我们发布的小模型的一个例子。将来我们很可能会训练更多并添加更多功能。

Q:Kimi K2 Instruct是如何拥有如此独特而富有洞察力的散文风格的?这主要是归功于后训练吗?

Kimi:我们也喜欢它的写作风格,它是我们后期训练数据和评估的重要组成部分。

预训练阶段为模型打下了基础,赋予了它相关的先验知识和能力(priors),这就像是奠定了模型的“底蕴”。

而后训练阶段在此基础上增添了一些独特的风味和个性(taste)。

很有意思的是,不同的强化学习(RL)策略或方法(RL recipes)确实能让模型呈现出截然不同的风格和特点(different tastes)。

人们对这些细微之处有不同的喜好,模型的风格大体上也反映了我们的喜好。

Q:Kimi K2 Thinking虽然称得上是目前最适合创意写作的大模型,但仍有很大的提升空间。它在语言表达上存在不少瑕疵(slop issues)。

此外,尽管Kimi比其他模型审查更少、刻意的“正能量”也更少,但在处理残酷的战斗场景或角色间充满矛盾的真实对话时,输出内容过于安全和套路化(GPT-isms)。给人的感觉不是真实的人类情感,而是一种“有毒的积极”(toxic positivity)。这些问题在未来版本中会得到解决吗?

最后一个问题:未来会支持NSFW(成人内容)吗?Grok允许生成NSFW内容,但文笔很差。OpenAI最近也宣布会推出ChatGPT的成人版本。如果Kimi能大幅放宽审查,这是一个能发挥Kimi写作优势、抢占市场的好机会。

Kimi:这是非常宝贵的反馈。

关于语言表达的瑕疵问题(slop),我们已经取得了一些进展,但这确实是所有大语言模型(LLM)长期面临的挑战。从技术上讲,LLM的训练过程会不断强化数据中已有的模式,导致某些模式被过度放大,从而偏离了真实人类的偏好。但我们相信,这个问题是有解决方案的。

关于减少审查和刻意的正面引导,这应该是可以实现的,我们会进一步研究!

至于NSFW内容,我们需要先找到一种可靠的年龄验证方法。我们可能需要根据不同场景对模型进行调整,并更新我们的服务条款来反映这些变化。这些都是非常棒的建议!

Q:会开发双向对话模型吗?

Kimi:我们没有专门的双向对话模型。不过,任何双向注意力机制(Bidirectional Attention),都可以通过延长因果注意力模型(Causal Attention)的上下文长度,来实现类似的效果。

Q:K2 Thinking最大的技术挑战是什么?

Kimi:一个挑战是支持交错的"思考-工具-思考-工具"模式。这在LLM中是一种相对较新的挑战,需要大量的工作才能正确运行。

Q:K2可以做到200-300步的稳定工具调用,这是如何实现的?

Kimi:我们使用端到端智能体强化学习(End-to-end Agent RL)训练K2 Thinking,这导致了数百个步骤的工具调用以及包括检索(Retrieval)在内的中间步骤的更好性能。

Q:如何保障长链推理的稳定性?为什么Kimi K2思维可以在单次推理中,实现如此长的推理时间和推理链?GPT5 Pro使用代理来延长推理时间,但推理效果仍然不如K2的单次长推理。将来会进一步考虑提高基础模型的推理时间吗?

Kimi:这需要大量的工程工作才能正确实现。当数据集组合时,我们可以更好地进行观察泛化(Generalization)。

推理时间取决于API吞吐量,而Token的数量取决于如何训练模型。我们训练K2思维的方式,倾向于用相对更多的Token来思考,以达到最佳结果。

我们的K2 Thinking Turbo的API应该更快。此外,K2思维本身就是采用的INT4,这进一步加快了推理过程。

Q:想请教一下,你们觉得从int4到fp4算是一次实质性的提升吗?还是说int4的效果其实已经足够好了?

Kimi:我们选择int4,主要是为了更好地兼容非Blackwell架构的GPU,同时也能直接用上社区现有的Marlin int4推理内核(https://github.com/IST-DASLab/marlin)。

对这个话题,我们团队的工程师有一篇更详细的分析,可以参考(中文):https://www.zhihu.com/question/654759544/answer/3493279960

Q:以后的K3,会有什么新突破?

Kimi:我们很乐意在K3中加入重大架构更改并开发新功能。KDA(Kernel-Attention Dual Architecture)是我们最新的实验架构,相关的想法很可能会在K3中使用。

Q:你们有计划推出像AI浏览器这样的产品吗?

Kimi:我们目前的重心还是在模型训练上,但会持续将我们的最新能力更新到kimi.com 网站上。

我们认为,要做好模型,并不需要再去做一个浏览器“壳”(Chromium Wrapper)

Q:会计划发布更大规模的闭源模型吗?

Kimi:如果模型变得越来越危险的话(if it gets too dangerous):)

Q:为什么选择开源策略?Kimi会开源安全对齐技术栈吗?

Kimi:同意。发布安全对齐(Safety Alignment)技术栈,将惠及更多从事开放模型进一步微调(Fine-tuning)的人。我们可能还需要更多机制,确保这些微调工作遵循特定的安全协议。

我们拥抱开源,因为我们相信AGI(通用人工智能,Artificial General Intelligence)应该是一种导致团结而不是分裂的追求。

Q:如何看待与OpenAI等巨头的竞争?为什么OpenAI这么烧钱?

Kimi:不知道,可能只有Sam知道哦,我们有自己的方式和节奏。我们的使命是“寻求从能源到智能的最佳转换”。在可预见的未来,我们依旧将专注于提高智能。

Q:会提升多语言能力吗?

Kimi:我们很想教Kimi说更多的语言,但我们在不同语言方面的带宽和知识有限。也许这也是开源社区可以提供帮助的地方,例如在数据采集方面。

Q:你们如何看待最近从一些闭源模型(Gemini、GPT)过度赞美用户的趋势?Kimi会试图阻止这种行为吗?

Kimi:模型具有不同的个性化偏好是好的。我们相信,未来模型拥有更多元化的风格与能力将成为一种趋势。

Q:你们是“AGI信徒”吗?预测一下AGI什么时候能实现?

Kimi:AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。

封面来源|AI生成

图片

 扫码加入「智涌AI交流群」

图片

欢迎交流

本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。