中国开云 Kimi K2.6 开源了!还附送了 300 个 Agent 职工?
月之暗面昨晚发布了 Kimi K2.6,依旧开源。
但更值得一提的是,编程智力不仅开源 SOTA 登顶,何况力压两个闭源模子。

Kimi K2.6 模子来了
SWE-Bench Pro 58.6,卓越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。
也即是说:一个开源模子,跑赢了现时确实最强的两个闭源模子。
这对开源编程模子来说,应该是第一次在主流基准上赢得压制上风。

基准测试
天然,咱们知谈,跑分仅仅故事的一半……K2.6 还有个极具暴力与好意思感的 Agent 集群功能,我后头会详备说。
01
基准跑分
先看硬数据。
K2.6 在编程和 Agent 相干的基准上确实全线最初:
• SWE-Bench Pro:58.6(开源 SOTA)
• SWE-Bench Verified:80.2
• SWE-Bench Multilingual:76.7
• Terminal-Bench 2.0:66.7
• HLE w/ tools:54.0
• BrowseComp:83.2
• LiveCodeBench v6:89.6
数学和视觉方面也没落下,AIME 2026 拿了 96.4,MathVision w/ python 93.2。

SWE-Bench Pro 大赛
Yuchen Jin 转发了 Kimi 官方推文并批驳谈:
“ 开源 SOTA!SWE-Bench Pro 58.6,卓越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。Kimi 的发布速率越来越快了,算得上 S 级的开源模子团队。””

Yuchen Jin 评价 K2.6
02
不单跑分
天然,咱们知谈,跑分高是一趟事,能不行在着实场景里扛住永劫候高强度的责任,则又是另一趟事了。
而连咱们都知谈,Kimi 澄澈也知谈……是以 K2.6 此次在这方面的跨越,可能比跑分更值得温雅。
它不错,解析责任 12 小时不崩。
官方给的一个案例是:用 K2.6 在 Mac 上用 Zig 谈话腹地部署 Qwen3.5-0.8B 模子,通盘过程波及 4000 屡次器用调用,跨越 14 轮迭代,执续了 12 个小时。

最终,它跑出 193 tokens/sec 的推理速率,比 LM Studio 快了 20%。
另一个案例更是曲常地硬核:对 exchange-core 金融撮合引擎作念全面重构,13 个小时,1000 屡次器用调用,修改了 4000 多行代码。中等负载朦拢量培植 185%,举座性能培植 133%。

换句话说,K2.6 依然能像一个靠谱的工程师那样,解析干十几个小时的活,中间不掉链子。
何况,它根底就不挑谈话。Rust、Go、Python、前端、DevOps 责任流,都能表示输出。官方的说法是:
“ 跨谈话和框架的泛化智力。””
Vercel 说 K2.6 在 Next.js 基准上的发达培植了卓越 50%。CodeBuddy 请问了 18% 的长陡立文表示性培植和 96.60% 的器用调用见遵循。
以及,K2.6 还有一个特殊实质的矫正:平均按次数比 K2.5 减少了约 35%。
更少的按次意味着更少的 token 奢侈,更少的出错契机,和更快的速率。
用更短的旅途走到正确谜底,这其实是模子「智谋」程度的一个愈加直观的估计方式。

Kimi Code Bench
里面的 Kimi Code Bench 基准测试收成也佐证了这少许:K2.6 从 K2.5 的 57.4 培植到了 68.2,径直涨了快要 20%。
03
300 个 Agent 上岗
然后,即是此次的重头戏了。
K2.6 的 Agent 集群功能,天然从 K2.5 就运行引入,但我的感受是,此次才算是着实的进修了。

Agent 集群全新升级
咱们只需要给它一个任务,它会自动拆解,创建一堆不同变装的「分身」,让它们并行责任。
K2.5 的上限是 100 个子 Agent、1500 步,皇冠app(中国)官网入口而到了 K2.6 这里,则径直拉到了 300 个子 Agent、4000 步。

K2.6 vs K2.5 跨栏
一个东谈主,一句教导,一支团队。
我天然,得亲身来试一试。
04
编程器用分析实测
我给 K2.6 Agent 集群输入了一句话:
“ 请用 Agent 集群帮我完成一份对于「2025-2026 民众 AI 编程器用阛阓分析」的委派物套装:一份 10 页的行业分析 PDF,一份 Excel 数据表,一份 15 页 PPT。””
然后,它就运行了。

采纳 K2.6 Agent 集群模式
它先花了几分钟制定实行谋划,把任务拆成了 12 个维度:
阛阓时势、竞争时势、Cursor 深度、GitHub Copilot 深度、其他主要器用对比、开源生态、功能本领对比、订价交易模式、企业选择、本领趋势、安全信任管制、区域阛阓相反。
每个维度,它都需要寂然的搜索、分析和撰写。
然后即是,无尽分身开启的时候了。
05
我方组了个团队
K2.6 先是自动创建了 12 个子代理,每个都著明字、有头像、有变装定位。
该图片疑似使用了AI生成本领,请严慎甄别

12 个 Agent 各著明字和变装
翔哥是程度编纂内行,青枝是翻译内行,海明威(没错,就叫海明威)是驰名作者认真撰写,马通知是业务参谋人,崔浩是数据分析师,阿哲是质地驱散内行……
一共 12 个,各司其职。
对不起我上头没截出 GIF 图来,Kimi 还作念了特殊酷炫的交互出来,提议你一定要去碰行运一下。而看到这个声势的时候我如故稍稍愣了一下,开云·体育(sprot)官方网站这……是在给我组神气组呢?

并行搜索和接洽
然后,这 12 个 Agent 就运行并行责任了。
它大开了 Kimi's Computer(一个内置的浏览器环境),12 个 Agent 同期在网上搜索不同维度的良友,搜索了可能数百上千个页面的信息。
06
一小时活水线
通盘责任经由分红了几个大阶段:
Phase 1:景不雅扫描(5 轮搜索完成)
Phase 2:维度领会(12 个维度界说完成)
Phase 3:并行深度接洽(12 个子代理同期责任)
该图片疑似使用了AI生成本领,请严慎甄别

Phase 程度面板
Phase 4-6:交叉考据与细察提真金不怕火
然后插足居品制作阶段:
Stage 2:请问写稿(9 章 + 实行提要)
Stage 3:Excel 数据表制作
Stage 4:PDF 生成(12 页专科请问)
Stage 5:PPT 生成(15 页演示文稿)
该图片疑似使用了AI生成本领,请严慎甄别

委派物制作阶段
到了制作阶段,它又并行派出了三个子代理:巴泰认真 Excel,陈野认真 PDF,家情认真 PPT。三个东谈主同期开工。
该图片疑似使用了AI生成本领,请严慎甄别

三个 Agent 并行制作文献
这时候我严防到一个细节:
陈野在作念 PDF 的时候,实质上是在 sandbox 里用 Python 写代码来生成文献。它装了 Chromium,用 HTML 转 PDF 的方式来确保排版质地。
该图片疑似使用了AI生成本领,请严慎甄别

主动诞生 CSS 相貌
甚而中间还出了个小插曲:生成的请问图片尺寸有问题,一个 Agent 发现后主动去修改 CSS 来诞生。
通盘过程,花了梗概一小时。
07
委派驱散
最终,它给我委派了三套完竣的文献:
该图片疑似使用了AI生成本领,请严慎甄别

最终委派物
一份 PDF 行业请问,封面缱绻得……还挺像那么一趟事,有目次、有章节、败落据图表。内容掩饰了阛阓时势(Copilot 42% vs Cursor $2B ARR)、选择率(84% 设备者使用、91% 企业选择但仅 29% 信任)、本领趋势(Agentic Coding 创新、MCP 条约圭臬)、安全挑战、中国阛阓(30% 浸透率、CAGR 38.4%)等等。
一份 Excel 数据表,主要 AI 编程器用的功能、订价、用户量级对比。

EXCEL,严防还有多个 sheet
一份 15 页 PPT,带图表、带数据、带分析框架。

PPT 预览
天然,我带着挑刺的目光(毕竟这个主题澄澈属于我的自得区啊)看了下,大瑕疵如实莫得,但小问题若干如故有少许点的。
是以你如果这么径直拿来给出版社出版,那如故要再过目一下子。不外时常拿来参考、学习、或者作念点分析,那是曲常地充足了。
该图片疑似使用了AI生成本领,请严慎甄别

任务完成景况
但差错不是要点,这里要点在于:这是一句话,一小时,零东谈主工干扰的驱散。
这活我如果交给 Claude Code,它或者率会问我:要不你先去睡吧,然后就我方。当今就我方歇工了……
而当今,我就输入了一句话,去打了几把王者,转头文献就整整都都摆在那了。

一句话到三套文献
非要说有什么差错,那即是略有点久,只可怪我交待的任务太不轻佻了。
08
全栈智力升级
除了 Agent 集群,K2.6 在前端生成方面也有不小的升级。
官方还展示了 K2.6 Agent 的前端智力:
WebGL Shader 动画:径直写 GLSL/WGSL 代码,能作念出液态金属、焦散恶果、色泽跟踪。
大开新闻客户端 培植3倍解析度Video Hero Section:调用视频生成 API 创建电影级 hero 区域,合成到页面里,跟滚动同步。
大开新闻客户端 培植3倍解析度3D 场景:用 Three.js + React Three Fiber 构建着实 3D 场景,配合 GSAP ScrollTrigger 作念滚动驱动动画。
大开新闻客户端 培植3倍解析度缱绻谈话领路:Brutalist、电影感、瑞士网格、Y2K 镀铬、杂志排版,K2.6 能领路这些缱绻词汇,输出的网页自带氛围感。
大开新闻客户端 培植3倍解析度而不仅仅前端,此次更关键的是,它还因循了后端:用户注册登录 + 数据库,一个 prompt 处理前后端。
大开新闻客户端 培植3倍解析度从「帮我画个页面」进化到了「帮我生成一个完竣期骗」。
官方还推出了一个里面的 Kimi Design Bench,用来估计前端缱绻智力。K2.6 Agent 和 Gemini 3.1 Pro 在 Google AI Studio 上对比,Kimi 胜出 47.5%,平手 21.1%,Google 胜出 31.4%。

Kimi Design Bench
09
开源的意旨
网友 SmartFind 批驳称:
“ 跑分如实亮眼,但着实的转动是自主性。当模子能解析运行好几个小时、合作多个 Agent、跨本领栈委派,瓶颈就从「奈何写代码」造成了「应该造什么」。
而这一切,是开源的。
权重放在了 HuggingFace 上,API 通达,还有特意的 Kimi Code CLI 器用。价钱是 Claude Opus 4.6 的六分之一。

开源 vs 闭源
网友亦然一边倒的刷屏式好评:

Alamin 宣称:
“ 开源不再是追逐者了,它运行领跑。(Open-source is no longer catching up, it's starting to set the pace.)”
回头望望时候线,K2.5 是本年 1 月底发的,K2.6 就到了 4 月。不到三个月,又一次大版块迭代。
Yuchen Jin 说「Kimi 的发布速率越来越快了」,如实如斯。
10
终末
K2.6 让我看到了一个信号:AI 编程器用的竞争,依然从「谁的模子跑分高」转向了「谁能帮你作念更多的事」。
跑分是门票,Agent 集群是居品力。
一个东谈主输入一句话,300 个 Agent 并行责任一小时,交出通盘你念念要的驱散。

从个体到集群
开源模子,第一次,不仅仅追逐者。是以我甚而运行期待了:
当 K3 来的时候中国开云,会是什么样子?◇ ◆ ◇
天天德州app中国网入口