中国开云 Kimi K2.6 开源了！还附送了 300 个 Agent 职工？

发布日期：2026-05-10 13:07 来源：未知作者：admin 浏览次数：

月之暗面昨晚发布了 Kimi K2.6，依旧开源。

但更值得一提的是，编程智力不仅开源 SOTA 登顶，何况力压两个闭源模子。

Kimi K2.6 模子来了

SWE-Bench Pro 58.6，卓越了 GPT-5.4（xhigh）和 Claude Opus 4.6（max effort）。

也即是说：一个开源模子，跑赢了现时确实最强的两个闭源模子。

这对开源编程模子来说，应该是第一次在主流基准上赢得压制上风。

基准测试

天然，咱们知谈，跑分仅仅故事的一半……K2.6 还有个极具暴力与好意思感的 Agent 集群功能，我后头会详备说。

基准跑分

先看硬数据。

K2.6 在编程和 Agent 相干的基准上确实全线最初：

• SWE-Bench Pro：58.6（开源 SOTA）

• SWE-Bench Verified：80.2

• SWE-Bench Multilingual：76.7

• Terminal-Bench 2.0：66.7

• HLE w/ tools：54.0

• BrowseComp：83.2

• LiveCodeBench v6：89.6

数学和视觉方面也没落下，AIME 2026 拿了 96.4，MathVision w/ python 93.2。

SWE-Bench Pro 大赛

Yuchen Jin 转发了 Kimi 官方推文并批驳谈：

“ 开源 SOTA！SWE-Bench Pro 58.6，卓越了 GPT-5.4（xhigh）和 Claude Opus 4.6（max effort）。Kimi 的发布速率越来越快了，算得上 S 级的开源模子团队。””

Yuchen Jin 评价 K2.6

不单跑分

天然，咱们知谈，跑分高是一趟事，能不行在着实场景里扛住永劫候高强度的责任，则又是另一趟事了。

而连咱们都知谈，Kimi 澄澈也知谈……是以 K2.6 此次在这方面的跨越，可能比跑分更值得温雅。

它不错，解析责任 12 小时不崩。

官方给的一个案例是：用 K2.6 在 Mac 上用 Zig 谈话腹地部署 Qwen3.5-0.8B 模子，通盘过程波及 4000 屡次器用调用，跨越 14 轮迭代，执续了 12 个小时。

最终，它跑出 193 tokens/sec 的推理速率，比 LM Studio 快了 20%。

另一个案例更是曲常地硬核：对 exchange-core 金融撮合引擎作念全面重构，13 个小时，1000 屡次器用调用，修改了 4000 多行代码。中等负载朦拢量培植 185%，举座性能培植 133%。

换句话说，K2.6 依然能像一个靠谱的工程师那样，解析干十几个小时的活，中间不掉链子。

何况，它根底就不挑谈话。Rust、Go、Python、前端、DevOps 责任流，都能表示输出。官方的说法是：

“ 跨谈话和框架的泛化智力。””

Vercel 说 K2.6 在 Next.js 基准上的发达培植了卓越 50%。CodeBuddy 请问了 18% 的长陡立文表示性培植和 96.60% 的器用调用见遵循。

以及，K2.6 还有一个特殊实质的矫正：平均按次数比 K2.5 减少了约 35%。

更少的按次意味着更少的 token 奢侈，更少的出错契机，和更快的速率。

用更短的旅途走到正确谜底，这其实是模子「智谋」程度的一个愈加直观的估计方式。

Kimi Code Bench

里面的 Kimi Code Bench 基准测试收成也佐证了这少许：K2.6 从 K2.5 的 57.4 培植到了 68.2，径直涨了快要 20%。

300 个 Agent 上岗

然后，即是此次的重头戏了。

K2.6 的 Agent 集群功能，天然从 K2.5 就运行引入，但我的感受是，此次才算是着实的进修了。

Agent 集群全新升级

咱们只需要给它一个任务，它会自动拆解，创建一堆不同变装的「分身」，让它们并行责任。

K2.5 的上限是 100 个子 Agent、1500 步，皇冠app(中国)官网入口而到了 K2.6 这里，则径直拉到了 300 个子 Agent、4000 步。

K2.6 vs K2.5 跨栏

一个东谈主，一句教导，一支团队。

我天然，得亲身来试一试。

编程器用分析实测

我给 K2.6 Agent 集群输入了一句话：

“ 请用 Agent 集群帮我完成一份对于「2025-2026 民众 AI 编程器用阛阓分析」的委派物套装：一份 10 页的行业分析 PDF，一份 Excel 数据表，一份 15 页 PPT。””

然后，它就运行了。

采纳 K2.6 Agent 集群模式

它先花了几分钟制定实行谋划，把任务拆成了 12 个维度：

阛阓时势、竞争时势、Cursor 深度、GitHub Copilot 深度、其他主要器用对比、开源生态、功能本领对比、订价交易模式、企业选择、本领趋势、安全信任管制、区域阛阓相反。

每个维度，它都需要寂然的搜索、分析和撰写。

然后即是，无尽分身开启的时候了。

我方组了个团队

K2.6 先是自动创建了 12 个子代理，每个都著明字、有头像、有变装定位。

该图片疑似使用了AI生成本领，请严慎甄别

12 个 Agent 各著明字和变装

翔哥是程度编纂内行，青枝是翻译内行，海明威（没错，就叫海明威）是驰名作者认真撰写，马通知是业务参谋人，崔浩是数据分析师，阿哲是质地驱散内行……

一共 12 个，各司其职。

对不起我上头没截出 GIF 图来，Kimi 还作念了特殊酷炫的交互出来，提议你一定要去碰行运一下。而看到这个声势的时候我如故稍稍愣了一下，开云·体育(sprot)官方网站这……是在给我组神气组呢？

并行搜索和接洽

然后，这 12 个 Agent 就运行并行责任了。

它大开了 Kimi's Computer（一个内置的浏览器环境），12 个 Agent 同期在网上搜索不同维度的良友，搜索了可能数百上千个页面的信息。

一小时活水线

通盘责任经由分红了几个大阶段：

Phase 1：景不雅扫描（5 轮搜索完成）

Phase 2：维度领会（12 个维度界说完成）

Phase 3：并行深度接洽（12 个子代理同期责任）

该图片疑似使用了AI生成本领，请严慎甄别

Phase 程度面板

Phase 4-6：交叉考据与细察提真金不怕火

然后插足居品制作阶段：

Stage 2：请问写稿（9 章 + 实行提要）

Stage 3：Excel 数据表制作

Stage 4：PDF 生成（12 页专科请问）

Stage 5：PPT 生成（15 页演示文稿）

该图片疑似使用了AI生成本领，请严慎甄别

委派物制作阶段

到了制作阶段，它又并行派出了三个子代理：巴泰认真 Excel，陈野认真 PDF，家情认真 PPT。三个东谈主同期开工。

该图片疑似使用了AI生成本领，请严慎甄别

三个 Agent 并行制作文献

这时候我严防到一个细节：

陈野在作念 PDF 的时候，实质上是在 sandbox 里用 Python 写代码来生成文献。它装了 Chromium，用 HTML 转 PDF 的方式来确保排版质地。

该图片疑似使用了AI生成本领，请严慎甄别

主动诞生 CSS 相貌

甚而中间还出了个小插曲：生成的请问图片尺寸有问题，一个 Agent 发现后主动去修改 CSS 来诞生。

通盘过程，花了梗概一小时。

委派驱散

最终，它给我委派了三套完竣的文献：

该图片疑似使用了AI生成本领，请严慎甄别

最终委派物

一份 PDF 行业请问，封面缱绻得……还挺像那么一趟事，有目次、有章节、败落据图表。内容掩饰了阛阓时势（Copilot 42% vs Cursor $2B ARR）、选择率（84% 设备者使用、91% 企业选择但仅 29% 信任）、本领趋势（Agentic Coding 创新、MCP 条约圭臬）、安全挑战、中国阛阓（30% 浸透率、CAGR 38.4%）等等。

一份 Excel 数据表，主要 AI 编程器用的功能、订价、用户量级对比。