
五月大模型竞技:Kimi K2.6 开源、Qwen 35小时连跑、Gemini 3.5 Flash 登场、Mistral 一体化重组
4月底至5月底,Moonshot AI、阿里Qwen、Google、Mistral在4周内相继发布重要版本。本文逐一拆解Kimi K2.6的1T MoE开源架构与300子智能体能力、Qwen3.7-Max的35小时kernel优化10倍加速、Google I/O上Gemini 3.5 Flash的速度优势、以及Mistral废弃Magistral后的一体化新旗舰Medium 3.5——并横向对比四家发布背后共同指向的Agent执行趋势。
Research Brief
Kimi K2.6:开源阵营最强编码智能体,Agent Swarm 扩至 300 个
Agent Swarm:从 100 个子智能体到 300 个
- 金融 matching engine 优化:K2.6 在 13 小时内对一个有 8 年历史的开源匹配引擎进行了超过 1,000 处代码修改,中间吞吐量提升 185%,峰值吞吐提升 133%,全程无人工干预
- Zig 语言性能优化:在 12+ 小时内完成 4,000+ 次工具调用,把 Qwen3.5-0.8B 在 Mac 本地的推理速度从 ~15 tokens/s 提升至 ~193 tokens/s,比 LM Studio 的参考实现快约 20%
Benchmark 表现

| Benchmark | Kimi K2.6 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| HLE-Full w/ tools | 54.0 | 53.0 | 51.4 |
| DeepSearchQA (F1) | 92.5 | 91.3 | 81.9 |
| OSWorld-Verified | 73.1 | 72.7 | — |
| SWE-Bench Verified | 80.2 | 80.8 | 80.6 |
| LiveCodeBench v6 | 89.6 | 88.8 | 91.7 |
对比 K2.5 的改进幅度
Qwen3.7-Max:35 小时自主运行,10 倍加速
35 小时 Kernel 优化
跨 Harness 泛化
Benchmark 数字
- GPQA Diamond:92.4(Claude Opus 4.6 Max 为 91.3)
- Apex 推理:44.5(DeepSeek V4 Pro 为 38.3)
- MCP-Mark:60.8(Claude Opus 4.6 Max 56.7)
- SpreadSheetBench-v1:87.0(仅次于 Claude Opus 4.6 Max 的 89.3)
- Terminal Bench 2.0-Terminus:69.7(Qwen3.6-Plus 为 61.6)
- YC-Bench(模拟创业营收):$2.08M(Qwen3.6-Plus 为 $1.05M)
Google I/O 2026:Gemini 3.5 Flash、Omni Flash 与 Antigravity 2.0
Gemini 3.5 Flash:比前代全面提升,比同级快 4 倍
- 与 Gemini 3.1 Pro 相比,在「几乎所有 benchmark」上更好
- 在 GDPVal(捕获真实经济价值任务的评估集)上有「显著跳升」(具体数值未在发布会上公开)
- 输出速度是同级 frontier 模型的 4 倍,按 Google 内部的 cost 模型,若企业把 80% 的 frontier 工作量从其他旗舰模型切换到 3.5 Flash,每日处理 1 万亿 tokens 的公司每年节省超过 10 亿美元
Gemini Omni Flash:首个全模态生成模型
Antigravity 2.0:从代码编辑器到 Agent 平台
- 可启动多个专项子 Agent 并行处理复杂工作流
- 内置跨平台终端沙箱、Credential 屏蔽和强化 Git 策略
- Antigravity 2.0 作为独立桌面应用发布,同时推出 Antigravity CLI 和 SDK
Mistral Medium 3.5:Magistral 正式退场,一体化旗舰上场
横向观察:四个发布背后的同一条趋势
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·Twitter AI 长文精选|Kimi K2.6 登顶、Cloudflare 重写 Agent 基础设施、Claude Code 工程解剖
本期精选 Twitter 上四篇热门 AI 深度长文:Kimi K2.6 以 SWE-Bench Pro 58.6 分夺下开源编程 SOTA;Cloudflare Agent Week 重写云基础设施假设;阿里云开发者完整拆解 Claude Code 三层工程架构;腾讯研究院 16,500 字长文《人类正在走下牌桌》分析 Agent 时代的四阶演进。
Twitter AI 长文精选
Article·MiniMax M3 开源 428B 参数、Kimi 代码模型提升 21.8%——AI HOT 今日热点(2026-06-13)
MiniMax M3 以 428B 总参数开源登场,上下文窗口扩展至 1M token;Kimi-K2.7-Code 代码基准全线提升、推理 token 减少 30%。豆包上线「任务模式」,Codex 推出速率存储与浏览器开发者模式,Claude Code 一天内三版连发。TCS 宣布将 Claude 部署至 56 个国家 5 万员工。精选 2026-06-12 全天 17 条 AI 行业动态。
AI HOT 每日热点简报
Article·X Feed 每日中文简报|2026年6月13日
今日关注圈:Kimi-K2.7-Code 开源发布,推理 token 降 30%,MCP 工具编排超越 Opus 4.8;@shao__meng 整理 Spec 驱动开发(SDD)框架与 Claude Fable 5 首日 playbook 8 条实践;SpaceX SPCX 以 $135 定价正式上市纳斯达克,盘中冲至 $176,马斯克成万亿富翁;华为 HDC 2026 宣布开源盘古 openPangu 2.0。
X Feed 每日中文简报
Article·Salesforce 36 亿美元吞下 Fin、Kimi 推理提速 6 倍——AI HOT 今日热点(2026-06-16)
Salesforce 以 36 亿美元收购 AI 客服平台 Fin(前 Intercom),AI 应用并购加速;Kimi K2.7 Code 高速版上线,同模型输出速度提升 5–6 倍;MiniMax M3 开源两周登顶多项开源榜,DFlash 投机解码让 Qwen 3.5 397B 吞吐提升 4.3 倍。行业侧:Nvidia 发行 200 亿美元债券、AI 裁员今年已达 15 万。精选 2026-06-15 全天 14 条 AI 行业动态。
AI HOT 每日热点简报
Article·谷歌 I/O 大会、Kimi 估值翻 4 倍、Token 价格战开打|AI 公众号日报 0521
今日重点:谷歌 I/O 2026 发布 Gemini 3.5 Flash 与第八代 TPU;DeepSeek-V4 适配华为昇腾,国产算力落地;Kimi D 轮 20 亿美元国资首批入场估值翻 4 倍;运营商 Token 套餐上线、智谱调价 90%;中国生成式 AI 用户突破 6 亿;首个 AI 伦理安全指引正式发布。
中国 AI 公众号独家文章日报
Image post·5条科技热门 Day 025 | Gemini 3.5 Flash · NVIDIA三模式LLM · ByteDance Lance开源
Day 025 精选 5 条跨源最高热度内容:Google I/O 2026 发布 Gemini 3.5 Flash(速度 4×、成本减半、Gemini Spark 个人智能体上线);NVIDIA 发布 Nemotron-Labs-Diffusion 三模式语言模型(AR+扩散+自投机,GB200 单用户 850 tok/sec,5.9× 提速);ByteDance 开源 Lance 3B 统一多模态模型(图像+视频全任务);Hugging Face 工程师复活 PapersWithCode;Meta Q1 赚 $56B 仍裁员 8000 人付 AI 账单。
5条科技热门内容

Add more perspectives or context around this Post.