1 minute read

感觉 Kimi K2.5 在国内被低估了,让子弹飞一会儿 🚀🚀🚀

基准测试(Benchmarks)

Agent Swarm 基准测试

为了严格评估智能体集群(Agent Swarm)框架的有效性,选择了三个具有代表性的基准测试,它们共同涵盖了深度推理大规模检索以及真实世界的复杂性

  • BrowseComp:一项具有挑战性的深度研究基准,需要多步推理和复杂的信息综合。
  • WideSearch:旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
  • In-house Swarm Bench:一项内部开发的集群基准,旨在评估智能体集群在真实世界、高复杂度条件下的性能。 它涵盖了四个领域:
    • WildSearch(开放网络上不受约束的真实世界信息检索);
    • Batch Download(大规模获取多样化资源);
    • WideRead(涉及 100 多个输入文档的大规模文档理解);
    • Long-Form Writing(连贯生成超过 10 万字的海量内容)。 该基准整合了极端规模的场景,旨在压力测试基于智能体系统的编排(Orchestration)、可扩展性(Scalability)和协作能力

主要基准测试

Kimi K2.5 评估涵盖了多个领域的基准测试,下面是按能力维度分类的各基准测试说明:

推理与通用能力 (Reasoning & General)

  • Humanity’s Last Exam (HLE):一项严苛的深度推理基准,包含文本和图像子集,用于测试模型的极限推理能力。
  • AIME 2025:美国数学邀请赛,用于评估模型在数学和 STEM 领域的深度推理。
  • HMMT 2025 (Feb):哈佛-麻省理工数学锦标赛,测试高难度数学竞赛问题的解决能力。
  • IMO-AnswerBench:基于国际数学奥林匹克竞赛水平的问题基准。
  • GPQA-Diamond:研究生水平的“防谷歌”问答基准,侧重于评估高难度的科学知识与推理。
  • MMLU-Pro:比标准 MMLU 更具挑战性的多任务语言理解基准。
  • SimpleQA Verified:用于衡量模型参数化知识可靠性的事实性评估基准。
  • AdvancedIF:基于规则的指令遵循能力评估。
  • LongBench v2:针对真实长文本场景的深度理解与推理测试。

编程能力 (Coding)

  • SWE-bench (Verified/Pro/Multilingual):软件工程基准,测试模型解决真实 GitHub 仓库问题和多语言编程的能力。
  • Terminal Bench 2.0:评估智能体在命令行界面(CLI)中处理复杂、真实任务的能力。
  • PaperBench (CodeDev):测试模型复现 AI 研究论文代码的能力。
  • CyberGym:网络安全能力评估,要求模型根据高层描述在真实开源项目中发现漏洞。
  • SciCode:由科学家编写的科学研究编程基准。
  • OJBench (cpp):竞赛级代码评估基准。
  • LiveCodeBench (v6):使用实时更新的编程挑战进行防污染的综合评估。

智能体能力 (Agentic Capabilities)

  • BrowseComp:具有挑战性的深度研究基准,要求多步推理和复杂的信息综合能力。
  • WideSearch:评估智能体在多元来源中进行广度信息搜索和推理的能力。
  • DeepSearchQA:评估深度研究智能体在信息获取完整性方面的表现。
  • FinSearchComp (T2&T3):针对金融领域搜索与推理的专家级真实评估。
  • Seal-0:SealQA 的主要子集,旨在提升搜索增强型模型的推理门槛。
  • GDPVal:评估 AI 模型处理具有实际经济价值任务的表现。

图像理解 (Image Understanding)

  • MMMU / MMMU-Pro:大规模跨学科多模态理解与推理基准。
  • CharXiv (RQ):评估模型对真实图表理解能力的基准。
  • Math-Vision / MathVista (mini):评估视觉语境下的数学推理能力。
  • SimpleVQA / WorldVQA:评估多模态事实性、视觉识别及地理知识。
  • ZeroBench:一项极具挑战性的视觉基准,用于测试多步视觉推理。
  • BLINK / MMVP:测试多模态模型是否真正“看清”并感知到了图像内容。
  • OCR-Bench / OmniDocBench 1.5 / InfoVQA:评估文本识别、文档解析及信息图表理解能力。

视频理解 (Video Understanding)

  • VideoMMMU / MMVU:专家级多学科视频理解评估。
  • MotionBench:细粒度的视频动作与运动理解基准。
  • Video-MME:首个多模态大模型视频分析综合评估基准。
  • LongVideoBench / LVBench:针对极长视频(包含数千帧)理解能力的评估基准。

计算机操作 (Computer Use)

  • OSWorld-Verified:在真实计算机环境中评估多模态智能体执行开放式任务的能力。
  • WebArena:一个用于构建自主智能体的真实网页环境操作基准。

模型训练

统一智能体强化学习环境

Unified Agentic Reinforcement Learning Environment(统一智能体强化学习环境)是 Kimi K2.5 为了推进通用智能体能力而开发的标准化、模块化的强化学习(RL)框架。

核心设计理念

该环境旨在简化不同任务场景下的智能体训练流程,其核心特点包括:

  • 标准化接口:提供了一个类似 Gym 的标准化接口,使得实现和自定义各种复杂的交互环境变得非常简便。
  • 组合模块化:优先考虑模块化设计,集成了一系列可插拔组件,例如:
    • 工具集(Toolset):支持各种带有沙箱环境的工具。
    • 评判模块(Judge):提供多维度的奖励信号。
    • 增强模块:专门用于提示词多样化和指令遵循能力的提升。

执行与架构机制

该环境在执行层面上表现出极高的并发能力和灵活性:

  • 异步协程处理:每一个智能体任务都被视为一个独立的异步协程
  • 递归任务触发:任务可以递归地触发子任务的 Rollout(Rollout 指模型生成序列的过程),这为“智能体集群”(Agent Swarm)这种并行智能体强化学习(PARL)以及“智能体作为评判者”(Agent-as-Judge)等复杂范式提供了基础。
  • 大规模并发管理:拥有专门的 Rollout 管理器,在 RL 过程中能够同时调度多达 100,000 个并发智能体任务,并支持 partial rollout 功能。

技术集成与优化

为了确保训练的稳定性和效率,该环境集成了多项关键技术:

  • 推理引擎协同设计:严格遵循“Token-in-Token-out”(Token 进 Token 出)范式,并记录所有推理输出的对数概率(log probabilities),以便进行“训练-推理失配修正”,确保 RL 训练的稳定性。
  • LLM Gateway(大模型网关):这是一个代理服务,用于处理那些仅支持标准 API 协议的“黑盒环境”,使其能够通过该网关利用 Kimi 自定义协议的高级功能。
  • 监控与调试工具:开发了一系列用于性能监控、剖析(Profiling)、数据可视化和验证的工具,以确保这个高度并行的异步系统运行正确且高效。

应用价值

这一环境是 Kimi K2.5 实现文本与视觉联合优化 以及 Agent Swarm(并行智能体编排) 的关键基础。它允许模型通过与真实和合成环境的互动,在开源域之外的开放性任务中不断学习、调整行为并获取新技能。

提示词

示例

OpenRouter

OpenRouter 上 Kimi K2.5 已经是绝对的第一了。

Kimi K2.5: 视觉智能体智能思维导图

参考资料

Updated: