Kimi K2.5：首个开源多模态智能体集群

2026-02-07 1 minute read

感觉 Kimi K2.5 在国内被低估了，让子弹飞一会儿 🚀🚀🚀

基准测试（Benchmarks）

为了严格评估智能体集群（Agent Swarm）框架的有效性，选择了三个具有代表性的基准测试，它们共同涵盖了深度推理、大规模检索以及真实世界的复杂性：

BrowseComp：一项具有挑战性的深度研究基准，需要多步推理和复杂的信息综合。
WideSearch：旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
In-house Swarm Bench：一项内部开发的集群基准，旨在评估智能体集群在真实世界、高复杂度条件下的性能。它涵盖了四个领域：
- WildSearch（开放网络上不受约束的真实世界信息检索）；
- Batch Download（大规模获取多样化资源）；
- WideRead（涉及 100 多个输入文档的大规模文档理解）；
- Long-Form Writing（连贯生成超过 10 万字的海量内容）。该基准整合了极端规模的场景，旨在压力测试基于智能体系统的编排（Orchestration）、可扩展性（Scalability）和协作能力。

Kimi K2.5 评估涵盖了多个领域的基准测试，下面是按能力维度分类的各基准测试说明：

Unified Agentic Reinforcement Learning Environment（统一智能体强化学习环境）是 Kimi K2.5 为了推进通用智能体能力而开发的标准化、模块化的强化学习（RL）框架。

该环境旨在简化不同任务场景下的智能体训练流程，其核心特点包括：

标准化接口：提供了一个类似 Gym 的标准化接口，使得实现和自定义各种复杂的交互环境变得非常简便。
组合模块化：优先考虑模块化设计，集成了一系列可插拔组件，例如：
- 工具集（Toolset）：支持各种带有沙箱环境的工具。
- 评判模块（Judge）：提供多维度的奖励信号。
- 增强模块：专门用于提示词多样化和指令遵循能力的提升。

该环境在执行层面上表现出极高的并发能力和灵活性：

异步协程处理：每一个智能体任务都被视为一个独立的异步协程。
递归任务触发：任务可以递归地触发子任务的 Rollout（Rollout 指模型生成序列的过程），这为“智能体集群”（Agent Swarm）这种并行智能体强化学习（PARL）以及“智能体作为评判者”（Agent-as-Judge）等复杂范式提供了基础。
大规模并发管理：拥有专门的 Rollout 管理器，在 RL 过程中能够同时调度多达 100,000 个并发智能体任务，并支持 partial rollout 功能。

为了确保训练的稳定性和效率，该环境集成了多项关键技术：

推理引擎协同设计：严格遵循“Token-in-Token-out”（Token 进 Token 出）范式，并记录所有推理输出的对数概率（log probabilities），以便进行“训练-推理失配修正”，确保 RL 训练的稳定性。
LLM Gateway（大模型网关）：这是一个代理服务，用于处理那些仅支持标准 API 协议的“黑盒环境”，使其能够通过该网关利用 Kimi 自定义协议的高级功能。
监控与调试工具：开发了一系列用于性能监控、剖析（Profiling）、数据可视化和验证的工具，以确保这个高度并行的异步系统运行正确且高效。