LongCat-Flash-Thinking-2601 技术报告

2026-01-24 1 minute read

LongCat-Flash-Thinking-2601 创新性地开启了全栈式的智能体推理（Agentic Reasoning）训练体系与架构优化。首先，提出了自动化的环境扩展流水线，构建了覆盖 20 多个领域的高质量、可执行且可验证的智能体环境，有效解决了真实世界中复杂智能体交互数据匮乏的难题。其次，针对现实任务的不确定性，创新性地引入了鲁棒性智能体训练流程，通过系统性分析现实噪声模式并采用课程强化学习（Curriculum RL）将噪声整合进训练，显著增强了模型在非理想环境下的泛化与生存能力。在底层支撑上，扩展了异步强化学习框架 DORA 以支持高达 32,000 个环境的大规模并发训练，并引入了 Heavy Thinking（深思考）模式，通过在推理阶段同时扩展思考的深度与广度（Test-time Scaling），进一步突破了复杂任务的性能边界。此外，还设计了 Zigzag Attention 稀疏注意力机制，使模型能以极低开销实现高达 100 万 token 的长上下文扩展，为长程智能体任务提供了坚实的架构基础。

重思考模式架构

“重思考模式”（Heavy Thinking Mode）是 LongCat-Flash-Thinking-2601 模型为了突破现有推理能力极限而引入的一种推理时扩展（Test-Time Scaling）架构。该模式的核心在于通过增加推理过程中的计算量，同时在深度和宽度两个维度上扩展模型的推理能力。

以下是该架构的详细组成和工作流程：

1. 核心设计理念

重思考模式旨在通过联合扩展计算资源来提升性能：

扩展宽度：通过并行探索多种不同的推理路径（类似于自一致性或蒙特卡洛树搜索）。
扩展深度：通过长链条思维（CoT）和自我反思，让模型能够迭代完善推理过程。

2. 架构的两大阶段

该架构将推理过程分解为两个互补的阶段：

第一阶段：并行推理 (Parallel Reasoning)
- 思考模型（Thinking Model） 并行执行多次生成，产生多个候选推理轨迹。
- 这一步实现了“宽度”的扩展，让模型能够探索多样的解题路径。
第二阶段：重思考/总结 (Heavy Thinking / Summary)
- 总结模型（Summary Model） 对第一阶段产生的所有轨迹进行反思性推理。
- 该阶段负责综合中间推理过程和结果，剔除不一致或错误的路径，最终做出决策。
- 总结模型和思考模型可以是同一个模型，也可以是独立实例。

3. 关键辅助模块

为了支持复杂的工具调用和多轮对话，架构还包含以下组件：

上下文记忆模块 (Context Memory Module)：用于存储消息历史，确保在多轮交互中保留上下文。
特定提示模板 (Specific Prompt Template)：用于组织并行轨迹的排列组合，引导总结模型进行高效的答案聚合或精炼。
一致性约束：总结模型的输出被约束为与并行推理阶段的风格和格式保持一致，以便直接拼接到消息历史中。

并行推理与重思考的上下文消息管理

1. 上下文记忆模块 (Context Memory Module)

为了支持多轮对话和工具调用，架构引入了一个专门的上下文记忆模块。该模块的主要职责是存储和维护消息的历史记录，确保模型能够感知之前的交互背景。

2. 两阶段消息处理流程

上下文管理遵循一个清晰的迭代循环：

第一阶段：并行推理输入 (Input to Parallel Reasoning)：
- 系统将当前的消息历史（Message History）和最新的用户查询发送给多个并行运行的“思考模型”实例。
- 每个实例独立生成候选的推理轨迹（Thinking 1-1, 1-2, …, 1-K）。
第二阶段：重思考/总结输入 (Input to Heavy Thinking)：
- 上下文管理系统利用一个 特定的提示模板（Specific Prompt Template） 来组织这一轮产生的所有并行轨迹。
- 为了保持高效，该模板通常仅保留轨迹中的“答案内容”，并将它们连同原始消息历史一起喂给“总结模型”。
- 总结模型随后进行反思性推理，聚合或提炼出最终的总结答案（Sum. Answer）。

3. 消息集成与格式约束

该架构在消息管理上有一个精妙的设计，即输出的一致性约束：

直接拼接：系统约束总结模型的输出风格和格式，使其与并行推理阶段保持一致。
无缝衔接：这种一致性允许系统将总结模型的响应（例如 Sum. Answer 1）直接拼接到消息历史中，作为下一轮对话的上下文基础。

4. 多轮对话中的演进 (Multi-turn Evolution)

在进入下一轮（如 Turn 2）时，上下文管理的优势得以体现：

之前的“总结答案 1”和新的“用户消息 2”共同构成新的输入，传递给下一轮的并行推理。
这种机制确保了模型在不断增加推理深度（通过多轮总结和反思）的同时，也能通过并行的宽度扩展来探索多样化的解题路径。

这种上下文消息管理机制通过 “并行探索 -> 结构化聚合 -> 格式化回填” 的闭环，解决了大规模并行推理轨迹与长程历史对话之间的协调问题，使模型在处理 AIME-2025 等极高难度任务时能够保持逻辑的一致性和鲁棒性。

基准性能

表格中对比了 LongCat-Flash-Thinking-2601 与主流开源推理模型（如 DeepSeek-V3.2、GLM-4.7 等）及闭源模型（如 GPT-5.2、Claude-4.5 等）在数学推理、智能体搜索、工具使用、通用问答和代码编程五个核心领域的性能表现。结果显示，该模型在智能体搜索和工具使用（Agentic Search & Tool Use）基准上表现卓越，在 BrowseComp、VitaBench 和随机复杂任务等多项测试中均位居开源模型首位，甚至在 RW Search 上表现仅次于 GPT-5.2。此外，在开启重思考模式（Heavy Thinking Mode）后，其数学推理（如 AIME-25 满分）和通用问答能力显著提升，达到了可比肩顶级闭源推理模型的第一梯队水平。

Zigzag Attention

1. 为什么要引入？

解决计算复杂度问题：标准的全注意力机制具有平方阶（quadratic）复杂度，在处理长推理轨迹或长上下文任务时，计算成本和推理延迟会变得极其昂贵。
应对重思考模式（Heavy Thinking）：在重思考模式下，模型需要同时解码多个并行推理轨迹，这对注意力机制的效率提出了更高要求。

2. 工作原理

稀疏策略：它结合了多头潜变量注意力（MLA）与流式稀疏注意力（SSA），将每个查询标记（query token）的注意力限制在 局部窗口（近期标记）和全局锚点（序列开头的初始标记） 上。
层间交错稀疏化：大约 50% 的全注意力层被替换为 SSA 层。这种“层级稀疏”避免了硬件利用率不均的问题，通过在不同层间交错全注意力和稀疏层，信息仍能在序列中远距离传递，形成 Zigzag 的连接路径。
无损转换：这种设计允许现有的全注意力模型在模型中期训练（mid-training）阶段以极低的开销转换为稀疏变体，同时能够外推支持高达 100 万（1M）标记的超长上下文。

3. 性能提升

展示了 LongCat-Flash-Thinking-2601（标准全注意力模型）与 LongCat-Flash-Thinking-ZigZag（引入 Zigzag Attention 的稀疏注意力变体）在推理效率上的对比。

最优超参数预测（Optimal Hyperparameter Prediction）

解决大规模模型在 中期训练（mid-training） 阶段面临的挑战：由于搜索空间巨大且计算成本极高，如何高效地确定最优超参数配置。

1. 核心目标

该方法专门设计用于最小化寻找最佳配置所需的计算成本。通过这种预测机制，模型可以在持续训练（continual training）过程中以极低的计算开销提升性能。

2. 实现步骤

该预测过程主要分为两个关键步骤：

超参数映射 (Hyperparameter Mapping)：
- 首先训练多个不同超参数设置的小型模型（例如 MoE-1.8B 和 MoE-100M）。
- 利用验证损失（validation loss）和浮点运算量（FLOPS），将最优超参数与它们的计算成本建立映射关系。
- 这有助于理解不同配置如何影响训练效率和最终性能。
超参数预测 (Hyperparameter Prediction)：
- 对于给定的预训练检查点（checkpoint），通过其验证损失来估算“等效计算成本”（即从零开始达到相同损失所需的计算量）。
- 结合这一估算值与实际的计算负载，预测出在该阶段进行持续训练的最优超参数。

3. 应用与验证

涉及参数：该方法主要预测最优批次大小（Optimal Batch Size）和最优学习率（Optimal Learning Rate）。
缩放定律（Scaling Laws）：利用幂律拟合（power-law fitting）建立了缩放曲线。先在 MoE-3B 和 MoE-6B 模型上得到验证，随后被外推（extrapolated）以预测 MoE-26B（即 LongCat-Flash-Thinking-2601 激活参数规模）的最优配置。