2 篇文章带有标签 “CoT”

提升 LLM 推理能力:CoT, ReAct, ToT

特性 CoT (Chain-of-Thought) ReAct (Reasoning and Acting) ToT (Tree-of-Thoughts)
中文名称 思维链 推理与行动 思维树
核心思想 引导模型生成中间推理步骤,模仿人类逐步思考。 结合内部推理与外部工具交互,获取并利用额外信息。 允许模型同时探索多个不同的推理路径,形成树状结构,并进行评估和选择。
工作方式 在提示中展示逐步推理的示例,引导模型按步骤思考并输出过程。 模型交替进行:
1. 思考 (Thought): 分析情况,规划行动。
2. 行动 (Action): 调用外部工具(如搜索)。
3. 观察 (Observation): 获取行动结果。
1. 生成多个想法: 每一步产生多个可能的思路。
2. 评估想法: 对各思路进行可行性 / 潜力评估。
3. 搜索策略: 使用如 BFS(广度优先搜索) 或 DFS(深度优先搜索) 探索思路树,可回溯。
主要优点 - 提高复杂推理能力
- 增强可解释性,理解模型思路
- 处理知识密集型任务(获取外部知识)
- 减少信息幻觉
- 动态适应环境反馈
- 解决更复杂、探索性强的问题
- 提高规划和决策能力
- 支持回溯,增强鲁棒性
简单比喻 让模型“多想几步”,把思考过程写出来。 让模型边“想”边“做”(例如上网查资料)。 让模型同时“想”多种可能性,像走迷宫一样尝试不同路径,并选择最优的。

监测推理模型的不当行为以及提升混淆的风险

在构建能力强大且目标一致的模型过程中,缓解奖励黑客行为(即 AI 系统由于学习目标的缺陷或错误规范而表现不当)仍然是一个关键挑战。我们证明,我们可以通过使用另一个观察模型思维链(CoT)推理的 LLM,来监控前沿推理模型(如 OpenAI o3-mini)在智能编程环境中的奖励黑客行为。CoT 监控比仅监控代理行为和输出要有效得多。我们还发现,比 o3-mini 更弱的 LLM(即 GPT-4o)可以有效地监控更强大的模型。 由于 CoT 监控器在检测漏洞方面可以很有效,自然会问这些漏洞是否可以通过将 CoT 监控器直接整合到代理的训练目标中来抑制。虽然我们表明在低优化状态下,将 CoT 监控器整合到强化学习奖励中确实可以产生更有能力和更一致的代理,但我们发现在过度优化的情况下,代理会学会混淆奖励黑客行为,在 CoT 中隐藏其意图,同时仍然表现出显著的奖励黑客行为。 由于很难判断 CoT 何时变得模糊,因此可能需要付出可监控性代价,避免直接对思路链施加强大的优化压力,确保 CoT 仍然可监控,并有助于检测不一致的行为。

Frontier reasoning models exploit loopholes when given the chance.