提升 LLM 推理能力：CoT, ReAct, ToT

2025-05-06 less than 1 minute read

总结

特性	CoT (Chain-of-Thought)	ReAct (Reasoning and Acting)	ToT (Tree-of-Thoughts)
中文名称	思维链	推理与行动	思维树
核心思想	引导模型生成中间推理步骤，模仿人类逐步思考。	结合内部推理与外部工具交互，获取并利用额外信息。	允许模型同时探索多个不同的推理路径，形成树状结构，并进行评估和选择。
工作方式	在提示中展示逐步推理的示例，引导模型按步骤思考并输出过程。	模型交替进行： 1. 思考 (Thought): 分析情况，规划行动。 2. 行动 (Action): 调用外部工具（如搜索）。 3. 观察 (Observation): 获取行动结果。	1. 生成多个想法: 每一步产生多个可能的思路。 2. 评估想法: 对各思路进行可行性 / 潜力评估。 3. 搜索策略: 使用如 BFS(广度优先搜索) 或 DFS(深度优先搜索) 探索思路树，可回溯。
主要优点	- 提高复杂推理能力 - 增强可解释性，理解模型思路	- 处理知识密集型任务（获取外部知识） - 减少信息幻觉 - 动态适应环境反馈	- 解决更复杂、探索性强的问题 - 提高规划和决策能力 - 支持回溯，增强鲁棒性
简单比喻	让模型“多想几步”，把思考过程写出来。	让模型边“想”边“做”（例如上网查资料）。	让模型同时“想”多种可能性，像走迷宫一样尝试不同路径，并选择最优的。

核心思想： 思维链是一种提示（Prompting）技术，旨在引导大型语言模型 (LLM) 在给出最终答案之前，先生成一系列中间的推理步骤。它模仿了人类解决复杂问题时逐步思考的过程。

工作方式： 在向模型提问时，不仅仅是要求最终答案，而是在提示中包含一些示例，展示如何一步一步地思考并得出结论。例如，在解决一个数学应用题时，CoT 提示会展示解题的详细步骤，而不仅仅是最终的数字答案。

优点：

简单来说： CoT 就是让模型“多想几步”，把思考过程写出来，而不是直接给出答案。

核心思想： ReAct 框架将“推理”（Reasoning）和“行动”（Acting）结合起来，让大型语言模型不仅能像 CoT 那样进行内部思考，还能与外部环境或工具进行交互以获取额外信息。

工作方式： 模型在解决问题时，会交替进行思考和行动。

优点：

简单来说： ReAct 让模型不仅能“想”，还能“做”（比如上网查资料），边想边做，解决更复杂、需要外部信息的问题。

核心思想： 思维树是对思维链 (CoT) 的一种泛化和扩展。CoT 通常是沿着单一路径进行推理，而 ToT 允许模型同时探索多个不同的推理路径（“想法”或“思路”），形成一个树状结构。

工作方式：

生成多个想法： 在推理的每一步，模型会针对当前状态生成多个可能的下一步想法或解决方案。
评估想法： 模型会对这些生成的想法进行评估，判断它们的可行性或有多大潜力能导向最终答案。
搜索策略： 使用搜索算法（如广度优先搜索 BFS 或深度优先搜索 DFS）来系统地探索这棵“想法树”。模型可以选择最有希望的分支继续深入，或者在发现当前路径行不通时进行回溯（Backtracking），尝试其他分支。

优点：

简单来说： ToT 就像让模型同时思考多种可能性（“如果这样走会怎样？如果那样走又会怎样？”），并从中选择最好的路径，甚至在走不通时能回头换条路试试。

总结：

这三种技术都旨在提升大型语言模型解决复杂问题的能力，但侧重点和实现方式有所不同。它们也可以相互结合使用。