PyTorch 神经网络实战:从训练到推理的完整指南

该文本提供了一个关于PyTorch二分类神经网络的实现与性能分析的全面概述。首先,它通过具体代码示例展示了如何构建、训练、评估和保存一个基础的神经网络模型,并演示了如何加载模型进行推理。其次,文章深入探讨了不同模型参数规模下Apple的MPS(Metal Performance Shaders)框架与CPU训练时间上的性能对比,通过表格数据清晰地呈现了MPS在处理大型模型时相较于CPU的显著优势,并指出了性能的“转折点”

我的电脑是 Apple MacBook Pro M2 Max 16寸 64G内存

这不是好的实践,因为训练和数据加载在同一个 for 循环中顺序进行。每次我们加载下一个小批量时,模型和 GPU 都处于空闲状态。

理想情况下,我们希望模型在后向调用和参数更新(通过.step())后立即处理下一个小批量。换句话说,目标是在模型准备就绪后立即准备好下一个小批量,因此我们希望在模型训练期间持续在后台加载小批量。遗憾的是,由于 Python 有一个全局解释器锁 (GIL),默认情况下只允许它运行单个进程,因此我们必须编写一个复杂的解决方法。

值得庆幸的是,我们可以使用 PyTorch 的 DataLoader 来实现这一点。

华为 Atlas 800I A2 大模型部署实战(十一):部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本,并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数,展示了如何配置模型参数以优化性能,最后通过实际测试验证了模型的部署效果,并分析了多次调用后性能下降的原因,表明了在NPU上进行LLM推理部署的复杂性及其性能考量

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS
# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

华为 Atlas 800I A2 大模型部署实战(十):GlusterFS 构建高性能共享存储

本文档首先比较了 NFS、GlusterFS、Ceph 和 HDFS 四种分布式文件系统的优缺点及适用场景,强调了 GlusterFS 在无元数据服务器、高可用性和横向扩展方面的优势。Gluster 是一个可扩展的分布式文件系统,它将来自多个服务器的磁盘存储资源聚合成一个单一的全局命名空间。文档提供了在多台服务器上准备环境、安装 GlusterFS、配置信任池、创建和启动分布式复制卷的详尽步骤,并指导如何在客户端挂载和测试 GlusterFS 卷。最后,文档通过网络带宽和磁盘读写性能测试,对 GlusterFS 的实际表现进行了评估,指出当前网络带宽可能是性能瓶颈,建议使用更高速的网络接口(25 GbE)以提升性能。

AI 服务器:华为 Atlas 800I A2 推理服务器 X 5

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

NFS 是一种传统的客户端-服务器架构文件共享协议,而不是一个真正的分布式文件系统。它允许客户端通过网络访问远程服务器上的文件,就像访问本地文件一样。

优点: 简单易用:部署和配置都非常简单,是许多Linux和Unix环境下的标准组件。

华为 Atlas 800I A2 大模型部署实战(九):Docker Swarm 分布式部署

该文本详细介绍了在华为 Atlas 800I A2 推理服务器集群上使用 Docker Swarm 部署大型语言模型(LLM)的实践过程。指导用户初始化 Docker Swarm 管理器节点并添加工作节点,以构建一个分布式计算环境。随后,文档展示了如何创建一个 Docker Stack 配置文件来部署两个不同的 LLM 服务(Qwen3-30B 和 Coder-32B),并说明了如何将容器映射到昇腾 NPU 设备。最后,文本提供了部署、检查服务状态以及故障排除(如禁用 firewalld)的命令,并指出此次实验部署未能成功❌。

AI 服务器:华为 Atlas 800I A2 推理服务器 X 5

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

我们选择 172.16.33.106 作为 manager 节点。

docker swarm init --advertise-addr 172.16.33.106

执行后,会输出一段 docker swarm join 命令,类似下面这样:

京东通用智能体:JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie,一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体,还提供了部署指南,包括如何构建和启动Docker镜像,以及配置大型语言模型(LLM)如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例,并提供了任务规划和执行的详细提示(prompts),阐述了其思考、行动、观察的工作流程,以及如何利用各种工具(如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具)来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品,能端到端直接响应并解决用户 query 或任务,支持新场景功能定制挂载,涵盖前后端、框架、引擎及核心子智能体,在通用能力榜单表现优异且不依赖特定平台。

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

下面的设置是使用 DeepSeek 进行的,只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的,可以到这里申请:Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件:genie-backend/src/main/resources/applic

华为 Atlas 800I A2 大模型部署实战(八):GPUStack 实现 GPU 集群化管理

本文章详细介绍了华为 Atlas 800I A2 推理服务器上部署大型AI模型的实践过程,重点围绕GPUStack这一开源GPU集群管理工具。文章首先阐述了GPUStack的核心特性,包括其广泛的兼容性、对多种模型和推理框架的支持、灵活的部署能力以及智能管理功能。随后,文档提供了在主服务器和从服务器上安装、配置和使用GPUStack的详尽步骤,并展示了如何通过NFS实现模型文件的统一存储,以优化多服务器集群中的模型调度效率。文中还包含了GPUStack用户界面的截图,帮助读者直观理解其各项功能。

AI 服务器:华为 Atlas 800I A2 推理服务器 X 5

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

GPUStack 是一款开源的 GPU 集群管理器,专为运行 AI 模型设计,其核心特点如下:

广泛的兼容性:支持多厂商 GPU,覆盖苹果 Mac、Windows 电脑及 Linux 服务器,还能适配多种推理后端(如 vLLM、Ascend MindIE 等),并可同时运行多个版本的推理后端,满足不同模型的运行需求。

华为 Atlas 800I A2 大模型部署实战(七):完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程,旨在提供一个全面的安装与配置实践,用于扩展部署到其它服务器。随后,文章通过流程图和具体命令脚本,逐步指导用户如何创建和挂载逻辑卷同步并安装驱动固件部署Docker环境以及导入所需的MindIE和vLLM镜像。最后,指南还涵盖了同步大型模型权重文件的关键步骤,并指示用户通过Docker Compose启动模型服务,确保MindIE和vLLM能够顺利运行,以实现AI推理功能。

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

华为 Atlas 800I A2 大模型部署实战(六):vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型,既提供了直接使用 Docker 命令的示例,也展示了通过 Docker Compose 进行多模型部署的方法。此外,文章还包含了模型部署后的测试方法

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS
docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小(以MB为单位)的块。这可以减少内存碎片化,并可能使一些临界工作负载在不耗尽内存的情况下完成。

运行容器

华为 Atlas 800I A2 大模型部署实战(五):vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试,并定义了关键性能指标,如请求吞吐量token吞吐量延迟。最后,比较了不同大型语言模型(如DeepSeek和Qwen)在各种精度设置下的性能,以评估Atlas 800I A2在AI推理场景中的效率

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

使用 vLLM 进行性能测试,性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量(QPS)、token 吞吐量、首 token 延迟(TTFT)、每个输出 token 的生成时间(TPOT)以及相邻 token 之间的间隔(ITL)等。

  • 克隆 vLLM 仓库
git clone https://github.com/vllm-project/vllm.git
  • 安装 vLLM
cd vllm
pip install -e .

华为 Atlas 800I A2 大模型部署实战(四):MindIE 多实例 LLM 部署

该文档详细阐述了MindIE 大模型在华为 Atlas 800I A2 服务器上的部署实践,重点介绍了单实例和多实例部署配置。它提供了创建目录结构、编辑配置文件和入口脚本的步骤,并展示了Docker Compose 配置来管理容器化部署。此外,文档还涵盖了防火墙设置的不同方法,包括临时关闭、永久禁用和端口放行,以及查看 MindIE 服务监听端口的命令。最后,它说明了如何自定义 Dockerfile 以实现在内网环境中无缝部署MindIE 服务并进行测试。

mkdir -p template
cd template

touch config.json.template compose.yml entrypoint.sh

mkdir -p logs
chmod 750 logs

chmod +x entrypoint.sh

列出目录结构

tree template/
template/
├── config.json.template
├── compose.yml
├── entrypoint.sh
└── logs

编辑 config.json.template 文件

华为 Atlas 800I A2 大模型部署实战(三):MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤,并指导用户下载、导入 MindIE 镜像,以及准备 LLM 模型文件。最后,文档展示了如何通过 Docker 容器运行和配置 MindIE 服务,并提供了通过 cURL 命令测试服务的示例,还包含了使用 Docker Compose 部署的详细配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

华为 Atlas 800I A2 大模型部署实战(二):逻辑卷创建与大模型下载

本指南详细阐述了如何使用 LVM(逻辑卷管理)创建和管理磁盘分区,包括物理卷、卷组和逻辑卷的设置。文档还提供了关于 ext4 和 XFS 文件系统的对比,并指导用户如何挂载文件系统以及实现开机自动挂载。最后,它解释了如何使用 ModelScopeopenmind_hub 工具下载各种大型模型,并利用 rsync 命令在服务器之间同步文件

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

LVM (Logical Volume Manager,逻辑卷管理) 是 Linux 环境下对磁盘分区进行管理的一种机制,它提供了比传统分区更灵活和强大的磁盘管理功能。

LVM 主要由以下几个核心概念组成:

  • 物理卷 (Physical Volume, PV):实际的物理磁盘或分区
  • 卷组 (Volume Group, VG):由一个或多个物理卷组成的存储池
  • 逻辑卷 (Logical Volume, LV):从卷组中划分出的逻辑存储单元,可格式化并挂载使用

LVM 的优势 灵活的容量管理:可以动态调整逻辑卷大小 存储池化:多个物理设备可以组合成一个大

华为 Atlas 800I A2 大模型部署实战(一):驱动/固件安装与MCU升级

这份文档提供了关于华为 Atlas 800I A2 推理服务器的详细部署指南。它首先介绍了服务器的硬件配置,包括其基于鲲鹏 920 CPU昇腾 910 AI 处理器的架构。随后,文档详细阐述了驱动、固件和 MCU 的安装流程,明确区分了首次安装覆盖安装的步骤差异。此外,它还提供了在安装前检查操作系统和 NPU 芯片状态的指导,并展示了如何获取所需的软件包创建运行用户。最后,文档通过命令行示例,分步演示了驱动和固件的安装,以及MCU 固件的升级方法,确保了服务器的正常运行和功能完备。

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

Atlas 800I A2 推理服务器是基于鲲鹏920+昇腾910 AI处理器的AI推理设备。

1 铜排模块 2 NPU模组
3 硬盘背板 4 加强横梁
5 NPU载板 6 参数面板接口卡
7 机箱 8 CPU主板导风罩
9 硬盘 10 风扇模块
11 CPU散热器 12 DIMM
13 灵活IO卡 (选配) 14 CPU主板
15 电源框 16 电源模块
17 Riser模组2 18 Riser模组1

英伟达全栈方案:LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理,使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。 同时,NVIDIA 还提供了用于 LLM 开发的工具和框架,如 NeMo,可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用 合成运动生成 将人类演示转化为大量的训练数据,并通过 Isaac Lab 进行仿真训练,从而实现 机器人学习。整个系统建立在 Jetson Thor 架构之上,并整合了 NVIDIA Omniverse 等工具,支持机器人数据的处理与生成、仿真与学习,以及简化扩展,最终目标是推进 人形机器人技术 的发展。

大模型风向标!OpenRouter平台谁最火?热门应用大揭秘!

OpenRouter 是一个创新的统一 API 平台,旨在简化开发者和企业对数百种大型语言模型(LLMs)的访问和使用,提供一个与 OpenAI Chat API 类似的标准化接口,让用户能够通过单一入口轻松切换并调用来自不同提供商(如 OpenAI、Anthropic、Google 等)的模型。它不仅能根据成本、性能等需求智能路由请求,帮助优化开销,还提供统一账单和实时数据洞察,极大地降低了多模型集成的复杂性,提升了 AI 应用开发的效率和灵活性。

🚀 大模型霸主争夺战:Google、Deepseek、Anthropic三足鼎立!

如果你还在纠结用哪个大模型,不妨看看OpenRouter的数据!截止到2025年7月7日,整个平台上的令牌使用量已经突破了2.4万亿(2.4T)!这说明AI应用场景真的是越来越广啦!

而在这场“AI大混战”中,Google爸爸的Gemini系列模型绝对是遥遥领先,市场份额高达43.2%!几乎占据了半壁江山!其次是黑马Deepseek(19.1%)和我们熟悉的Anthropic(18.7%)。OpenAI虽然也榜上有名,但市场份额相对较小,只有6.2%。看来,大模型的竞争格局正在悄悄发生变化哦!

🤖 热门模型C位出道,实力派选手个个能打!

Google Gemini 2.5 Flash / Pro系列: 妥妥的“劳模”担当!

探索多模态大模型 GLM-4.1V-Thinking

本文档介绍了多模态大模型GLM-4.1V-Thinking,这是一个基于 GLM-4-9B-0414 的开源视觉语言模型,通过强化学习显著提升了其性能。文档详细阐述了该模型在设计图转代码(Design2Code)任务上的卓越表现,能将设计图转换为高质量的HTML/CSS代码,并提供了与Qwen-2.5-VL-32B-Instruct的对比示例。此外,资源还展示了如何通过智谱API免费使用GLM-4.1V-Thinking进行图像识别,并给出了一个安全检测系统的代码示例,该系统能够识别图像中的火灾、烟雾以及人员安全帽佩戴情况,并进行坐标标注,强调了模型在实际应用中的潜力。

基于 GLM-4-9B-0414 基座模型,我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ,引入思考范式,通过课程采样强化学习 RLCS(Reinforcement Learning with Curriculum Sampling)全面提升模型能力, 达到 10B 参数级别的视觉语言模型的最强性能,在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 论文 GLM-4.1V-Thinking:通过可扩展强化学习实现通用多模态推理

GLM-4.

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于,当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低,无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键,但这将强制要求 将 Ubuntu 升级到 22.04,从而导致 需要重装系统可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外,文档还探讨了 替代推理引擎和云端推理 等备选方案,但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

  • 硬件环境:ARM64 架构,具体为 NVIDIA Jetson AGX Orin 开发者套件。

硬件环境: ARM64 架构,具体为 NVIDIA Jetson AGX Orin 开发者套件。 当前系统配置: JetPack版本:5.1.4 Ubuntu版本:20.04 CUDA版本:11.4 核心问题: vLLM和Ollama这两个主流的多模态大模型推理框架对CUDA和驱动版本有更高要求,而现有系统配置无法满足。 具体软件版本要求: vLLM: 至少需要CUDA 11.8。 Ollama: 需要Nvidia GPU计算能力5.

DXT(桌面扩展)开发指南

本文档主要介绍了 DXT (桌面扩展) 的开发指南,它是一种将 MCP 服务器 转换为可分发扩展的工具。文档详述了如何使用 DXT 工具初始化、验证和打包 扩展,并提供了 目录结构示例。此外,还强调了在打包 Python 依赖项时需要注意的 跨平台兼容性问题,特别是在不同架构(如 arm64 macOS 与 x86_64 Linux)之间。最终目标是创建一个 .dxt 文件,其中包含所有必需的服务器文件和元数据,以便于分发和管理。

graph TD
    A[DXT扩展] -->|打包| B(calculator-mcp-server)
    B -->|元数据和配置| C[manifest.json]
    B -->|实现| D[server/*.py]
    B -->|依赖库| E[server/lib/]
    B -->|图标| F[icon.png]
    
    G[MCPHub] -->|运行| H[MCP Servers]
    H -->|包含| B
    H -->|管理| I[其他 MCP Servers]
    
    J[开发者] -->|开发| B
    J -->|使用| K[DXT工具]
    K -->|初始化| C
    K -->|打包| A
// ...

DXT 的核心是包含您的整个 MCP 服务器和 manifest.json 的简单 zip 文件。

Docker AI 功能详解与应用

本文档详细介绍了 Docker AI 的新功能,旨在通过集成人工智能提升开发者的体验。主要亮点包括 Docker Model Runner,它简化了 AI 模型的管理和部署,支持从各种注册表拉取和运行模型,并通过兼容 OpenAI 的 API 提供服务。此外,MCP Toolkit 实现了容器化 MCP 服务器的无缝设置和管理,而 Ask Gordon 则作为嵌入式 AI 助手,在 Docker Desktop 和 CLI 中提供上下文帮助,包括改进 Dockerfile 和故障排除等。这些功能共同旨在简化 AI 驱动型应用程序的开发和部署。

  • ✅ Enable Docker AI (启用 Docker AI)
    • Docker Desktop命令行(CLI)中启用 “Ask Gordon” 功能。
  • ✅ Enable Docker Model Runner (启用 Docker 模型运行器)
    • 启用 GPU 加速的推理引擎,用于运行 AI 模型。
  • ✅ Enable Docker MCP Toolkit (启用 Docker MCP 工具套件)
    • 在 Docker Desktop 中启用 “MCP Toolkit” 功能。

registry-mirrors: https://registry.cn-hangzhou.aliyuncs.

Gemini CLI 项目分析与开发指南

本文档围绕着初学者如何分析并开发一个类似 Gemini CLI 的项目提供了详尽的指南。核心思想是将复杂的项目分解为可管理的部分,并提供分步学习路径。指南强调了理解项目架构(如前端CLI和后端Core的职责)、熟悉代码结构掌握核心功能(如API交互和工具系统)、以及通过实践进行学习的重要性。通过阅读文档、运行和调试代码、并尝试进行小修改,学习者能够逐步掌握此类项目的开发技能。在 VSCode 中,使用 GitHub Copilot 的 Ask 模式分别对大模型(如 GPT-4.1、GPT-4o、Gemini 2.5 Pro 和 Claude Sonnet 系列)进行提问并总结。

#codebase 我作为初学者,如何开始分析这个项目,以达到学习的目的,可以手动开发这种类型的项目。

下面是不同大模型给出的回答

作为初学者,分析并学习 Gemini CLI 这样的大型项目,可以按照以下步骤进行,帮助你理解架构、掌握开发流程,并为将来手动开发类似项目打下基础:

你可以从 architecture.md 开始,重点关注以下内容:

核心组件:项目分为 CLI 前端(cli)、Core 后端(core)和工具模块(tools)。 交互流程:用户输入 → CLI 处理 → Core 构建请求并与 Gemini API 通信 → 工具调用(如有)→ 返回结果 → CLI 展示。