文档 - 第 10 页 - 军舰的日志

2025年9月11日星期四

Claude Code 文档

Anthropic的“Claude Code”是一款终端内AI编程助手，旨在通过自然语言交互帮助开发者更快地编写、调试和管理代码。它提供了一系列功能，包括根据描述构建功能、识别并修复bug、理解复杂代码库以及自动化日常开发任务。用户可以通过简单的NPM安装和登录快速开始使用，并能通过聊天式的命令直接编辑文件、执行Shell命令和管理Git操作。该工具还支持自定义子代理以处理特定任务，并提供了灵活的配置选项，包括记忆管理、权限设置和环境变量，以适应个人、项目和企业级的开发需求。

Claude Code 概览

了解 Anthropic 的智能编程工具 Claude Code，它运行在你的终端中，帮你比以往更快地将创意转化为代码。

30 秒快速上手

前提条件：

Node.js 18 或更新版本
- 一个 Claude.ai（推荐）或 Anthropic Console 账户

# 安装 Claude Code
npm install -g @anthropic-ai/claude-code

# 进入你的项目目录
cd your-awesome-project

# 开始使用 Claude 编程
claude
# 首次使用时，系统会提示你登录

就是这么简单！你已经准备好使用 Claude 编写代码了。继续学习快速入门（5 分钟）→

（有特殊的设置需求或遇到问题？请参阅高级设置或故障排除。）

2025-09-11 08:00

2025年9月8日星期一

命令行编码智能体

Claude Code

安装

npm install -g @anthropic-ai/claude-code

aider

GitHub aider

安装

python -m pip install aider-install
aider-install

# DeepSeek
aider --model deepseek --api-key deepseek=<key>

OpenAI Codex CLI

GitHub codex

安装

npm install -g @openai/codex

Gemini CLI

GitHub gemini-cli

安装

npm install -g @google/gemini-cli

CodeBuddy Code

安装

npm install -g @tencent-ai/codebuddy-code

2025-09-08 08:00

claude-code aider openai-codex gemini-cli codebuddy-code cli coding-agent ai-agent

2025年9月7日星期日

稳定币

这些图表提供了关于稳定币市场的全面概览，展示了稳定币市值的显著增长，尤其是在2020年至2025年期间。资料强调，美元在稳定币中占据主导地位，99%的稳定币与美元挂钩，但同时也提到了与欧元、离岸人民币和黄金挂钩的稳定币。此外，它探讨了美国政府推广稳定币的主要原因，包括维持美元地位、满足美债需求和提升加密货币世界地位，并列出了获得合规核心牌照的主要司法管辖区，如美国、巴哈马、迪拜、澳大利亚、欧盟和新加坡。图表还展示了稳定币发行公司如何通过投资短期和长期国债来运作，并概述了香港稳定币沙盒计划的参与者，包括京东链、圆币创新以及渣打银行等，并最终讨论了稳定币对银行的潜在影响，包括利润损失和经济联系的降低。

2025-09-07 08:00

稳定币金融加密货币美元国债香港监管银行

2025年9月6日星期六

Google Nano Banana

输入图像	Google AI Studio	Gemini 2.5 Flash
	Generate an image of a banana wearing a costume.	生成一张香蕉穿戏服的图片。

		这是一张有破损的绝缘子的图像，在其它部位生成类似的训练样本

		生成一个鸟窝在杆塔上

	生成一寸和两寸的学生照，要求蓝色背景，衣服换成校服

	1. 复古优雅风：想象一下，带有荷叶边和蕾丝的维多利亚时代风格长裙，搭配精致的头饰和手套。 2. 未来科技感：尝试一些银色或金属质感的服装，线条简洁，可能还有一些发光的元素，展现未来主义的时尚。 3. 波西米亚风情：飘逸的印花长裙，流苏点缀，配上宽檐帽和层叠的项链，打造自由奔放的感觉。 4. 街头潮流：宽松的连帽衫、破洞牛仔裤、时尚运动鞋，再搭配一顶棒球帽，展现酷炫的街头风格。 5. 古典仙气风：轻纱曼舞的汉服或仙女裙，色彩柔和，刺绣精致，营造出超凡脱俗的意境。 6. 职业干练风：修身的西装外套，搭配衬衫和铅笔裙，展现自信和专业的职场女性形象。 7. 运动休闲风：舒适的运动套装，搭配时尚的运动鞋，既适合健身，也适合日常休闲。 8. 哥特暗黑风：黑色蕾丝、丝绒材质的礼服，搭配银饰和深色妆容，营造出神秘而华丽的哥特式美感。 9. 异域民族风：尝试一些具有民族特色的服装，比如印度的纱丽，日本的和服，或者非洲的蜡染服装，展现多元文化的魅力。

2025-09-06 08:00

nano-banana google gemini-2.5-flash google-ai-studio vlm image-generation ai

2025年9月1日星期一

vLLM 推理引擎的核心优化技术及其工作流程

vLLM V1 引擎通过优化其核心引擎循环，将输入处理并行化，并引入了分段式 CUDA 图，从而实现了更灵活、动态的执行模型，显著降低了在线服务的延迟（TTFT 和 TPOT），同时保持了高吞吐量。其设计目标是确保 GPU 不闲置，通过 API 服务器和 EngineCore 之间的协作来高效调度和执行任务。为了进一步加速大型语言模型推理，vLLM V1 采用了多种优化技术：它通过分离式预填充和分块预填充来优化首个 token 的生成延迟，并结合连续批处理与分页注意力来提高 KV 缓存的内存效率和 GPU 利用率。此外，前缀缓存技术避免了重复计算相同提示的 KV 缓存，而级联推理则是一种内存带宽高效的共享前缀批处理解码技术，通过结合多查询注意力处理共享 KV 和单查询批处理解码处理独特 KV，特别适用于多用户共享长提示的场景，能显著提升性能。其他高级解码方法如推测性解码利用草稿模型加速生成，跳跃解码则适用于结构化输出场景。最后，量化技术是提升性能的关键手段，通过对权重、激活值和 KV 缓存使用低位精度（如 FP8、INT8），它能减少存储和内存占用，加速计算密集型和内存带宽密集型任务，并允许在固定硬件下处理更多 token，从而大幅提升吞吐量，同时保持模型准确性。

V1 Engine 工作流程

推理优化

典型 LLM 推理优化

Flash Attention 的核心思想是将多个操作融合为一个 GPU 内核（kernel），并充分利用速度极快的片上 SRAM（静态随机存取存储器）。

2025-09-01 00:00

vllm llm 推理 inference-optimization kv-cache prefix-caching chunked-prefill cascade-inference quantization distributed-inference

2025年8月29日星期五

国务院关于深入实施“人工智能+”行动的意见

《国务院关于深入实施“人工智能+”行动的意见》旨在推动人工智能与经济社会各领域深度融合，重塑生产生活范式，加速形成人机协同、跨界融合、共创分享的智能经济和智能社会新形态。意见以习近平新时代中国特色社会主义思想为指导，利用我国数据、产业、场景优势，提出到2035年全面步入智能经济社会的发展目标。

核心行动包括：科学技术（加速科学发现，如新型科研范式、科学大模型建设、基础科研平台智能化升级、高质量科学数据集、跨学科融合，并驱动技术研发创新）；产业发展（培育智能原生新业态，推进工业、农业、服务业智能化转型）；消费提质与民生福祉（拓展智能服务与产品消费，创造智能工作与学习方式，提升生活品质）；治理能力（构建人机共生社会、多元共治安全与生态治理新格局）；以及全球合作（推动人工智能普惠共享，共建全球治理体系）。

为支撑上述行动，意见强调强化八大基础支撑能力，涵盖模型基础能力、数据供给创新、智能算力统筹、应用发展环境优化、开源生态繁荣、人才队伍建设、政策法规保障及安全能力水平提升。组织实施上，由国家发展改革委牵头统筹协调，确保各项部署落地见效。

国务院关于深入实施“人工智能+”行动的意见

国发〔2025〕11号

各省、自治区、直辖市人民政府，国务院各部委、各直属机构：

为深入实施“人工智能+”行动，推动人工智能与经济社会各行业各领域广泛深度融合，重塑人类生产生活范式，促进生产力革命性跃迁和生产关系深层次变革

2025-08-29 08:00

人工智能+人工智能国务院智能经济治理政策大模型智能算力开源生态

2025年8月26日星期二

vLLM 推理性能优化实验与分析

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

vLLM 工作流程

1. Prefill

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。
在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。
示例代码见：examples/offline_inference/disaggregated_prefill.py
在 chunked prefill 场景下，长文本的 prefill 会被分块（chunk）处理，并与 decode 请求混合批处理，以充分利用算力。

2025-08-26 08:00

vllm qwen3 benchmark t4 llm prefix-caching chunked-prefill kv-cache inference-optimization agent

2025年8月21日星期四

PyTorch 神经网络实战：从训练到推理的完整指南

该文本提供了一个关于PyTorch二分类神经网络的实现与性能分析的全面概述。首先，它通过具体代码示例展示了如何构建、训练、评估和保存一个基础的神经网络模型，并演示了如何加载模型进行推理。其次，文章深入探讨了不同模型参数规模下，Apple的MPS（Metal Performance Shaders）框架与CPU在训练时间上的性能对比，通过表格数据清晰地呈现了MPS在处理大型模型时相较于CPU的显著优势，并指出了性能的“转折点”。

我的电脑是 Apple MacBook Pro M2 Max 16寸 64G内存

PyTorch 二分类神经网络实现与训练示例 import torch import torch.nn.functional as F from torch.utils.data import Dataset from torch.utils.data import DataLoader # 模型网络 class NeuralNetwork(torch.nn.Module): def init(self, num_inputs, num_outputs): super().init() self.layers = torch.nn.Sequential( torch.nn.Linear(num_inputs, 30), torch.nn.ReLU(), torch.

2025-08-21 08:00

pytorch neural-network deep-learning mps apple-silicon binary-classification model-training model-inference performance

2025年8月8日星期五

华为 Atlas 800I A2 大模型部署实战（十一）：部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本，并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数，展示了如何配置模型参数以优化性能，最后通过实际测试验证了模型的部署效果，并分析了多次调用后性能下降的原因，表明了在NPU上进行LLM推理部署的复杂性及其性能考量。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

模型下载

# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

OpenAI GPT-OSS 模型

ModelScope

HuggingFace

2025-08-08 12:00

昇腾 atlas-800i-a2 openai gpt-oss llama-cpp llama-server cann gguf npu openeuler

2025年8月5日星期二

华为 Atlas 800I A2 大模型部署实战（十）：GlusterFS 构建高性能共享存储

本文档首先比较了 NFS、GlusterFS、Ceph 和 HDFS 四种分布式文件系统的优缺点及适用场景，强调了 GlusterFS 在无元数据服务器、高可用性和横向扩展方面的优势。Gluster 是一个可扩展的分布式文件系统，它将来自多个服务器的磁盘存储资源聚合成一个单一的全局命名空间。文档提供了在多台服务器上准备环境、安装 GlusterFS、配置信任池、创建和启动分布式复制卷的详尽步骤，并指导如何在客户端挂载和测试 GlusterFS 卷。最后，文档通过网络带宽和磁盘读写性能测试，对 GlusterFS 的实际表现进行了评估，指出当前网络带宽可能是性能瓶颈，建议使用更高速的网络接口（25 GbE）以提升性能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

分布式文件系统对比分析：

NFS (Network File System)

NFS 是一种传统的客户端-服务器架构文件共享协议，而不是一个真正的分布式文件系统。它允许客户端通过网络访问远程服务器上的文件，就像访问本地文件一样。

2025-08-05 12:00

昇腾 atlas-800i-a2 910b4 glusterfs distributed-file-system npu openeuler llm shared-storage

2025年7月31日星期四

华为 Atlas 800I A2 大模型部署实战（九）：Docker Swarm 分布式部署

该文本详细介绍了在华为 Atlas 800I A2 推理服务器集群上使用 Docker Swarm 部署大型语言模型（LLM）的实践过程。指导用户初始化 Docker Swarm 管理器节点并添加工作节点，以构建一个分布式计算环境。随后，文档展示了如何创建一个 Docker Stack 配置文件来部署两个不同的 LLM 服务（Qwen3-30B 和 Coder-32B），并说明了如何将容器映射到昇腾 NPU 设备。最后，文本提供了部署、检查服务状态以及故障排除（如禁用 firewalld）的命令，并指出此次实验部署未能成功❌。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

初始化 Swarm 集群

初始化 manager 节点

选择一台服务器上初始化 Swarm (manager 节点):

我们选择 172.16.33.106 作为 manager 节点。

docker swarm init --advertise-addr 172.16.33.106

执行后，会输出一段 docker swarm join 命令，类似下面

2025-07-31 10:00

昇腾 atlas-800i-a2 npu docker-swarm vllm vllm-ascend qwen coder-32b distributed-deployment

2025年7月30日星期三

京东通用智能体：JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie，一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体，还提供了部署指南，包括如何构建和启动Docker镜像，以及配置大型语言模型（LLM）如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例，并提供了任务规划和执行的详细提示（prompts），阐述了其思考、行动、观察的工作流程，以及如何利用各种工具（如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具）来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品，能端到端直接响应并解决用户 query 或任务，支持新场景功能定制挂载，涵盖前后端、框架、引擎及核心子智能体，在通用能力榜单表现优异且不依赖特定平台。

系统架构

构建镜像

克隆项目

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

配置 LLM

下面的设置是使用 DeepSeek 进行的，只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的，可以到这里申请：Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件：genie-backend/src/mai

2025-07-30 15:00

joyagent-jdgenie 京东 agent 多智能体 deepseek llm docker serper

华为 Atlas 800I A2 大模型部署实战（八）：GPUStack 实现 GPU 集群化管理

本文章详细介绍了华为 Atlas 800I A2 推理服务器上部署大型AI模型的实践过程，重点围绕GPUStack这一开源GPU集群管理工具。文章首先阐述了GPUStack的核心特性，包括其广泛的兼容性、对多种模型和推理框架的支持、灵活的部署能力以及智能管理功能。随后，文档提供了在主服务器和从服务器上安装、配置和使用GPUStack的详尽步骤，并展示了如何通过NFS实现模型文件的统一存储，以优化多服务器集群中的模型调度效率。文中还包含了GPUStack用户界面的截图，帮助读者直观理解其各项功能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

GPUStack 介绍

GPUStack 是一款开源的 GPU 集群管理器，专为运行 AI 模型设计，其核心特点如下：

广泛的兼容性：支持多厂商 GPU，覆盖苹果 Mac、Windows 电脑及 Linux 服务器，还能适配多种推理后端（如 vLLM、Ascend MindIE 等），并可同时运行多个版本的推理后端，满足不同模型的运行需求。
丰富的模型支持与灵活部署：支持 LLM、VLM、图像模型、音频模型等多种类型模型，可实现单节点和多节点多 GPU 推理，包括跨厂商和不同运行环境的异构 GPU，且能通过添加更多 GPU 或节点轻松扩展架构。
稳定与智能管理：具备自动故障恢复、多实例冗余和推理请求负载均衡功能，保障高可用性；能自动评估模型资源需求、兼容性等部署相关因素，还可基于可用资源动态分配模型。
实用的附加功能：采用轻量级 Python 包，依赖少、运维成本低；提供与 OpenAI 兼容的 API，便于无缝集成；支持用户及 API 密钥管理，可实时监控 GPU 性能、利用率以及令牌使用量和 API 请求速率。

2025-07-30 12:00

昇腾 atlas-800i-a2 npu gpustack gpu-cluster nfs vllm mindie docker

2025年7月29日星期二

华为 Atlas 800I A2 大模型部署实战（七）：完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程，旨在提供一个全面的安装与配置实践，用于扩展部署到其它服务器。随后，文章通过流程图和具体命令脚本，逐步指导用户如何创建和挂载逻辑卷、同步并安装驱动固件、部署Docker环境以及导入所需的MindIE和vLLM镜像。最后，指南还涵盖了同步大型模型权重文件的关键步骤，并指示用户通过Docker Compose启动模型服务，确保MindIE和vLLM能够顺利运行，以实现AI推理功能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

完整安装部署流程

2025-07-29 20:00

昇腾 atlas-800i-a2 npu 部署流程 docker mindie vllm llm rsync

2025年7月26日星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型，既提供了直接使用 Docker 命令的示例，也展示了通过 Docker Compose 进行多模型部署的方法。此外，文章还包含了模型部署后的测试方法。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

安装

Installation vllm-ascend

拉取 vLLM 镜像

docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

部署 LLM

Docker

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小（以MB为单位）的块。

2025-07-26 18:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend docker-compose qwen deepseek-v3 tensor-parallel

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

vLLM

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

运行性能测试

2025-07-24 10:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend benchmark 性能测试 deepseek qwen

2025年7月20日星期日

华为 Atlas 800I A2 大模型部署实战（四）：MindIE 多实例 LLM 部署

该文档详细阐述了MindIE 大模型在华为 Atlas 800I A2 服务器上的部署实践，重点介绍了单实例和多实例部署配置。它提供了创建目录结构、编辑配置文件和入口脚本的步骤，并展示了Docker Compose 配置来管理容器化部署。此外，文档还涵盖了防火墙设置的不同方法，包括临时关闭、永久禁用和端口放行，以及查看 MindIE 服务监听端口的命令。最后，它说明了如何自定义 Dockerfile 以实现在内网环境中无缝部署MindIE 服务并进行测试。

模板

创建目录结构

mkdir -p template
cd template

touch config.json.template compose.yml entrypoint.sh

mkdir -p logs
chmod 750 logs

chmod +x entrypoint.sh

列出目录结构

tree template/

template/
├── config.json.template
├── compose.yml
├── entrypoint.sh
└── logs

配置文件

编辑 config.json.template 文件

2025-07-20 10:00

昇腾 atlas-800i-a2 npu mindie docker-compose 多实例部署防火墙 deepseek qwen

2025年7月19日星期六

华为 Atlas 800I A2 大模型部署实战（三）：MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤，并指导用户下载、导入 MindIE 镜像，以及准备 LLM 模型文件。最后，文档展示了如何通过 Docker 容器运行和配置 MindIE 服务，并提供了通过 cURL 命令测试服务的示例，还包含了使用 Docker Compose 部署的详细配置。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

MindIE 介绍

MindIE（Mind Inference Engine，昇腾推理引擎）是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力，支撑用户多样化的AI业务需求，使能百模千态，释放昇腾硬件设备算力。向上支持多种主流AI框架，向下对接不同类型昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

2025-07-19 10:00

昇腾 atlas-800i-a2 npu mindie docker docker-compose llm deepseek qwen

2025年7月18日星期五

华为 Atlas 800I A2 大模型部署实战（二）：逻辑卷创建与大模型下载

本指南详细阐述了如何使用 LVM（逻辑卷管理）来创建和管理磁盘分区，包括物理卷、卷组和逻辑卷的设置。文档还提供了关于 ext4 和 XFS 文件系统的对比，并指导用户如何挂载文件系统以及实现开机自动挂载。最后，它解释了如何使用 ModelScope 和 openmind_hub 工具来下载各种大型模型，并利用 rsync 命令在服务器之间同步文件。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

逻辑卷创建

LVM（逻辑卷管理）

LVM (Logical Volume Manager，逻辑卷管理) 是 Linux 环境下对磁盘分区进行管理的一种机制，它提供了比传统分区更灵活和强大的磁盘管理功能。

LVM 主要由以下几个核心概念组成：

物理卷 (Physical Volume, PV)：实际的物理磁盘或分区
卷组 (Volume Group, VG)：由一个或多个物理卷组成的存储池
逻辑卷 (Logical Volume, LV)：从卷组中划分出的逻辑存储单元，可格式化并挂载使用

LVM 的优势灵活的容量管理：可以动态调整逻辑卷大小

2025-07-18 12:00

昇腾 atlas-800i-a2 npu lvm 逻辑卷 llm modelscope openmind-hub rsync

2025年7月17日星期四

华为 Atlas 800I A2 大模型部署实战（一）：驱动/固件安装与MCU升级

这份文档提供了关于华为 Atlas 800I A2 推理服务器的详细部署指南。它首先介绍了服务器的硬件配置，包括其基于鲲鹏 920 CPU和昇腾 910 AI 处理器的架构。随后，文档详细阐述了驱动、固件和 MCU 的安装流程，明确区分了首次安装和覆盖安装的步骤差异。此外，它还提供了在安装前检查操作系统和 NPU 芯片状态的指导，并展示了如何获取所需的软件包和创建运行用户。最后，文档通过命令行示例，分步演示了驱动和固件的安装，以及MCU 固件的升级方法，确保了服务器的正常运行和功能完备。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

Atlas 800I A2 介绍

Atlas 800I A2 推理服务器是基于鲲鹏920+昇腾910 AI处理器的AI推理设备。

2025-07-17 12:00

昇腾 atlas-800i-a2 npu 910b4 鲲鹏-920 openeuler 驱动固件 mcu

2025年9月11日 星期四

2025年9月8日 星期一

2025年9月7日 星期日

2025年9月6日 星期六

2025年9月1日 星期一

2025年8月29日 星期五

2025年8月26日 星期二

2025年8月21日 星期四

2025年8月8日 星期五

2025年8月5日 星期二

2025年7月31日 星期四

2025年7月30日 星期三

2025年7月29日 星期二

2025年7月26日 星期六

2025年7月24日 星期四

2025年7月20日 星期日

2025年7月19日 星期六

2025年7月18日 星期五

2025年7月17日 星期四

2025年9月11日星期四

2025年9月8日星期一

2025年9月7日星期日

2025年9月6日星期六

2025年9月1日星期一

2025年8月29日星期五

2025年8月26日星期二

2025年8月21日星期四

2025年8月8日星期五

2025年8月5日星期二

2025年7月31日星期四

2025年7月30日星期三

2025年7月29日星期二

2025年7月26日星期六

2025年7月24日星期四

2025年7月20日星期日

2025年7月19日星期六

2025年7月18日星期五

2025年7月17日星期四