gpt-oss - 标签 - 军舰的日志

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

编译

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

模型部署

运行 llama-server

Qwen3-8B-GGUF

2025-10-15 08:00

2025年8月8日星期五

华为 Atlas 800I A2 大模型部署实战（十一）：部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本，并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数，展示了如何配置模型参数以优化性能，最后通过实际测试验证了模型的部署效果，并分析了多次调用后性能下降的原因，表明了在NPU上进行LLM推理部署的复杂性及其性能考量。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

模型下载

# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

OpenAI GPT-OSS 模型

ModelScope

HuggingFace

2025-08-08 12:00

昇腾 atlas-800i-a2 openai gpt-oss llama-cpp llama-server cann gguf npu openeuler

2 篇文章带有标签 “gpt-oss”

2025年10月15日 星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

2025年8月8日 星期五

华为 Atlas 800I A2 大模型部署实战（十一）：部署 OpenAI 开源模型 GPT-OSS

2025年10月15日星期三

2025年8月8日星期五