3 篇文章带有标签 “llama-server”

2025年11月24日星期一

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP：27.41.19.62

服务	说明	端口	模型	备注
whisperlivekit	实时语音识别服务	8000	Whisper `small` (默认) `large-v3-turbo`	带说话人分离
FunASR	实时语音识别服务	8000	语音识别：`paraformer-zh` 实时语音识别：`paraformer-zh-streaming` 实时语音端点检测：`fsmn-vad` 标点恢复：`ct-punc` 文本逆规范化：`fst_itn_zh`	实时与非实时一体化协同（`2pass`）服务模式
llama-server	GGUF 模型推理服务	8080	Qwen3 `Qwen3-8B-Q5_K_M.gguf`	模型名：qwen3 上下文长度：32K 不思考

系统设置

系统优化

最大功率模式（一次性设置）

sudo nvpmodel -m 0

启动最高频率（每次重启后设置）

sudo jetson_clocks

清理内存

sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

WhisperLiveKit

WhisperLiveKit - 实时语音识别

部署服务

tmux new -s wlk

默认容器内应用（标点识别有时会失灵 ⚠️）

2025-11-24 08:00

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

源码编译

克隆 llama.cpp

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

编译

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

模型部署

运行 llama-server

Qwen3-8B-GGUF

2025-10-15 08:00

llama.cpp llama-server gguf jetson-thor qwen3 gpt-oss cuda benchmarking model-deployment

2025年8月8日星期五

华为 Atlas 800I A2 大模型部署实战（十一）：部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本，并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数，展示了如何配置模型参数以优化性能，最后通过实际测试验证了模型的部署效果，并分析了多次调用后性能下降的原因，表明了在NPU上进行LLM推理部署的复杂性及其性能考量。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

模型下载

# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

OpenAI GPT-OSS 模型

ModelScope

HuggingFace

2025-08-08 12:00

昇腾 atlas-800i-a2 openai gpt-oss llama-cpp llama-server cann gguf npu openeuler