4 篇文章带有标签 “llama-cpp”

2025年8月8日星期五

华为 Atlas 800I A2 大模型部署实战（十一）：部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本，并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数，展示了如何配置模型参数以优化性能，最后通过实际测试验证了模型的部署效果，并分析了多次调用后性能下降的原因，表明了在NPU上进行LLM推理部署的复杂性及其性能考量。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

模型下载

# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

OpenAI GPT-OSS 模型

ModelScope

HuggingFace

2025-08-08 12:00

昇腾 atlas-800i-a2 openai gpt-oss llama-cpp llama-server cann gguf npu openeuler

2024年1月28日星期日

在 MLX 上使用 LoRA / QLoRA 微调 Text2SQL（七）：MLX 微调的模型转换为 GGUF 模型

将 MLX 微调的模型转换为 GGUF 模型最大的意义是可以融入 GGUF 的生态系统，可以在更多的平台上使用。

LoRA 微调

大模型 Mistral-7B-v0.1

mistralai/Mistral-7B-v0.1

数据集 WikiSQL

修改脚本 mlx-examples/lora/data/wikisql.py

if __name__ == "__main__":
    # ......
    for dataset, name, size in datasets:
        with open(f"data/{name}.jsonl", "w") as fid:
            for e, t in zip(range(size), dataset):
                t = t[3:]
                json.dump({"text": t}, fid)
                fid.write("\n")

执行脚本 data/wikisql.py 生成数据集。

data/wikisql.py

安装 mlx-lm

pip install mlx-lm

微调

2024-01-28 08:00

mlx lora mistral-7b text2sql wikisql gguf llama-cpp model-conversion quantization apple-silicon

2023年12月16日星期六

使用 llama.cpp 构建本地聊天服务

llama.cpp

纯 C/C++ 实现
Apple 芯片 ARM NEON, Accelerate, Metal
x86 架构 AVX, AVX2, AVX512
混合F16/F32精度
整数量化 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, 8-bit
后端支持 CUDA, Metal, OpenCL GPU

构建

❶ 克隆 [llama.cpp][llama.cpp] 仓库

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

❷ make

make -j

❸ 安装依赖

pip install -r requirements.txt

获得 Facebook LLaMA2 模型

可以从 TheBloke 下载已转换和量化的模型。

下载 GGUF 模型

huggingface-cli pip install huggingface_hub REPO_ID=TheBloke/Llama-2-7B-chat-GGUF FILENAME=llama-2-7b-chat.Q4_K_M.

2023-12-16 08:00

llama-cpp openai llama llama2 local-llms gguf metal quantization macos

2023年3月15日星期三

在 MacBook Pro M2 Max 上测试 LLaMA

LLaMA

LLaMA-13B 在大多数基准上的表现优于 GPT-3（175B），LLaMA-65B 与最好的型号 Chinchilla-70B 和 PaLM-540B 具有竞争力。

LLaMA: Open and Efficient Foundation Language Models

克隆

git clone https://github.com/facebookresearch/llama
cd llama

下载模型

修改 download.sh，配置下载模型的 地址(PRESIGNED_URL) 和 下载目录(TARGET_FOLDER)。

vim download.sh

PRESIGNED_URL="https://agi.gpt4.org/llama/LLaMA/*"             # replace with presigned url from email
TARGET_FOLDER="./"             # where all files should end up

bash download.sh

llama.cpp

构建

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

拷贝 LLaMA 模型到当前目录 ls .

2023-03-15 08:00

llama llama-cpp gguf hugging-face macos macbookpro apple-silicon local-llms quantization python

4 篇文章带有标签 “llama-cpp”

2025年8月8日 星期五