Quantization - 标签 - 军舰的日志

使用 llama.cpp 构建兼容 OpenAI API 服务

困惑度基于模型对测试集数据的概率，它的值越小，说明模型的性能越好。具体来说，如果一个模型的困惑度为 P，那么当这个模型预测下一个词的时候，它的不确定性（或者说“困惑度”）就相当于在 P 个词中随机选择一个词。

例如，如果一个模型的困惑度为 10，那么这个模型预测下一个词的不确定性就相当于在 10 个词中随机选择一个词。如果另一个模型的困惑度为 5，那么这个模型预测下一个词的不确定性就相当于在 5 个词中随机选择一个词。因此，困惑度越小，模型的性能就越好。

克隆代码

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

make LLAMA_CUBLAS=1

--n-gpu-layers 设置 -1 没有效果，设置大一点的数字即可，如：15000

可以从 TheBloke 下载更多不同量化的 GGUF 模型。

转换 GGUF

python convert-hf-to-gguf.py \
    --outtype f32 \
    --outfile ~/HuggingFace/wangjunjian/gguf/qwen-7b-chat-f32.gguf \
    ~/HuggingFace/Qwen/Qwen-7B-Chat

量化 Q5_K_M .

2024年1月19日 3 分钟 886 字

llama.cpp Quantization LLM Qwen DeepSeek llama-cpp-python OpenAI 困惑度

2 篇文章带有标签 “Quantization”

2025年4月4日星期五

利用多张 GPU 训练大语言模型

2024年1月19日星期五

使用 llama.cpp 构建兼容 OpenAI API 服务

2 篇文章带有标签 “Quantization”

2025年4月4日 星期五

利用多张 GPU 训练大语言模型

2024年1月19日 星期五

使用 llama.cpp 构建兼容 OpenAI API 服务

2025年4月4日星期五

2024年1月19日星期五