3 篇文章带有标签 “LLaMA”

LLaMA Factory: Easy and Efficient LLM Fine-Tuning

  • pip
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

python -m venv env
source env/bin/activate

pip install -e .[metrics]
  • conda
git clone https://github.com/hiyouga/LLaMA-Factory.git

conda create -n llama_factory python=3.10
conda activate llama_factory

cd LLaMA-Factory
pip install -r requirements.txt

使用 conda 第二次没有安装成功

CUDA_VISIBLE_DEVICES=0 USE_MODELSCOPE_HUB=1 python src/train_web.py
  • CUDA_VISIBLE_DEVICES=0: 指定 GPU
  • USE_MODELSCOPE_HUB=1: 使用魔搭社区的模型和数据集下载

在 MacBook Pro M2 Max 上测试 LLaMA

bash download.sh
模型 大小 量化(4位) 内存
7B 13G 3.9G 4.0G
13B 24G 7.6G 7.8G
30B 61G 19G 19.4G
65B 122G 38G 38.5G

GGUF 是一种二进制格式,旨在快速加载和保存模型。它是 GGML、GGMF 和 GGJT 的后继文件格式,通过包含加载模型所需的所有信息来确保明确性。 它还被设计为可扩展的,以便可以在不破坏兼容性的情况下将新信息添加到模型中。

  • GGML(无版本):基线格式,没有版本控制或对齐。
  • GGMF(版本化):与 GGML 相同,但具有版本化。
  • GGJT:对齐张量以允许与需要对齐的 mmap 一起使用。 v1、v2 和 v3 相同,但后面的版本使用与以前版本不兼容的不同量化方案。

What is GGUF and GGML?

REPO_ID=TheBloke/CodeLlama-7B-GGUF
FILENAME=codellama-7b.Q4_K_M.gguf
huggingface-cli download ${REPO_ID} ${FILENAME} \
    --local-dir . --local-dir-use-symlinks False

❶ 编译 llama.cpp git clone https://github.com/ggerganov/llama.cpp.