128 篇文章带有标签 “LLM”

部署 LLM

模型 参数 精度 加速方式 显存 速度(每秒生成汉字数) 效果
[Qwen-7B-Chat][Qwen-7B-Chat] 7B float16 20G 7
[Qwen-7B-Chat][Qwen-7B-Chat] 7B float16 flash-attention 20G 9
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 13G 26
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 fastllm 13G 26
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 chatglm.cpp 15G 22
[ChatGLM2-6B][ChatGLM2-6B] 🚀 6B int4 chatglm.cpp 6G 90
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B float16 14G 2
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B int8 11G 16
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B int4 8G 30
[Baichuan2-13B-Chat-4bits][Baichuan2-13B-Chat-4bits] 13B int4 13G 20

AI 大模型

GLUE 基准测试的格式与模型无关,因此任何能够处理句子和句子对并产生相应预测的系统都有资格参与。 选择基准任务是为了支持使用参数共享或其他迁移学习技术跨任务共享信息的模型。 GLUE 的最终目标是推动通用且强大的自然语言理解系统的开发研究。

State of GPT - Andrej Karpathy

了解 ChatGPT 等 GPT 助手的训练管道,从标记化到预训练、监督微调和人类反馈强化学习 (RLHF)。 深入研究有效使用这些模型的实用技术和心智模型,包括提示策略、微调、快速增长的工具生态系统及其未来的扩展。

Data Collection

Tokenization

GPT3 vs LLaMa

Pretraining

Pretraining

Base models learn powerful

Base models in the wild

SFT Dataset

RM Dataset

RM Dataset

RM Training

RL Training

RLHF

Assistant models in the wild

LangChain - Chain

使用中文提问效果不好,出现的是一个名字列表。

# 中文 Prompt
为生产{product}的公司取个好名字。
为生产{product}的公司取一个好名字。
prompt = PromptTemplate(input_variables=["product"], template="What is a good name for a company that makes {product}?")
prompt = PromptTemplate.from_template(template="What is a good name for a company that makes {product}?")

LangChain 快速入门

对于这个例子,将使用 OpenAI 的 API

pip install openai
export OPENAI_API_KEY="..."
from langchain.llms import OpenAI

llm = OpenAI(temperature=0.9)

text = "一家生产彩色袜子的公司取什么名字好?"
print(llm(text))
可以取名为:Colorful Socks Factory。
  • 工具:执行特定任务的功能。 可以是:Google 搜索、数据库查找、Python REPL、其他链。
  • LLM:为代理提供支持的语言模型。
  • 代理:要使用的代理。

这个例子,我们将使用 SerpApi 来调用 Google 搜索。

在 MacBook Pro M2 Max 上测试 LLaMA

bash download.sh
模型 大小 量化(4位) 内存
7B 13G 3.9G 4.0G
13B 24G 7.6G 7.8G
30B 61G 19G 19.4G
65B 122G 38G 38.5G

GGUF 是一种二进制格式,旨在快速加载和保存模型。它是 GGML、GGMF 和 GGJT 的后继文件格式,通过包含加载模型所需的所有信息来确保明确性。 它还被设计为可扩展的,以便可以在不破坏兼容性的情况下将新信息添加到模型中。

  • GGML(无版本):基线格式,没有版本控制或对齐。
  • GGMF(版本化):与 GGML 相同,但具有版本化。
  • GGJT:对齐张量以允许与需要对齐的 mmap 一起使用。 v1、v2 和 v3 相同,但后面的版本使用与以前版本不兼容的不同量化方案。

What is GGUF and GGML?

REPO_ID=TheBloke/CodeLlama-7B-GGUF
FILENAME=codellama-7b.Q4_K_M.gguf
huggingface-cli download ${REPO_ID} ${FILENAME} \
    --local-dir . --local-dir-use-symlinks False

❶ 编译 llama.cpp git clone https://github.com/ggerganov/llama.cpp.