text-generation-inference - 标签

2024年10月3日星期四

部署 LLM 多 LoRA 适配器的推理服务

Text Generation Inference

conda create -n text-generation-inference python=3.9
conda activate text-generation-inference

git clone https://github.com/huggingface/text-generation-inference.git && cd text-generation-inference
BUILD_EXTENSIONS=True make install

vLLM

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm

cd ~/HuggingFace/mistralai/Mistral-7B-v0.1
git clone https://huggingface.co/predibase/magicoder adapters/magicoder

vllm serve `pwd` \
    --enable-lora \
    --lora-modules magicoder=`pwd`/adapters/magicoder

2024-10-03 10:00

2024年10月1日星期二

推测解码 (Speculative Decoding)

Speculative Decoding

Fast Inference from Transformers via Speculative Decoding

初步生成：使用一个小而快速的模型（称为Mq），生成一系列初步的 tokens。这个模型很高效，所以能快速得到结果。
并行评估：接着，使用一个更大的目标模型（称为Mp）来同时评估Mq生成的所有 tokens。Mp会判断每个 token 的概率，选择那些可能性高的结果。
修正输出：对于那些被Mq生成但被Mp拒绝的低概率 token，Mp会提供新的替代 token。这一步确保了输出的质量，同时提高了生成的速度。

Serving AI models faster with speculative decoding
1. 生成多个猜测候选: 使用一个更小更高效的"草稿"模型或者是主模型本身的最后一层，生成多个可能的下一个token作为猜测。
2. 并行评估猜测: 利用主要的大型语言模型（LLM）并行地对这些猜测进行评估，计算每个猜测的概率分布。
3. 接受或拒绝猜测: 通过比较每个猜测在 LLM 和草稿模型下的概率，以及生成一个随机数进行判断，决定是否接受该猜测。
4. 调整并重采样: 如果所有猜测都被接受，则直接从 LLM 采样下一个token。如果有猜测被拒绝，则从调整后的概率分布中重新采样被拒绝的猜测。
5. 输出结果: 最终输出包括所有被接受的猜测以及从 LLM 采样或重采样得到的token。

2024-10-01 10:00

speculative-decoding llm-inference inference-acceleration draft-model vllm text-generation-inference qwen

2023年12月19日星期二

Text Generation Inference

TGI 介绍

TGI 是一个用于部署和服务大型语言模型（LLM）的工具包。 TGI 为最流行的开源 LLM 提供高性能文本生成，包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5 。

张量并行性，可在多个 GPU 上进行更快的推理
批处理连续传入的请求，以增加总吞吐量
在最流行的架构上使用 [Flash Attention][Flash-Attention] 和 [Paged Attention][Paged-Attention] 优化 Transformers 代码进行推理
使用 [bitsandbytes][bitsandbytes] 和 [GPT-Q][GPT-Q] 进行量化
[safetensors][safetensors] 权重加载
给模型输出加水印（Watermark）
微调支持：定制针对特定任务的微调模型来实现更高的准确性和性能

系统架构

部署模型 HuggingFaceH4/zephyr-7b-beta model=HuggingFaceH4/zephyr-7b-beta volume=$PWD/data # Avoid downloading weights every run docker run --

2023-12-19 08:00

text-generation-inference hugging-face inference-serving docker llm flash-attention quantization zephyr model-deployment

3 篇文章带有标签 “text-generation-inference”

2024年10月3日 星期四

部署 LLM 多 LoRA 适配器的推理服务

2024年10月1日 星期二

推测解码 (Speculative Decoding)

2023年12月19日 星期二

Text Generation Inference

2024年10月3日星期四

2024年10月1日星期二

2023年12月19日星期二