使用 FastChat 在 CUDA 上部署 LLM
安装 FastChat & vLLM
安装 FastChat
pip install "fschat[model_worker,webui]"
Turing GPU T4不支持 FlashAttention 2,需要使用 FlashAttention 1.x 。Turing GPU T4不支持bf16,需要使用fp16。
安装 vLLM
pip install vllm -i https://mirrors.aliyun.com/pypi/simple/
升级 FastChat & vLLM
git pull
pip install -e ".[model_worker,webui]"
pip install -U vllm
部署 LLM
运行 Controller
python -m fastchat.serve.controller
运行 OpenAI API Server
python -m fastchat.serve.openai_api_server
运行 Model Worker Qwen-1_8B-Chat export CUDA_VISIBLE_DEVIC



