Tabby 的基准测试
安装
git clone https://github.com/wg/wrk.git
cd wrk
#使用多线程(机器的处理器核数)加速编译,
make -j $(nproc)
cp wrk /usr/local/bin/
Tabby Server
服务器:NVIDIA T4 16GB X 4
部署
- 模型:TabbyML/DeepseekCoder-6.7B
docker run -d --gpus all -p 8080:8080 \
-v /data/zhw/tabby/data:/data \
tabbyml/tabby:latest \
serve --model TabbyML/DeepseekCoder-6.7B \
--device cuda --parallelism 4
- 模型:TabbyML/DeepseekCoder-1.3B
docker run -d --gpus all -p 8080:8080 \
-v /data/zhw/tabby/data:/data \
tabbyml/tabby:latest \
serve --model TabbyML/DeepseekCoder-1.3B \
--device cuda --parallelism 12
curl 测试 curl http://127.0.0.