flashinfer - 标签 - 军舰的日志

SGLang 大模型服务框架

SGLang

SGLang is a fast serving framework for large language models and vision language models. It makes your interaction with models faster and more controllable by co-designing the backend runtime and frontend language.

SGLang 是用于大型语言模型和视觉语言模型的快速服务框架。通过协同设计后端运行时和前端语言，使您与模型的交互更快速、更可控。

The core features include:

核心功能包括： Fast Backend Runtime: Efficient serving with RadixAttention for prefix caching, jump-forward constrained decoding, continuous batching, token attention (paged attention), tensor parallelism, FlashInfer kernels, and quantization (AWQ/FP8/GPTQ/Marlin).

2024-09-06 08:00

1 篇文章带有标签 “flashinfer”

2024年9月6日星期五

SGLang 大模型服务框架

1 篇文章带有标签 “flashinfer”

2024年9月6日 星期五

SGLang 大模型服务框架

2024年9月6日星期五