1 篇文章带有标签 “SGlang”

SGLang 大模型服务框架

SGLang 是用于大型语言模型和视觉语言模型的快速服务框架。通过协同设计后端运行时和前端语言,使您与模型的交互更快速、更可控。

The core features include:

核心功能包括: Fast Backend Runtime: Efficient serving with RadixAttention for prefix caching, jump-forward constrained decoding, continuous batching, token attention (paged attention), tensor parallelism, FlashInfer kernels, and quantization (AWQ/FP8/GPTQ/Marlin). 快速后端运行时:通过 RadixAttention 实现高效的服务,支持前缀缓存(prefix caching)、受限跳转前缀解码(jump-forward constrained decoding)、连续批处理(continuous batching)、令牌注意力(分页注意力)(token attention (paged attention))、张量并行(tensor parallelism)、FlashInfer 内核和量化(AWQ/FP8/GPTQ/Marlin)。