DSpark:基于置信度调度的半自回归生成推测解码

北京大学 DeepSeek-AI

摘要

推测解码(Speculative Decoding)通过将草稿生成与目标验证解耦来加速大语言模型(LLM)推理。尽管最近的并行 drafter 能够在单次前向传播中高效 Proposed 长令牌序列,但由于缺乏令牌间依赖关系,它们面临着接受率快速衰减的问题。此外,不加区分地验证这些扩展块会浪费关键的批次容量在具有高拒绝风险的令牌上,严重降低了高并发服务系统中的吞吐量。

我们提出了 DSpark,这是一个推测解码框架,统一了高吞吐量的并行生成与自适应的、负载感知的验证。为了保持草稿质量,DSpark 利用半自回归架构——将并行主干与轻量级顺序模块耦合——引入块内依赖建模并缓解后缀衰减。为了优化系统效率,DSpark 采用置信度调度验证,根据估计的前缀存活概率和引擎特定的吞吐量配置文件,动态地为每个请求定制验证长度。

在跨多个领域的离线基准测试中,DSpark 在已接受长度方面显著优于最先进的自回归和并行 drafter。当部署在 DeepSeek-V4 服务系统中并处理实时用户流量时,DSpark 成功缓解了验证浪费。与已确立的生产基线(MTP-1)相比,DSpark 在匹配的吞吐量水平上加速了每用户生成速度 60%–85%。更重要的是,通过在严格的互操作性约束下防止吞吐量严重下降,它实现了以前无法达到的性能层级,推动了我们服务系统的帕累托前沿。为了促进社区进步,我们开源了 DSpark 检查点以及 DeepSpec——一个用于推测解码的算法驱动训练仓库。


1. 引言

大语言模型(LLM)以自回归方式生成文本:每个新令牌都需要一个基于所有先前令牌的完整前向传播,使得推理延迟与输出长度成正比。由此产生的低 GPU 利用率和高用户感知等待时间构成了生产 LLM 服务中的主要瓶颈,特别是对于延迟敏感的场景,如实时对话助手和多轮智能体工作流。

推测解码(Chen et al., 2023; Leviathan et al., 2023)提供了一个原则性的解决方案:一个轻量级草稿模型 Proposed 一组候选令牌,全尺寸目标模型通过拒绝采样在单次前向传播中验证整个块,接受与目标分布一致的最长前缀并附加一个奖励令牌。由于验证是并行的,且接受规则精确地保留了目标分布,推测解码可以在无任何质量损失的情况下加速生成。

草稿模型的设计决定了草稿延迟与接受率之间的权衡。早期的 drafter 是自回归的(Cheng et al., 2024; Li et al., 2024b),每个位置都基于先前采样的令牌进行条件化。然而,它们的草稿延迟随块大小线性增长,迫使这些方法使用短块和浅层架构。为了打破这个顺序瓶颈,并行 drafter(Cai et al., 2024; Chen et al., 2026; Liu et al., 2026a)已成为一个引人注目的替代方案:所有草稿位置在单次前向传播中产生,使得草稿延迟几乎与块大小无关。这种结构优势理论上允许并行 drafter 高效生成 substantially 更长的草稿块。

然而,充分释放大并行草稿块的潜力带来了两个关键瓶颈——一个在生成质量方面,另一个在系统效率方面。首先,由于并行 drafter 独立预测每个位置,它们无法建模块内的令牌间依赖关系。这种独立性导致多模态碰撞和后面位置的快速接受衰减(Gu et al., 2018; Huang et al., 2022b)。其次,确定最优验证长度仍然是一个挑战。虽然并行生成轻松产生长草稿块,但不加区分地验证所有 Proposed 令牌会降低系统吞吐量,特别是在高并发工作负载下(Hu et al., 2026; Liu et al., 2024c)。理想的验证长度沿两个轴变化。在数据侧,像代码这样的结构化请求自然比开放式聊天维持更高的接受率(Abramovich et al., 2026; Xia et al., 2024)。在系统侧,在轻负载下验证额外令牌几乎是免费的。然而,在高负载下,验证具有高拒绝风险的令牌会占用关键的批次容量,否则可以服务于其他活跃请求(Liu et al., 2024b; Wu et al., 2025)。

为了解决这些瓶颈,我们提出了 DSpark,这是一个推测解码框架,统一了高吞吐量并行生成与自适应的、负载感知的验证。其核心是,DSpark 旨在通过两个互补机制解决草稿生成和验证中固有的权衡。

  • 首先,为了克服令牌间依赖关系的缺乏,DSpark 采用半自回归架构。它保持计算昂贵的草稿主干完全并行,仅附加一个轻量级串行输出头以注入局部转移信息。这种设计保留了并行模型的草稿速度,同时显著缓解后缀衰减。

  • 其次,为了解决系统级瓶颈,DSpark 采用置信度调度验证。通过将置信度头——估计每个位置的前缀存活概率——与硬件感知调度器耦合,DSpark 动态地为每个请求定制验证长度。该调度器利用实时引擎吞吐量配置文件,将目标验证预算仅路由到具有最高预期回报的令牌。

我们在受控离线基准测试和大规模生产在线部署中广泛评估了 DSpark。在受控离线基准测试中——涵盖数学推理、代码生成和日常聊天——DSpark 一致优于强基线。具体来说,在 Qwen3-4B、8B 和 14B 目标模型(Yang et al., 2025)上,它比自回归 Eagle3(Li et al., 2026b)的宏平均接受长度分别提高了 30.9%、26.7% 和 30.0%,比并行 DFlash(Chen et al., 2026)分别提高了 16.3%、18.4% 和 18.3%。除了顶级指标外,我们的细粒度位置分析揭示了不同 drafter 的独特生成特征,凭经验展示了 DSpark 如何成功结合并行模型的高初始令牌容量与自回归模型的后缀连贯性。

除了离线评估外,我们还在 DeepSeek-V4(DeepSeek-AI, 2026)服务系统中部署了 DSpark,以评估其在实时用户流量下的性能。与先前的 MTP-1 生产基线(DeepSeek-AI, 2024)相比,DSpark 显著扩大了系统的操作范围。具体来说,它在匹配的聚合吞吐量容量下,一致地将每用户生成速度加速了 60%–85%(V4-Flash)和 57%–78%(V4-Pro)。此外,在基线容量严重恶化的严格服务级别协议(SLA)下——例如 Flash 的 120 TPS 和 Pro 的 50 TPS——DSpark 缓解验证开销以维持稳健的吞吐量。通过克服这个性能悬崖,DSpark 解锁了以前无法达到的严格互操作性层级,有效推动了 LLM 服务的帕累托前沿。

为了促进开源社区内的集体进步,我们公开提供我们的工件。具体来说,我们发布了 DeepSeek-V4-Flash(预览版)和 DeepSeek-V4-Pro(预览版)模型的训练好的 DSpark 检查点。此外,我们开源了 DeepSpec,一个算法驱动的训练仓库,包括 Eagle3、DFlash 和 DSpark。这些工件旨在支持高效 LLM 服务的进一步研究。


2. 背景

2.1 推测解码

自回归语言模型每次前向传播生成一个令牌,使得推理延迟与输出长度成正比。推测解码(Chen et al., 2023; Ge et al., 2022; Leviathan et al., 2023)使用轻量级草稿模型 MdM_d 加速目标模型 MtM_t 的推理。在每个解码周期,草稿模型 Proposed γ\gamma 个候选令牌 x1,...,xγx_1, ..., x_\gamma。目标模型在单次前向传播中验证所有候选,接受与其自身分布一致的最长前缀。

具体而言,在每个草稿位置 kk,目标模型计算其自己的分布 ptkp^k_t 并将其与草稿分布 pdkp^k_d 进行比较。令牌 xkx_k 以概率 min(1,ptk(xk)/pdk(xk))\min(1, p^k_t(x_k)/p^k_d(x_k)) 被接受。验证从左到右进行:位置 kk 的第一次拒绝丢弃所有后续令牌 xk+1,...,xγx_{k+1}, ..., x_\gamma,无论其质量如何。

τ\tau 表示每个周期接受的令牌数,令 TdraftT_{\text{draft}}TverifyT_{\text{verify}} 分别表示草稿和验证传播的时钟时间。每个生成令牌的平均延迟为:

L=Tdraft+Tverifyτ(1)L = \frac{T_{\text{draft}} + T_{\text{verify}}}{\tau} \tag{1}

因此,提高加速归结为三个杠杆:降低 TdraftT_{\text{draft}}(更快草稿)、提高 τ\tau(更好草稿)或降低有效 TverifyT_{\text{verify}}(更智能验证)。

2.2 Drafter 架构

草稿模型的设计决定了 TdraftT_{\text{draft}}τ\tau 如何权衡。现有方法分为两类。

自回归 drafter 。 自回归 drafter 顺序生成草稿令牌,每个位置都基于先前采样的令牌进行条件化(DeepSeek-AI, 2024; Li et al., 2024b,c, 2026b; Zhang et al., 2025)。这种显式依赖关系提供了强大的建模能力,但草稿成本随块大小线性增长:TdraftγT_{\text{draft}} \propto \gamma,这迫使自回归 drafter 使用小 γ\gamma 和浅层架构以保持 TdraftT_{\text{draft}} 低。为了补偿短块,基于树的验证(Miao et al., 2024)将候选扩展为树并通过树注意力验证多条路径,但大量验证令牌降低了整体服务吞吐量。

并行 drafter 。 并行 drafter 在单次前向传播中产生所有 γ\gamma 个草稿令牌,使得 TdraftT_{\text{draft}} 几乎与块大小无关(Cai et al., 2024; Chen et al., 2026; Li et al., 2025a; Liu et al., 2026a; Sandler et al., 2026)。这允许 substantially 更大的块(例如,γ=16\gamma=16)而无需按比例增加延迟。

其中,DFlash(Chen et al., 2026)是最先进的并行 drafter ,它基于从目标模型提取的丰富上下文特征(KV 注入)对其草稿模型进行条件化。在预填充期间,来自一组目标层 {l1,...,lm}\{l_1, ..., l_m\} 的隐藏状态被连接并投影到草稿隐藏空间:

Hctx=RMSNorm(Wc[H(l1);...;H(lm)])(2)H_{\text{ctx}} = \text{RMSNorm}\left(W_c [H^{(l_1)}; ...; H^{(l_m)}]\right) \tag{2}

其中 WcRd×mdW_c \in \mathbb{R}^{d \times md} 是一个共享投影。这些上下文特征通过将它们与草稿块表示沿键和值的序列维度连接,被注入到每个草稿层:

Ki=[WiKHctx;WiKHd],Vi=[WiVHctx;WiVHd](3)K_i = [W^K_i H_{\text{ctx}}; W^K_i H_d], \quad V_i = [W^V_i H_{\text{ctx}}; W^V_i H_d] \tag{3}

块内的所有位置双向关注彼此和注入的目标上下文。草稿模型共享目标模型的嵌入层和语言建模头(两者都冻结)。它将一个锚令牌的嵌入加上 γ\gamma 个掩码令牌嵌入作为输入,并在单次前向传播中产生所有掩码位置的逻辑。由于无论块大小如何,草稿只需要单次前向传播,DFlash 在相同延迟预算下可以承受比自回归 drafter 更深的架构和更大的块。


3. 架构

DSpark 的概览如图 1 所示。回顾公式(1),推测解码的每个令牌延迟为 L=(Tdraft+Tverify)/τL = (T_{\text{draft}} + T_{\text{verify}})/\tau。自回归 drafter 实现高 τ\tau 但付出 TdraftγT_{\text{draft}} \propto \gamma 的代价;并行 drafter 将 TdraftT_{\text{draft}} 压缩到单次传播,但由于每个位置独立预测而牺牲 τ\tau。同时,固定长度验证在几乎肯定会被拒绝的低置信度后缀令牌上浪费 TverifyT_{\text{verify}}。DSpark 通过两个互补组件解决这些限制:

  • 半自回归生成(第 3.1 节)。 并行主干处理大部分草稿计算,这使得 TdraftT_{\text{draft}} 几乎与 γ\gamma 无关。然后,轻量级顺序块在最小附加延迟下注入草稿令牌间的依赖关系,提高 τ\tau

  • 置信度调度验证(第 3.2 节)。 置信度头估计每个位置的接受概率,硬件感知调度器使用这些估计来剪除低置信度后缀令牌,减少不必要的验证计算。

1 我们在本文中互换使用术语”锚令牌”和”奖励令牌”来表示目标模型在上一个解码轮次中生成的最后一个令牌。

3.1 半自回归生成

并行 drafter 在单次前向传播中产生所有 γ\gamma 个草稿逻辑,因此每个预测无法对块中其他地方采样的令牌进行条件化。当上下文允许多个合理延续时,例如”of course”和”no problem”,并行 drafter 可能产生不连贯的组合,如”of problem”或”no course”,因为每个位置对所有可能的前驱进行边缘化,而不是对实际采样的前缀进行条件化(Gu et al., 2018; Huang et al., 2022a)。因此,接受率沿块快速衰减,浪费草稿和验证计算。因此,我们采用半自回归结构,将草稿生成分为两个阶段:

并行阶段。 并行主干(在我们的实例中,DFlash(Chen et al., 2026))在整个块上运行单次前向传播,产生隐藏状态 h1,...,hγh_1, ..., h_\gamma 和基础逻辑 U1,...,UγU_1, ..., U_\gamma。我们对原始 DFlash 主干只做了一个小修改:不将锚令牌加上 γ\gamma 个掩码令牌作为输入并仅预测掩码位置,我们将锚本身视为第一个预测位置,因此 γ\gamma 个输入令牌(锚 + γ1\gamma-1 个掩码)产生 γ\gamma 个草稿逻辑。这减少了草稿计算同时保持类似的草稿质量。

顺序阶段。 顺序阶段以依赖于前缀的转移偏置 Bk(x0,x<k,xk)B_k(x_0, x_{<k}, x_k) 补充基础逻辑,允许每个草稿位置对块内先前采样的令牌进行条件化。顺序阶段不定义全局归一化能量模型,而是通过自回归分解诱导因果块分布:

P(Xx0)=k=1γpk(xkx0,x<k),pk(vx0,x<k)=exp(Uk(v)+Bk(x0,x<k,v))uVexp(Uk(u)+Bk(x0,x<k,u))(4)P(X | x_0) = \prod_{k=1}^\gamma p_k(x_k | x_0, x_{<k}), \quad p_k(v | x_0, x_{<k}) = \frac{\exp(U_k(v) + B_k(x_0, x_{<k}, v))}{\sum_{u \in V} \exp(U_k(u) + B_k(x_0, x_{<k}, u))} \tag{4}

这里,x0x_0 表示来自先前验证周期的锚令牌,UkU_k 是并行主干在位置 kk 产生的基础逻辑向量,VV 是词汇表。在推理时,顺序块根据 pk(x0,x<k)p_k(\cdot | x_0, x_{<k}) 从左到右采样。由于这个采样过程本质上是顺序的,块必须在计算上轻量(TsequentialTparallelT_{\text{sequential}} \ll T_{\text{parallel}}),以便整体草稿延迟仍然由并行阶段主导。我们在下面描述顺序块的两种实例。

  • Markov 头。 最简单的实例将 BkB_k 限制为仅依赖于立即前一个令牌,将其简化为一级转移 B(xk1,xk)B(x_{k-1}, x_k)。原则上这是一个完整的 V×VV \times V 矩阵 BB;我们用低秩分解 B=W1W2B = W_1 W_2 来近似它,其中 W1RV×rW_1 \in \mathbb{R}^{V \times r}W2Rr×VW_2 \in \mathbb{R}^{r \times V}。给定前一个令牌 xk1x_{k-1},位置 kk 的转移偏置为:
B(xk1,)=W1[xk1]W2RV(5)B(x_{k-1}, \cdot) = W_1[x_{k-1}] W_2 \in \mathbb{R}^V \tag{5}

其中 W1W_1 用作嵌入查找表,W2W_2 用作逻辑投影。低秩分解(默认 r=256r=256)保持存储和每步计算都小,使得顺序循环即使对于大词汇表也是高效的。回到前面的例子:一旦位置 1 采样了”of”,Markov 头会在位置 2 提升”course”并抑制”problem”,这缓解了跨模态碰撞。

  • RNN 头。 Markov 头除了一个步骤外是无记忆的——位置 kk 无法访问 xk1x_{k-1} 之前的令牌。RNN 头通过维护递归状态 sks_k 来放松这一点,该状态在块内累积完整前缀历史。在每个步骤,模块将当前状态 sk1Rrs_{k-1} \in \mathbb{R}^r、前一个令牌嵌入 W1[xk1]RrW_1[x_{k-1}] \in \mathbb{R}^r 和主干隐藏 hkRdh_k \in \mathbb{R}^d 连接成一个输入向量 zk=[sk1;W1[xk1];hk]R2r+dz_k = [s_{k-1}; W_1[x_{k-1}]; h_k] \in \mathbb{R}^{2r+d},然后应用单个门控更新:
sk=σ(Wgzk)sk1+(1σ(Wgzk))tanh(Wczk)(6)s_k = \sigma(W_g z_k) \odot s_{k-1} + (1 - \sigma(W_g z_k)) \odot \tanh(W_c z_k) \tag{6} Bk(x<k,)=W2tanh(Wozk)B_k(x_{<k}, \cdot) = W_2^\top \tanh(W_o z_k)

其中 Wg,Wc,WoR(2r+d)×rW_g, W_c, W_o \in \mathbb{R}^{(2r+d) \times r} 由单个线性投影联合参数化,该投影被拆分为门、候选和输出组件。状态 s0s_0 初始化为零。

3.2 置信度调度验证

半自回归架构使 DSpark 能够高效生成大草稿块。然而,产生更多草稿令牌并不会自动转化为更高的端到端加速。不加区分地验证完整草稿块实际上可能会降低整体系统吞吐量,特别是在高并发场景中(Hu et al., 2026; Liu et al., 2024c)。

这种性能瓶颈源于两个相互作用的因素。首先,在数据侧,草稿接受率在不同领域固有地变化:像代码这样的结构化文本自然产生高接受率,而开放式聊天的接受率明显较低(Abramovich et al., 2026; Xia et al., 2024)。其次,在系统侧,验证额外令牌的实际成本严格取决于引擎负载。在系统负载轻时,额外验证即使被拒绝也产生最小惩罚。然而,在高并发部署下,每个不必要的验证都会占用目标模型批次容量,否则可以服务于其他活跃请求(Liu et al., 2024b; Wu et al. 2025)。

因此,充分释放大草稿块的潜力需要一个统一机制,将目标模型计算仅路由到具有正预期回报的令牌。DSpark 通过耦合预测前缀存活概率的置信度头(第 3.2.1 节)与基于当前系统负载动态确定最优验证长度的硬件感知前缀调度器(第 3.2.2 节)来实现这一点。

3.2.1 置信度头

借鉴 Huang et al. (2024); Wang et al. (2026) 的灵感,置信度头为每个草稿位置 kk 输出一个标量估计 ck(0,1)c_k \in (0,1)。关键的是,ckc_k 建模在给定块中所有前面令牌已被接受的情况下,位置 kk 的草稿令牌将通过目标验证的条件概率。该架构具有轻量级线性投影后接 sigmoid 函数:

ck=σ(w[hk;W1[xk1]])(7)c_k = \sigma\left(w^\top [h_k; W_1[x_{k-1}]]\right) \tag{7}

其中 hkh_k 是主干的隐藏状态,W1[xk1]W_1[x_{k-1}] 是来自前一个草稿令牌的 Markov 嵌入。我们使用每步分析接受率 ckc^*_k 来监督 ckc_k。这个速率由草稿分布 pdkp^k_d 和目标分布 ptkp^k_t 之间的总变异距离决定:

ck=112pdkptk1(8)c^*_k = 1 - \frac{1}{2} \|p^k_d - p^k_t\|_1 \tag{8}

事后校准。 与基于阈值的验证启发式(Huang et al., 2024; Li et al., 2024b; Zhang et al., 2026b)不同,后者仅需要置信度评分来正确排序草稿令牌质量,我们的硬件感知调度方法(详见第 3.2.2 节)精确需要累积接受概率的绝对大小来计算预期接受长度 τ\tau。由于神经置信度估计通常是过度置信的(Guo et al., 2017; Ovadia et al., 2019),直接使用原始置信度评分会扭曲吞吐量估计,导致次优调度。

为了解决这个问题,我们引入了顺序温度缩放(STS)。由于每个 cic_i 建模条件概率,链式规则规定草稿前缀被接受的联合概率分解为累积乘积 ikci\prod_{i \leq k} c_i。使用保留验证集,STS 从左到右连续校准这个联合概率。具体来说,在每个位置 k{1,...,γ}k \in \{1, ..., \gamma\},我们执行简单的 1D 网格搜索以找到最优温度标量,该标量最小化累积乘积的预期校准误差(ECE)(Naeini et al., 2015),保持所有前面位置的已校准评分固定。关键的是,温度缩放是一个保持顺序的变换:它纠正预测概率以匹配经验接受率,而不会破坏置信度头学到的相对草稿令牌排名。

3.2.2 硬件感知前缀调度器

先前的方法(Huang et al., 2024; Li et al., 2024b)通常对置信度评分应用静态阈值以确定验证长度。虽然在孤立的、单请求假设下有效,但静态阈值在高并发生产系统中可能是次优的,其中验证草稿令牌的效用严重取决于当前系统负载。

为了解决这个问题,我们将验证长度选择表述为全局吞吐量最大化问题(算法 1)。考虑一批 RR 个活跃请求。对于请求 rr,令 cr,1,...,cr,γc_{r,1}, ..., c_{r,\gamma} 是每个位置的置信度估计,令 r{0,...,γ}\ell_r \in \{0, ..., \gamma\} 表示调度的验证长度。由于推测解码仅作为连续前缀动态接受草稿令牌,位置 jj 的令牌的存活概率是累积乘积 ar,j=ijcr,ia_{r,j} = \prod_{i \leq j} c_{r,i}

在单次验证步骤中,发送到目标模型的总批次大小(以令牌衡量)是 B=r=1R(1+r)B = \sum_{r=1}^R (1 + \ell_r),成功接受的令牌的预期数量是 τ=r=1R(1+j=1rar,j)\tau = \sum_{r=1}^R \left(1 + \sum_{j=1}^{\ell_r} a_{r,j}\right)。令 SPS(B)\text{SPS}(B) 表示给定前向传播批次大小 BB 的引擎吞吐量,以每秒步数衡量。关键的是,这个容量曲线在引擎初始化时仅分析一次,并存储为轻量级成本表。然后,我们的调度器旨在通过动态选择验证长度 1,...,R\ell_1, ..., \ell_R 来最大化预期系统级令牌吞吐量 Θ=τSPS(B)\Theta = \tau \cdot \text{SPS}(B)

尽管找到 Θ\Theta 的全局最大值看起来是组合搜索,但目标结构允许高效的贪心解决方案。由于 ar,ja_{r,j} 关于 jj 是单调非递增的(即 ar,jar,j1a_{r,j} \leq a_{r,j-1}),将请求 rr 的验证长度从 j1j-1 扩展到 jj 的预期接受令牌的边际增益正好是 ar,ja_{r,j}。这种单调性确保按 ar,ja_{r,j} 对候选令牌进行全局排序自然地尊重块内前缀依赖关系。因此,如果总验证批次大小 BB 是固定的,最优分配 {r}\{\ell_r\} 将通过从所有 {ar,j}\{a_{r,j}\} 的全局池中贪心选择具有最高存活概率的草稿令牌来决定。

基于这个见解,优化可以沿着这个贪心准入路径进行评估。我们首先按存活概率降序对所有有效前缀扩展进行全局排序。为了动态确定最优目标批次大小 BB,我们从这个排序池中增量准入令牌,通过从预分析的代价表进行 O(1)O(1) 查找来更新预期吞吐量 Θ\Theta

无损推测解码严格需要非预期属性:准入决策不得依赖于未来候选令牌(Chen et al., 2023; Leviathan et al., 2023)。由于我们的置信度头依赖于先前采样令牌的 Markov 特征,计算下一个存活概率 ar,k+1a_{r,k+1} 明确需要实例化的候选 xr,kx_{r,k}。因此,回顾性全局搜索会无意中将 xr,kx_{r,k} 泄漏到步骤 kk 的准入决策中,引入选择偏差(我们在附录 A 中提供了证明这个理论违反的具体反例)。

为了严格执行因果性,调度器(算法 1)采用提前停止机制。通过在吞吐量下降时立即中断贪心搜索(ΘΘbest\Theta \leq \Theta_{\text{best}}),截断决策仅依赖于到该确切步骤为止处理的前缀。这将准入事件与未来令牌隔离,确保精确的目标分布恢复。注意,当且仅当目标 Θ\Theta 是单峰的时,这种逐步提前停止产生全局最大吞吐量,这隐含假设平滑衰减的硬件容量曲线。我们在第 5.2 节中解决真实世界非平滑 SPS 特征和异步系统流水线所需的工程适配。


算法 1:硬件感知前缀调度器

要求: 活跃请求 r{1,...,R}r \in \{1,...,R\};每个请求的置信度序列 cr,1,...,cr,γc_{r,1}, ..., c_{r,\gamma};分析的步长曲线 SPS(B)\text{SPS}(B)

确保: 每个请求选择的前缀长度 1,...,R\ell^*_1, ..., \ell^*_R

  1. r=1r = 1RR 执行: 2. 计算前缀存活概率:ar,jijcr,ia_{r,j} \leftarrow \prod_{i \leq j} c_{r,i},对 j=1,...,γj = 1, ..., \gamma
  2. 结束循环
  3. 构建候选空间 E{(r,j)ar,j>0}E \leftarrow \{(r, j) | a_{r,j} > 0\} 并按 ar,ja_{r,j} 降序排序
  4. 初始化状态:r0\ell_r \leftarrow 0 对所有 rr;批次大小 BRB \leftarrow R;预期接受 τR\tau^* \leftarrow R
  5. 初始化跟踪:ΘbestRSPS(R)\Theta_{\text{best}} \leftarrow R \cdot \text{SPS}(R);选择的长度 r0\ell^*_r \leftarrow 0 对所有 rr
  6. EE 中按排序顺序的每个 (r,j)(r, j) 执行: 8. rj\ell_r \leftarrow jBB+1B \leftarrow B + 1ττ+ar,j\tau^* \leftarrow \tau^* + a_{r,j} 9. 当前吞吐量 ΘτSPS(B)\Theta \leftarrow \tau^* \cdot \text{SPS}(B) 10. 如果 Θ>Θbest\Theta > \Theta_{\text{best}} 则: 11. ΘbestΘ\Theta_{\text{best}} \leftarrow \Theta;更新选择的长度 rr\ell^*_r \leftarrow \ell_r 12. 否则: 13. 中断
  7. 结束如果
  8. 结束循环
  9. 返回达到 Θbest\Theta_{\text{best}}(1,...,R)(\ell^*_1, ..., \ell^*_R)

3.3 训练

在训练期间,我们从每个目标序列中随机采样多个锚位置以形成 γ\gamma 令牌块作为训练数据。目标模型在整个训练期间被冻结;草稿模型共享其嵌入层和语言建模头,并保持它们冻结,仅更新主干 drafter、顺序块和置信度头。

训练目标由三项组成:交叉熵损失 LceL_{\text{ce}}、分布匹配损失 LtvL_{\text{tv}} 和置信度损失 LconfL_{\text{conf}}。所有三项都按 wk=exp((k1)/γ)w_k = \exp(-(k-1)/\gamma)(Chen et al., 2026)进行位置加权,这强调了在基于前缀的验证下对预期接受长度贡献更多的较早块位置。交叉熵损失 LceL_{\text{ce}} 训练 drafter 预测正确的下一个令牌:

Lce=k=1γwklogpdk(xk)(9)L_{\text{ce}} = -\sum_{k=1}^\gamma w_k \log p^k_d(x^*_k) \tag{9}

其中 xkx^*_k 是真实令牌,pdkp^k_d 是草稿分布。分布匹配损失 LtvL_{\text{tv}} 惩罚草稿和目标分布之间的总变异距离:

Ltv=k=1γwkpdkptk1(10)L_{\text{tv}} = \sum_{k=1}^\gamma w_k \|p^k_d - p^k_t\|_1 \tag{10}

由于总变异距离是接受率的直接代理:每步接受概率等于 112pdpt1 - \frac{1}{2} \|p_d - p_t\|(Leviathan et al., 2023),最小化 LtvL_{\text{tv}} 直接最大化预期接受率。置信度损失 LconfL_{\text{conf}} 是二元交叉熵,训练置信度头预测来自公式(8)的软接受标签 ckc^*_k

Lconf=k=1γwk[cklogck+(1ck)log(1ck)](11)L_{\text{conf}} = -\sum_{k=1}^\gamma w_k \left[ c^*_k \log c_k + (1 - c^*_k) \log(1 - c_k) \right] \tag{11}

总体目标是三项的加权组合(默认权重 αce=0.1,αtv=0.9,αconf=1.0\alpha_{\text{ce}} = 0.1, \alpha_{\text{tv}} = 0.9, \alpha_{\text{conf}} = 1.0):

L=αceLce+αtvLtv+αconfLconf(12)L = \alpha_{\text{ce}} L_{\text{ce}} + \alpha_{\text{tv}} L_{\text{tv}} + \alpha_{\text{conf}} L_{\text{conf}} \tag{12}

4. 实验

在本节中,我们使用离线基准验证 DSpark 的草稿质量,并在第 5 节中报告在线生产流量下置信度调度器的有效性。实验设置描述在第 4.1 节,主要结果在第 4.2 节,其他分析包含在第 4.3 节。

4.1 实验设置

目标和草稿模型。 我们在四个跨越不同规模和组织系列的目标模型上评估 DSpark:Qwen3-{4B, 8B, 14B}(Yang et al., 2025)和 Gemma4-12B(Google DeepMind, 2026)。对于草稿模型,我们将 DSpark 与两个代表性 drafter 进行比较:DFlash(Chen et al., 2026),一个最先进的并行 drafter,和 Eagle3(Li et al., 2026b),一个基于训练时测试(TTT)的自回归 drafter。为了公平比较,我们在相同的训练框架和相同的数据上重新训练所有 drafter。我们将 Eagle3 的 TTT 范围(7)与 DFlash 和 DSpark 使用的块大小(7)对齐,并且我们对所有 drafter 使用相同的目标模型特征层。对于草稿模型层的数量,我们为 Eagle3 设置 1,为 DSpark 和 DFlash 设置 5(Chen et al., 2026)。除非另有说明,DSpark 表示 Markov 头变体;我们在第 4.3.2 节研究 RNN 头变体。

训练数据。 我们使用 Open-PerfectBlend,这是 PerfectBlend(Xu et al., 2024)的一个开源版本,由 130 万个样本组成。它是一个通用指令数据集,包含聊天(17.6%)、数学(39.4%)、代码(38.9%)和指令跟随数据(4.1%)。我们仅使用来自 Open-PerfectBlend 的提示;响应由每个目标模型使用推荐的采样参数重新生成。每个 drafter 训练 10 个 epoch 以确保完全收敛。对于数据生成和评估,我们采用非思考模式。

评估协议。 我们在三个领域评估不同算法的性能:

  1. 数学推理,包括 GSM8K(Cobbe et al., 2021)、MATH500(Lightman et al., 2024)和 AIME25(Zhang and Math-AI, 2025)。
  2. 代码生成,包括 MBPP(Austin et al., 2021b)、HumanEval(Chen et al., 2021)和 Live-CodeBench(Jain et al., 2025)。
  3. 日常聊天,包括 MT-Bench(Zheng et al., 2023)、Alpaca(Taori et al., 2023)和 Arena-Hard(Li et al., 2024a, 2025b)。

对于所有基准测试,我们使用标准推测解码(Chen et al., 2023; Leviathan et al., 2023),采样温度设置为 1.0。我们报告每个解码轮的接受长度(τ\tau)。除非另有说明,所有关于接受长度和接受率的报告指标都包括目标生成的奖励令牌。

4.2 实验结果

为了将原始草稿质量与系统级调度策略隔离,我们的离线评估禁用置信度调度器,强制所有 drafter Proposed 固定令牌块。主要结果(以每轮平均接受长度 τ\tau 衡量)报告在表 1 中。

DSpark 在所有评估的目标模型和基准领域中一致优于自回归基线(Eagle3)和并行基线(DFlash)。具体来说,在 Qwen3-4B、8B 和 14B 模型上,DSpark 比 Eagle3 的宏平均接受长度分别提高了 30.9%、26.7% 和 30.0%。同样,与 DFlash 相比,DSpark 在三个规模上分别产生了 16.3%、18.4% 和 18.3% 的相对改进。关键的是,这种优势跨组织系列泛化,如 Gemma4-12B 目标上的一致性能增益所证明。

除了平均改进外,表 1 揭示了强烈的领域效应:结构化任务上的接受长度自然高于开放式聊天(例如,Qwen3-4B 的数学为 5.57,代码为 5.12,而聊天为 3.49)。数据可预测性的这种固有方差意味着静态验证长度通常在高度可能被拒绝的尾部令牌上浪费计算。这直接激发了我们的置信度调度验证,它根据预期接受率动态剪除草稿块。

表 1:主要推测解码结果。 我们报告不同目标模型和领域的每解码轮接受长度(τ\tau,越高越好)。粗体标记最佳结果。

TargetDrafterGSM8KMATHAIME25MBPPHumanEvalLCBMT-BenchAlpacaArena-Hard
Qwen3-4BEagle35.144.623.923.694.163.772.392.262.55
Qwen3-4BDFlash5.404.854.154.404.744.183.072.962.83
Qwen3-4BDSpark6.115.704.895.135.384.863.643.543.29
Qwen3-8BEagle35.304.773.913.964.334.172.662.542.54
Qwen3-8BDFlash5.334.914.074.364.644.393.112.982.81
Qwen3-8BDSpark6.175.785.015.165.525.173.723.583.21
Qwen3-14BEagle35.244.603.713.814.144.012.622.472.48
Qwen3-14BDFlash5.414.843.984.444.594.333.102.942.72
Qwen3-14BDSpark6.215.744.945.265.435.023.703.583.13
Gemma4-12BEagle35.875.464.834.725.374.163.193.062.72
Gemma4-12BDFlash5.455.044.224.394.953.702.982.842.59
Gemma4-12BDSpark6.055.785.125.115.644.513.493.352.92

4.3 实验分析

4.3.1 为什么并行生成可以优于自回归?

表 1 提出了一个反直觉的观察:并行 drafter(DFlash)和半自回归 drafter(DSpark)通常产生比完全自回归 drafter(Eagle3)更长的接受长度。这一发现与标准期望相矛盾,即逐步自回归产生的序列质量高于并行模型(Israel et al., 2026; Ren et al., 2020; Zheng et al., 2025)。

为了分析这种行为,我们超越了宏级接受长度来检查性能。使用 Qwen3-4B 目标模型和 4.1 节中描述的基准集,我们引入了在实际推测解码展开期间跟踪的按位置条件接受。具体来说,对于给定的草稿位置 kk,评估分母仅计算目标模型成功验证并接受前 11k1k-1 个草稿令牌的实例。然后,该指标计算这些有效实例中位置 kk 的令牌也被接受的比例。这种方法确保位置 kk 的评估不会受到先前前缀错误的惩罚,揭示了每个特定步骤下的潜在预测质量。图 2 详细说明了这些测量,展示了跨体系的明确行为差异。

位置 1 的容量优势。 在第一个草稿位置,两个体系都仅基于目标上下文预测下一个令牌。此处的性能分歧严格源于体系容量:像 Eagle3 这样的自回归模型由于其 O(γ)O(\gamma) 延迟而受限于浅层网络,而 O(1)O(1) 并行 drafter 可以承受更深的网络。这种结构差距在位置 1 产生了显著的准确性余量,DFlash 的起始明显高于 Eagle3(例如,数学上为 0.88 对 0.81,聊天上为 0.72 对 0.53)。由于推测解码作为严格的前缀匹配存活过程运作,第一个令牌具有最高杠杆——此处的拒绝立即使整个块无效。因此,这种初始容量优势不成比例地提升了最终接受长度,解释了为什么并行 drafter 最终在全局上优于自回归 drafter,尽管在后面位置有快速接受衰减。

后面位置的独立性限制。 检查曲线的尾部(位置 2 到 7)揭示了独立并行生成的固有限制。当较早的令牌锁定在特定语义路径时,后续令牌自然变得更容易预测。像 Eagle3 这样的自回归模型有效地利用这种条件确定性,在块的更深处维持甚至增加条件接受(例如,从聊天的 0.53 到 0.74)。相反,DFlash 遭受快速接受衰减,从代码的 0.87 下降到 0.78,从聊天的 0.72 下降到 0.63。由于每个并行位置对所有可能的前驱令牌进行边缘化,而不是对确切采样的前缀进行条件化,模型经常 Proposed 不一致的后缀组合——一种称为多模态碰撞的模式(Gu et al., 2018; Stern et al., 2018)。

用半自回归缓解后缀衰减。 前面的分析凸显了一个明确的体系目标:将并行主干的高容量用于初始令牌,将自回归模型的依赖建模用于后续令牌。这直接激发了 DSpark 的半自回归设计。如图 2 所示,DSpark 继承了深度并行 drafter 的高初始接受(例如,在数学上起始于 0.93)。同时,其轻量级顺序头缓解了并行生成典型的快速接受衰减。通过解决这个权衡,DSpark 在整个草稿块中维持高且稳定的条件接受率。

4.3.2 一点自回归大有裨益

基于第 4.3.1 节的见解,我们沿两个维度探索 DSpark 的体系设计空间: drafter 深度(Transformer 层数量)和 Proposed 长度(块大小 γ\gamma)。除非另有说明,本节中的所有实验都使用 Qwen3-4B 作为目标模型,并遵循第 4.1 节中详述的评估协议。

Drafter 深度。 增加 Transformer 层的数量自然会扩展草稿模型的预测能力。为了隔离这种效果,我们将块大小固定为 7,并将 DSpark 层的数量从 1 变化到 5,将其与 5 层 DFlash 基线进行比较。图 3 汇总了跨数学、代码和聊天领域的接受长度。正如预期的那样,DSpark 的性能随深度单调改善,最陡的边际增益发生在从一层到两层。值得注意的是,2 层 DSpark 在所有领域都优于 5 层 DFlash 基线。

这表明通过轻量级顺序头注入局部自回归提供了高度有利的准确率-参数权衡,实现了比简单堆叠更深并行层更好的序列连贯性。

Proposed 长度。 接下来,我们将 drafter 深度固定为 5 层,并将草稿长度(Proposed 长度 γ\gamma 加上一个锚令牌)在 {4,8,12,16}\{4, 8, 12, 16\} 上缩放,以评估较长草稿块的性能。对于 DSpark,我们评估默认 Markov 头和 RNN 头。图 4 的前三个面板显示 DSpark 在每个 Proposed 长度上都一致优于 DFlash。更重要的是,性能差距随 γ\gamma 增加而稳步扩大。由于纯并行生成(DFlash)遭受快速接受衰减(图 2),其对长块的边际效用递减。DSpark 缓解了这种衰减,使其相对于 DFlash 的相对增益增长。例如,在 γ=7\gamma = 7 时,DSpark 在数学上提高了 16% 的接受长度,在代码上提高了 15%,在聊天上提高了 18%;在 γ=15\gamma = 15 时,这些增益分别扩大到 30%、26% 和 22%。此外,RNN 头仅提供相对于 Markov 头的边际额外增益,主要在较长 Proposed 长度时。鉴于其较高的实现复杂性和不太有利的部署属性,我们使用 Markov 头作为默认值。

延迟开销。 我们量化 DSpark 中顺序生成循环的开销。图 4 的最右面板报告了批次大小为 128 时测量的每轮引擎延迟——包括一个目标验证传播、并行草稿块前向和串行采样循环。为了防止序列长度偏差,报告的延迟是跨不同上下文长度({512, 1024, 2048, 4096} 令牌)的算术平均值。由于目标模型在此批次大小下主导验证计算时间,顺序块的延迟开销可以忽略不计。因此,尽管将接受长度提高了多达 30%,将草稿长度从 4 缩放到 16 仅对完整轮延迟增加了 0.2% 到 1.3% 的边际开销(相对于 DFlash 基线)。

4.3.3 更智能地验证,而非更长:置信度头的作用

虽然 DSpark 在长草稿块上维持高接受率,但验证整个 Proposed 仍然效率低下(Hu et al., 2026; Huang et al., 2024)。由于第 4.2 节中提到的固有领域方差,开放式聊天中的尾部令牌仍然面临高拒绝风险,使得盲目验证浪费目标计算。为了评估置信度头是否可以有效地剪除这些无前途的后缀,我们使用 Qwen3-4B 进行离线阈值扫描。我们在此处单独验证估计器,将硬件感知前缀调度器(第 3.2.2 节)保留到第 5 节的生产评估中。

诊断:静态阈值扫描。 图 5 绘制了跨置信度阈值的平均每步令牌数(条形)和整体接受率(线)。随着阈值增加,接受率稳步上升,因为估计器过滤掉最终会被拒绝的令牌(哈希条形)。这表明置信度头可以识别较低值的后缀令牌,这种剪除在聊天工作负载上最为明显,其中较高熵的令牌分布限制了固定长度验证的效率。在聊天子图中,提高阈值显著减少了被拒绝的令牌,将接受率从 45.7% 提高到 95.7%。相比之下,结构化任务(数学和代码)经历较温和的剪除并保留更多草稿令牌,接受率分别从 76.9% 到 92.5% 和 67.6% 到 92.0%。

从静态阈值到校准调度。 虽然对诊断有用,但静态阈值在动态服务环境中是次优的,因为它忽略了系统负载:在低并发下验证低置信度令牌产生最小机会成本,但在高并发下浪费关键批次容量。这种负载依赖性激发了硬件感知前缀调度器。如第 3.2 节所表述,最大化系统级吞吐量需要置信度模型既表现出强大的预测区分能力,又需要精确校准以准确估计累积存活概率。可靠性图(图 6)表明,虽然原始模型实现了强大的区分(ROC-AUC(Hanley and McNeil, 1982)范围从 0.81 到 0.90),但它是过度置信的(ECE 3%–8%)。应用事后 STS(第 3.2.1 节)缓解了这种过度置信,将平均 ECE 降低到约 1% 并产生可靠的存活估计。


5. DSpark 的真实世界部署

虽然第 4 节建立了 DSpark 在离线基准测试上的算法增益,但将其与 DeepSeek-V4(DeepSeek-AI, 2026)等大规模模型一起部署在生产和推理中引入了额外的系统级挑战。在本节中,我们介绍 DSpark 的端到端生产流程。我们详细介绍我们的可扩展训练机制、部署硬件感知前缀调度器(第 3.2.2 节)所需的系统级优化,以及该框架在实时用户流量下的端到端性能。

5.1 可扩展和灵活的训练

DSpark 草稿模型与 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro(DeepSeek-AI, 2026)的预览版本共同部署。并行主干包含三个带有 mHC(Xie et al., 2026)的 MoE 层和 128 的滑动窗口注意力。我们将最大块大小配置为 γ=5\gamma = 5,并利用 Markov 头进行顺序建模。此外,置信度头与草稿模型端到端训练,随后通过 STS 校准以提供可靠的调度信号。

训练草稿模型需要目标模型的输出分布进行监督。在整个文档上下文上评估两个模型会产生大量内存占用和工作者间通信开销。为了解决这些瓶颈,我们在内部训练框架(HAI-LLM)中实施了两个系统级优化:

  • 隐藏状态通信。 在并行工作者之间传输目标模型的完整词汇表逻辑(V105V \approx 10^5)会产生显著的带宽瓶颈。相反,我们临时缓存目标模型前向传播的激活,仅通信紧接在语言建模(LM)头之前的隐藏状态。然后,LM 头投影仅在草稿模型的工作者上针对采样的目标位置本地执行。这将每令牌通信复杂性降低到 O(d)O(d),其中 dd 是隐藏维度。

  • 锚定界的序列打包。 为了将草稿模型的计算成本与目标模型的上下文长度解耦,我们从训练序列中采样固定数量的草稿锚,并将这些隔离的预测块打包成密集训练批次。我们通过令牌级注意力索引而不是标准 2D 掩码来管理这种打包。这在多个独立序列和锚之间保持了精确的因果掩码,避免了与标准填充相关的计算和内存开销。

5.2 实践中的硬件感知前缀调度器

在第 3.2.2 节中,算法 1 提供了一个理论上合理且无损的调度机制。然而,将该算法直接部署到生产环境中暴露了与真实世界基础设施的两个基本冲突。首先,算法假设平滑、单峰的容量曲线,而真实硬件容量 SPS(B)\text{SPS}(B) 固有地是离散的,表现出锯齿状、阶梯式退化(Yan et al., 2020)。其次,算法要求每步调度动态草稿令牌,这与连续 CUDA 图重放(Fireworks AI, 2023)和零开销调度(ZOS)(Zheng et al., 2024; Zhu et al., 2025)冲突。

为了在系统兼容性、吞吐量和算法正确性之间导航权衡,我们调整调度器以异步方式运行。由于 ZOS 需要在当前步骤完成之前知道下一步的批次大小,同步调度将不可避免地使 GPU 流水线停滞。相反,我们使用来自两个步骤之前的置信度头输出来近似即将到来的验证容量。在机制上,当前步骤中的候选令牌仍然按其实际、最新的累积置信度评分严格排序;来自两个步骤之前的历史预测仅用于确定动态截断长度(即批次容量限制 KK)。这有效地将于入过程转换为动态 top-KK 选择。虽然近似容量 KK 引入了轻微的时间偏移,但选择机制基本上是保持排名的:最有信的草稿令牌始终被优先考虑用于验证。这种适配完全隐藏了调度延迟,并确保无缝的 ZOS 集成。

基于这种异步流水线,我们解决了硬件利用率瓶颈。为了防止调度器被锯齿状 SPS 悬崖陷入局部最小值,我们移除了提前停止中断,实现了无约束全局搜索。通常,这种回顾性搜索会泄漏未来令牌信息并违反无损保证(附录 A)。然而,我们的 ZOS 驱动的适配自然防止了这一点。由于无约束搜索仅评估来自两个步骤之前的历史预测,准入决策与当前令牌 xr,kx_{r,k} 的实现隔离。截断长度固有地仅依赖于来自两个步骤之前的信息。因此,异步设计形成了因果屏障,在保持精确目标分布的同时最大化硬件悬崖间的物理吞吐量。

5.3 高吞吐量和低延迟推理

在解码期间,生产服务系统必须同时优化两个竞争目标:每个请求的延迟和聚合吞吐量(Kwon et al., 2023; Zhao et al., 2025a; Zhong et al., 2024)。前者管理单个用户的质量 of service——一个在基于智能体的工作负载中越来越关键的因素(Tiwari et al., 2026)——而后者决定了同时服务的用户总数。由于推测解码不可避免地产生浪费的验证计算,它固有地导航这种权衡,用额外的系统计算换取更快的每个请求生成。

然而,在我们的部署设置中,每步处理的请求数量经常受到资源限制(例如,每个请求的固定 KV 缓存容量)和可用用户流量池(例如,RL 长尾负载)的约束。因此,有效批次大小持续远低于 GPU 的计算饱和阈值。在这种机制下,传统权衡简化了:给定固定的并发限制,最大化每 GPU 总令牌吞吐量和最大化每用户生成速度(tok/s/用户)成为高度相关的目标,而不是竞争的目标。

为了实现这种最大吞吐量,异步调度器(第 5.2 节)主动将空闲计算路由到最有希望的草稿令牌。然而,执行这种动态路由在物理执行层引入了严峻挑战:推理框架必须高效支持单个批次内的变长查询。标准解码内核针对固定查询长度进行了大量优化;朴素处理变长验证前缀由于填充和工作负载分布不均匀导致严重的 GPU 利用不足。我们通过将物理执行与逻辑序列跟踪解耦来解决这一问题。在我们的计算内核中,来自不同请求的所有令牌都被展平并作为独立元素进行相同处理。然后,复杂的序列内依赖关系通过集成到我们稀疏注意力实现中的标记张量严格传递。具体来说,在 DeepSeek-V4 架构上,只有索引注意力和压缩内核需要修改以支持这种变长路由,允许动态调度器无缝运行,而不会引入低级执行开销。

5.4 实时用户流量下的性能

我们在 DeepSeek-V4-Flash(预览版)和 DeepSeek-V4-Pro(预览版)的生产服务引擎中评估 DSpark-5(配置最大草稿长度 γ=5\gamma = 5)与 MTP-1(DeepSeek-AI, 2024)基线。MTP-1 代表以前的生产设置,在 DeepSeek-V4 预览版发布两周后被 DSpark 取代。这种单令牌设置历史上保持在生产中,因为在高并发下部署静态多令牌 drafter(例如,MTP-3/5)由于 excessive 验证开销而严格降低聚合吞吐量。因此,将 DSpark 与这个已确立的基线进行比较直接证明了其在动态服务环境中安全释放更大草稿块性能潜力的能力。在所有图中,散点代表直接从实时用户流量采样的原始遥测数据,捕获复杂的真实世界请求分布,而实线代表拟合的性能前沿。

服务帕累托前沿。 图 7 说明了聚合系统吞吐量与每个用户生成速度(互操作性)之间的权衡。为了量化 DSpark 在实际部署约束下的行为,我们在几个互操作性 SLA 锚点评估系统。这里,SLA(服务级别协议)指定系统必须保证的最小每个用户生成速度(以每秒令牌数衡量)。

对于 V4-Flash 引擎,我们在 80 和 120 tok/s/用户的 SLA 锚点评估系统。在中等 80 tok/s/用户 SLA 下,DSpark 比 MTP-1 基线提高了 51% 的聚合吞吐量。更严格的 120 tok/s/用户 SLA 代表了一种质上不同的机制:在这种约束下,单令牌 MTP-1 基线接近其操作边界,只能维持非常小的并发批次。因此,此处的相对吞吐量比率在数值上很大,DSpark 实现了名义上 661% 更高的聚合吞吐量。因此,我们将这个高 SLA 点主要解释为证据证明 DSpark 扩展了可行的互操作性前沿,而不是作为对充分利用基线的代表性乘法加速。在匹配的实用吞吐量水平下,提供更稳定的比较,DSpark 将每个用户的生成速度加速了 60% 到 85%。

V4-Pro 部署显示了相同的模式。在中等 35 tok/s/用户 SLA 下,DSpark 将聚合吞吐量提高了 52%。在更严格的 50 tok/s/用户 SLA 下,MTP-1 再次进入低并发机制,为 DSpark 产生了名义上 406% 的相对吞吐量优势。与 V4-Flash 一样,我们将这个点视为 DSpark 在基线无法有效支持的互操作性目标下维持有用吞吐量的指示。在匹配的系统容量下,DSpark 提供 57% 到 78% 更快的每个用户生成。总的来说,这些结果表明 DSpark 将观察到的吞吐量-互操作性前沿向外推:它在中等 SLA 机制下提高吞吐量,更重要的是,在严格的互操作性约束下保持非退化的服务能力。

负载下的吞吐量动态。 图 8 通过分析聚合吞吐量和动态验证预算 against 系统并发性来分析驱动这些增益的底层机制。

  • 在我们生产部署典型的 moderate 并发机制下(V4-Flash 少于 200 个并发请求,V4-Pro 少于 150 个),硬件感知调度器通过分配更长的验证预算来利用可用的目标计算容量,从 MTP-1 的静态 2 个令牌扩展到每个请求彻底 4-6 个令牌。这种扩展验证在每次前向传播中产生更多接受的令牌,直接促成了在帕累托前沿上观察到的吞吐量增益。
  • 随着系统并发性扩展和目标容量饱和,调度器动态限制这个预算。平均验证长度随负载平滑下降,确保低置信度草稿令牌在消耗关键批次容量之前被剪除。这种负载感知行为稳定了生产部署:DSpark 在轻流量下最大化空闲计算的效用,同时在重流量下有效保持关键批次容量。

局限性。 尽管前缀调度器最小化了浪费的目标模型验证,DSpark 仍然产生固定的草稿侧成本,通过并行主干生成初始 γ\gamma 令牌块。对于具有固有低接受率的复杂查询,这种前期草稿计算是不可恢复的。未来的优化可以在草稿模型内引入难度感知的早期退出,使此类请求能够绕过完整块生成。


6. 相关工作

推测解码算法。 推测解码通过将令牌 Proposal 与验证解耦来加速自回归生成。基于早期块方法(Ge et al., 2022; Stern et al., 2018; Sun et al., 2021; Xia et al., 2023),现代方法采用拒绝采样来精确保持目标模型的分布(Chen et al., 2023; Leviathan et al., 2023)。由于推理加速直接取决于 drafter 的效率和准确性,大量研究集中在优化其架构上。除了使用独立小语言模型(Chen et al., 2023; Leviathan et al., 2023)外,后续工作将多令牌头或特征外推器直接集成到目标模型中(Ankner et al., 2024; Cai et al., 2024, 2025; DeepSeek-AI, 2024; Gloeckle et al., 2024; Li et al., 2024b,c, 2026b; Zhang et al., 2025)。其他策略包括通过早期退出进行自我推测(Elhoushi et al., 2024; Liu et al., 2024a; Xia et al., 2025; Zhang et al., 2024)、动态词汇表压缩(Williams et al., 2026; Zhao et al., 2025b)、提示查找(Saxena, 2023; Somasundaram et al., 2025)、后缀自动机(Hu et al., 2025)和检索(He et al., 2023; Shen et al., 2026)。为了消除草稿本身的顺序瓶颈,最近的方法 Proposed 并行或块级生成。P-EAGLE 并行化 EAGLE 风格草稿(Hui et al., 2026),而 PARD、DART 和 DFlash 使用受扩散启发的预测在单次前向传播中生成整个块(An et al., 2026; Chen et al., 2026; Liu et al., 2026a),DDTree 将其扩展到可验证的草稿树(Ringel and Romano, 2026)。并行工作也改进 DFlash:Domino(Huang et al., 2026a)引入了一个在概念上类似于我们的 RNN 头的因果编码器,而 DFlare(Zhang et al., 2026a)通过逐层融合解决了条件瓶颈。

推测解码的系统感知调度。 除了 drafter 架构外,另一项工作侧重于确定每轮要生成或验证的最优推测令牌数量。为此,各种方法使用置信度启发式(Du et al., 2024; Li et al., 2024b; Liu et al., 2026c; Mamou et al., 2024; Wen and Feng, 2026)、学习接受预测器(Huang et al., 2024; Zacks917, 2026)或强盗风格策略(Liu et al., 2026b)动态适应草稿长度。此外,认识到推测解码固有地是系统级调度问题,最近的工作通过调整推测预算来优化整体 goodput 和延迟,以适应实时系统负载和请求优先级(AngelSlim Team, 2026; Hu et al., 2026; Huang et al., 2026b; Li et al., 2026a; Liu et al., 2024c; Miao et al., 2024; Sadhukhan et al., 2025; Wu et al., 2025)。

并行生成。 并行生成令牌的模型提供的解码延迟几乎与输出长度无关,使其成为自回归解码的有吸引力的替代方案。非自回归 Transformer(NAT,Gu et al., 2018)通过单次前向传播预测所有位置开创了这一方向。然而,这迫使模型对所有合理模式进行平均,经常产生混合来自不同有效序列的片段的输出。出现了两条广泛的工作线来解决这个限制。一个方向保留单次传播架构,但改变模型看到的或训练的方式:引入潜变量作为条件输入以将所有位置导向一致输出(Gu et al., 2018; Kaiser et al., 2018; Ma et al., 2019),或放松训练目标,使模型专注于产生单个连贯输出,而不是建模所有有效替代方案的完整分布(Du et al., 2021; Qian et al., 2021; Shao et al., 2021, 2023)。另一个方向通过迭代重新预测(Austin et al., 2021a; Ghazvininejad et al., 2019; Li et al., 2022)、块级自回归(Arriola et al., 2025; Wang et al., 2018)或结构化输出层(如 CRF(Sun et al., 2019)、CTC(Libovický and Helcl, 2018; Saharia et al., 2020)、HMM(Huang et al., 2022b)和 PCFG(Gui et al., 2023))重新引入有限的顺序依赖关系。

推测解码提出了进一步的要求,即草稿必须提供确切的每令牌概率以进行拒绝采样规则。由于迭代细化、潜变量边缘化或全局归一化,上面的大多数技术无法轻易提供这种概率。例如,在一个与我们的设计密切相关的设计中,CRF-NAT(Sun et al., 2019)也将顺序模块置于并行隐藏状态之上,但其全局归一化配分函数阻止了确切的每令牌概率计算。同样,在将 CTC 输出层适配到并行推测解码时,CTC-drafter (Wen et al., 2024)由于对齐路径的潜变量边缘化而仅限于贪婪验证。DSpark 通过将顺序校正保持在局部来规避这些限制,因此每令牌概率仍然是确切的 softmax 评估。


7. 结论

在本文中,我们提出了 DSpark,这是一个推测解码框架,旨在克服高并发生产环境中大语言模型推理的结构和系统级瓶颈。在算法上,DSpark 引入了半自回归生成范式——将计算昂贵的并行主干与轻量级顺序头耦合——以缓解独立并行 drafter 的快速后缀衰减。在系统级,我们将验证长度选择表述为全局吞吐量最大化问题,采用硬件感知前缀调度器,该调度器基于校准的存活概率和实时引擎负载动态定制目标模型的验证预算。广泛的离线评估表明,DSpark 在多个领域显著优于最先进的自回归和并行基线。此外,其在 DeepSeek-V4 内的真实世界部署验证了其生产服务中的实用价值:通过智能管理验证开销,DSpark 在重负载下维持稳健的并发性,一致加速每用户生成速度,并有效推动 LLM 服务的帕累托前沿向外。


参考文献

  • T. Abramovich, M. Ashkenazi, I. Putterman, B. Chislett, T. Mitra, B. D. Rouhani, R. Zilberstein, and Y. Geifman. Speed-bench: A unified and diverse benchmark for speculative decoding. arXiv preprint arXiv:2604.09557, 2026.

  • Z. An, H. Bai, Z. Liu, D. Li, and E. Barsoum. PARD: Accelerating LLM inference with low-cost PARallel draft model adaptation. In The Fourteenth International Conference on Learning Representations, 2026.

  • S. Ankner, Z. Leng, and C. R. Wolfe. Speculative decoding with multiple targets. arXiv preprint arXiv:2405.18913, 2024.

  • A. AngelSlim Team. AngelSlim: Efficient speculative decoding for production LLM serving. arXiv preprint arXiv:2603.09708, 2026.

  • G. Arriola, J. Perez, and E. N. Efthymiou. Blockwise autoregressive transformers for fast inference. arXiv preprint arXiv:2509.10564, 2025.

  • J. Austin, A. Odena, M. Nye, M. Bosma, H. Michalewski, D. Dohan, E. Jiang, C. Cai, M. Terry, Q. Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.

  • …(其余参考文献见英文原文)