DeepSpec 训练全流程详解(以 Qwen3 + DSpark 为例)
本文基于 DeepSpec 开源代码,以
Qwen3-4B+DSpark为具体实例,从算法思想、模型架构、训练数据流、推理流程四个维度,逐行拆解代码,帮助你完整理解 DSpark 草稿模型的训练与推理工作原理。
DeepSpec 核心工作原理
DeepSpec 训练草稿模型的本质是:在目标模型的 backbone 架构上,构建一个更小的 draft 网络,使用目标模型预计算的 hidden states 作为监督信号进行训练。
因此,适配新模型的核心工作量是让 draft 模型能够"理解"目标模型的内部表示——这包括:
- 复用目标模型的 tokenizer、embedding、归一化层、旋转位置编码等组件
- 从目标模型的特定层抽取 hidden states 作为 draft 模型的输入
- 保持注意力机制、MLP 结构与目标模型一致
一、DSpark 是什么:核心思想
DSpark 是一种面向推测解码(Speculative Decoding)的草稿模型训练方法。它的核心洞察可以总结为一句话:
"让草稿模型在训练时就学会——给定目标模型某几层的 hidden states,一次性猜出接下来的 N 个 token 是什么。"
传统训练语言模型是自回归的:输入 t0, t1, t2,预测 t3。


