跳转到主内容
军舰的日志
工具 标签 关于
工具 标签 关于 搜索文章

DSpark:结合半自回归生成与置信度调度的投机解码技术 🔗

这篇研究论文介绍了 DSpark,一个由北京大学和 DeepSeek-AI 联合开发的投机采样(Speculative Decoding)大模型推理加速框架。以下是该论文的核心要点总结:


核心痛点

传统的投机采样在提高大模型推理速度上面临两个瓶颈:

  1. 生成质量退化(后缀衰减): 并行草稿模型(如 DFlash)虽然生成速度快,但因为各 Token 独立预测,缺乏前后依赖关系,容易产生语义冲突(多模态碰撞),导致后面 Token 的接受率急剧下降。
  2. 系统效率浪费: 在高并发的生产环境中,如果不加选择地验证所有生成的草稿 Token,会浪费宝贵的计算算力去验证那些极易被拒绝的末尾 Token,从而降低系统整体吞吐量。

DSpark 的核心架构与创新

DSpark 通过结合高吞吐的并行生成与自适应的负载感知验证,完美平衡了这两大难题:

1. 半自回归生成(Semi-Autoregressive Generation)

  • 并行骨干+轻量串行头: 保持昂贵的草稿模型主干完全并行(继承 DFlash 速度),但仅在输出端附加一个极轻量的串行模块(默认使用低秩因子化的 Markov 头,或使用 RNN 头)。
  • 效果: 在保持高 drafting 速度的同时,为一整块 Token 注入了 causal 上下文依赖,大幅缓解了后缀衰减问题。

2. 置信度调度验证(Confidence-Scheduled Verification)

  • 置信度预测头(Confidence Head): 预测每个位置的草稿 Token 在前置 Token 被接受的前提下,自身也能被接受的条件概率。
  • 序列温度缩放(STS): 针对神经网络普遍“过度自信”的问题,引入 STS 进行后验校准,使计算出的累积生存概率精准反映实际接受率。
  • 硬件感知前缀调度器(Hardware-Aware Prefix Scheduler): 结合实时硬件算力曲线和置信度,将验证长度选择转化为“全局吞吐量最大化”问题。在低负载时多验证,在高并发重负载时主动裁剪低置信度的末尾 Token,防止算力浪费。

主要实验结果

离线基准测试(Offline Benchmarks)

在 Qwen3(4B/8B/14B)和 Gemma4-12B 等目标模型上,涵盖数学推理(GSM8K)、代码生成(HumanEval)和日常对话(MT-Bench)等多领域的测试显示:

  • DSpark 的宏观平均接受长度相比自回归模型 Eagle3 提升了 26.7% ~ 30.9%。
  • 相比前沿并行模型 DFlash 提升了 16.3% ~ 18.4%。
  • 实验证明,“微量的自回归(A Little Autoregression)”能够以极低的延迟开销(0.2%~1.3%)换取大幅的接受率提升。

生产环境实测(Live User Traffic)

DSpark 已成功部署于 DeepSeek-V4(Flash 和 Pro 预览版)的线上生产 serving 系统中:

  • 速度大幅提升: 在相同的系统吞吐量下,DSpark 将用户的单并发生成速度(tok/s/user)提升了 60%~85%(V4-Flash)和 57%~78%(V4-Pro)。
  • 拓宽服务边界: 在严格的低延迟 SLA 约束下(例如 Flash 120 TPS,Pro 50 TPS),传统方案会发生计算崩溃,而 DSpark 通过动态裁剪验证预算,成功维持了鲁棒的吞吐表现,彻底推高了 serving 系统的帕累托前沿(Pareto Frontier)。

开源贡献: 团队已将 DSpark 的模型权重,以及驱动投机采样算法训练的开源代码库 DeepSpec(集成了 Eagle3、DFlash 和 DSpark)向社区完全开源。

相关文章

2026年6月27日

基于 DSpark 的投机解码训练框架原理与实现(论文+代码对照)

2025年4月21日

Sky-T1-7B:通过强化学习提升推理模型的潜力

2026年6月4日

端侧AI:Gemma 4 12B 创新架构与 LiteRT-LM 本地部署指南

2025年2月13日

沐曦 MXC500 训练 GPU 的大模型推理性能压测

打开 Markdown

标签

paperdsparkdeepspecdeepseekllmspeculative-decodingdraft-model

信息

2026年06月28日 02时09分

约 3 分钟阅读

阅读

© 2026 军舰的日志. All rights reserved. · 访问量 · 访客数

🤖

智能问答助手

⏳ 初始化...

💡 配置和聊天记录仅保存在本地浏览器中