DeepSpec 训练全流程详解(以 Qwen3 + DSpark 为例)

本文基于 DeepSpec 开源代码,以 Qwen3-4B + DSpark 为具体实例,从算法思想、模型架构、训练数据流、推理流程四个维度,逐行拆解代码,帮助你完整理解 DSpark 草稿模型的训练与推理工作原理。

DeepSpec 核心工作原理

DeepSpec 训练草稿模型的本质是:在目标模型的 backbone 架构上,构建一个更小的 draft 网络,使用目标模型预计算的 hidden states 作为监督信号进行训练。

因此,适配新模型的核心工作量是让 draft 模型能够"理解"目标模型的内部表示——这包括:

  • 复用目标模型的 tokenizer、embedding、归一化层、旋转位置编码等组件
  • 从目标模型的特定层抽取 hidden states 作为 draft 模型的输入
  • 保持注意力机制、MLP 结构与目标模型一致

一、DSpark 是什么:核心思想

DSpark 是一种面向推测解码(Speculative Decoding)的草稿模型训练方法。它的核心洞察可以总结为一句话:

"让草稿模型在训练时就学会——给定目标模型某几层的 hidden states,一次性猜出接下来的 N 个 token 是什么。"

传统训练语言模型是自回归的:输入 t0, t1, t2,预测 t3。

朗读者是什么

朗读者(Long Reader)是一款基于 Web Speech API 的纯前端长文朗读工具。它采用左侧编辑设置、右侧沉浸阅读的布局,支持中英文长文本逐句朗读,无需上传、无需后端,所有文本处理与语音合成都在浏览器本地完成。

核心功能

  • 本地朗读:文本不离开浏览器,无上传、无服务端、保护隐私。
  • 自动分句:按中英文标点自动切分长文,避免单条语音过长被截断。
  • 逐句高亮:朗读时当前句高亮显示,已读句子自动淡化,并平滑滚动到视野中央。
  • 点击跳转朗读:在阅读区点击任意句子,即可从该句开始播放。
  • 多语音选择:自动加载系统语音列表,按语言分组;英文优先推荐 Safari 的 Samantha 与 Chrome 的 Ava。
  • 语速 / 音调 / 音量调节:语速 0.5× ~ 2.0×,音调 0 ~ 2.0,音量 0% ~ 100%。
  • 文本来源多样:支持直接粘贴、上传 .txt 文件,也内置中英文范文一键体验。
  • 阅读进度记忆:使用 localStorage 保存当前文本与朗读位置,刷新或下次打开可恢复继续朗读。
  • 进度显示:顶部工具栏实时显示当前句数与总句数。
  • 响应式布局:桌面端双栏设计,移动端侧边栏可折叠,适配不同屏幕。
  • 键盘快捷键Space 播放 / 暂停,← / → 切换上下句,Esc 停止。
  • 后台自动暂停:页面切换到后台时自动暂停朗读,避免被系统中断。

使用方式

DSpark:基于置信度调度的半自回归生成推测解码

北京大学 DeepSeek-AI

摘要

推测解码(Speculative Decoding)通过将草稿生成与目标验证解耦来加速大语言模型(LLM)推理。尽管最近的并行 drafter 能够在单次前向传播中高效 Proposed 长令牌序列,但由于缺乏令牌间依赖关系,它们面临着接受率快速衰减的问题。此外,不加区分地验证这些扩展块会浪费关键的批次容量在具有高拒绝风险的令牌上,严重降低了高并发服务系统中的吞吐量。

我们提出了 DSpark,这是一个推测解码框架,统一了高吞吐量的并行生成与自适应的、负载感知的验证。为了保持草稿质量,DSpark 利用半自回归架构——将并行主干与轻量级顺序模块耦合——引入块内依赖建模并缓解后缀衰减。为了优化系统效率,DSpark 采用置信度调度验证,根据估计的前缀存活概率和引擎特定的吞吐量配置文件,动态地为每个请求定制验证长度。

在跨多个领域的离线基准测试中,DSpark 在已接受长度方面显著优于最先进的自回归和并行 drafter。当部署在 DeepSeek-V4 服务系统中并处理实时用户流量时,DSpark 成功缓解了验证浪费。与已确立的生产基线(MTP-1)相比,DSpark 在匹配的吞吐量水平上加速了每用户生成速度 60%–85%。

Google Stitch - AI 原生 UI 设计工具

官网定位一句话:将文字、草图、截图、语音指令,一键生成 Web / 移动端高保真界面、可交互原型与可直接投入开发的前端代码,打通「灵感→设计→开发」完整工作流。 访问入口:stitch.withgoogle.com

🚀 Stitch:从想法到落地

Stitch 提倡“设计先行,边做边改”。告别面对空白页的焦虑,无需追求一步到位,通过不断迭代轻松产出优秀设计。

1. 极简起步:三步提示词公式

写下你的初始想法,无需死磕细节,给一个大概的“配方”即可生成:

  • [想法] 是什么 + [主题] 风格氛围 + [内容] 核心板块。

2. 精准迭代:每次只改动一点

生成初稿后,构思才真正开始。

  • 小步快跑: 每次锁定一个问题,用具体指令(配合 UI/UX 词汇)让 AI 修改。
  • 全局调整: 善用“编辑主题”一键更换深浅模式、颜色和字体。

3. 验证与交付:从静态到上线

  • 动效测试: 一键生成交互式“原型”,测试按钮悬停、文本输入等真实体验。
  • 多端导出: 导出 HTML 和图片包。HTML 是万能资产,可借助大模型轻松转换为 React、Vue 或手机原生代码(Flutter/SwiftUI 等)。

💡 核心寄语: 别想太多,先生成,再优化。持续构思,直到满意!

欢迎来到 Stitch。今天您将学习如何从设计切入并专注于概念构思。关键在于不要过度思考。

Google DESIGN.md 规范与实践指南

DESIGN.md是什么?

每个项目都有自己的视觉标识:颜色、字体、间距、组件样式。传统上,这些内容存储在 Figma 文件、品牌 PDF 或设计师的脑海中。AI 智能体无法读取这些格式。

DESIGN.md 改变了这一点。 它是一个纯文本设计系统文档,人类和智能体都可以阅读、编辑和执行。可以将其视为 AGENTS.md 的设计对应物:

文件 阅读者 定义内容
README.md 人类 项目是什么
AGENTS.md 编码智能体 如何构建项目
DESIGN.md 设计智能体 项目应该长什么样、什么感觉

它能给你带来什么

当像 Stitch 这样的设计智能体读取你的 DESIGN.md 时,它生成的每个屏幕都遵循相同的视觉规则:你的调色板、你的排版、你的组件模式。没有它,每个屏幕都是孤立的;有了它,它们看起来属于同一个产品。

DESIGN.md 是一个活的产物,而不是静态配置文件。它随着你的设计演变而演变。智能体生成它,你完善它,并在迭代过程中重新应用到屏幕上。

在底层,每个 DESIGN.md 都有两层:YAML 前置元数据包含机器可读的设计令牌(精确的十六进制值、字体属性、间距尺度)和Markdown 正文提供人类可读的设计原理说明。令牌为智能体提供精确值。散文告诉它们为什么这些值存在。完整的格式请参阅规范

设计理念

DESIGN.md 规范是一个基础,而非规定。

DESIGN.md - 面向智能体描述视觉识别系统的格式规范

一种用于向编码智能体描述视觉识别系统的格式规范。DESIGN.md 让智能体对设计系统拥有持久、结构化的理解。

格式

DESIGN.md 文件将机器可读的设计令牌(YAML 前置元数据)与人类可读的设计原理(Markdown 正文)相结合。令牌为智能体提供精确值,正文则解释这些值为何存在以及如何使用。

---
name: Heritage
colors:
  primary: "#1A1C1E"
  secondary: "#6C7278"
  tertiary: "#B8422E"
  neutral: "#F7F5F2"
typography:
  h1:
    fontFamily: Public Sans
    fontSize: 3rem
  body-md:
    fontFamily: Public Sans
    fontSize: 1rem
  label-caps:
// ...

读取此文件的智能体将生成一个 UI:Public Sans 字体的深墨标题、温暖石灰石背景,以及波士顿陶土色的行动号召按钮。

快速开始

对照规范验证 DESIGN.md,捕获损坏的令牌引用、检查 WCAG 对比度比率,并输出结构化发现——所有结果均以智能体可处理的 JSON 格式呈现。

基于 DSpark 的投机解码训练框架原理与实现(论文+代码对照)

结合 DSpark 论文与代码实现,全面剖析 DeepSpec 的工作原理与核心组件。

项目地址:https://github.com/deepseek-ai/DeepSpec DSpark 论文:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 是 DeepSeek 提出的一套无损加速大模型推理的“看人下菜碟”机制。 传统加速手段(推测解码)通常是让小模型一次性盲目盲猜一大串后续 Token,再让大模型统一验证。但这存在两个痛点:小模型猜得越往后越不准(多模态冲突导致“后缀衰减”);高并发时,大模型花大力气去验证那些猜得不准的 Token,会严重压垮系统吞吐。

DSpark 的核心突破就在于两点:

  1. 猜得更准(半自回归): 它在原有的单次并行生成网络后,拼了一个极轻量的小尾巴(顺序头),在几乎不增加延迟的情况下,让后面的 Token 能根据前面猜出的 Token 进行自适应修正,大幅提升长序列的猜测准确度。
  2. 动态裁剪(置信度调度): 它能实时感知系统的硬件负载与并发压力。如果并发高、大模型很忙,或者发现后面小模型猜的置信度太低,它就会果断把不靠谱的后缀砍掉,只送靠谱的前缀给大模型验证。

通过这种“高质量猜测”与“负载感知动态裁剪”的结合,DSpark 在保障大模型输出质量完全无损的前提下,成功

本周 AI 新闻 20260626

本周主线:Google 一周内失去四位顶尖 AI 科学家,OpenAI 以 GPT-5.5-Cyber 正面回应 Anthropic 的网络安全布局,SpaceX 凭 63 亿美元算力协议巩固全球最大商业 AI 基础设施商地位,中美 AI 出口管制进入双向对抗阶段。

本周看点

  1. Google 遭遇史上最严重 AI 人才流失潮:诺贝尔化学奖得主 John Jumper 与 Gemini 核心人物 Noam Shazeer 等四位科学家在一周内相继离开,分别加入 Anthropic 与 OpenAI,Alphabet 市值蒸发超 2700 亿美元,Gemini 3.5 Pro 发布计划受挫。
  2. OpenAI 发布 GPT-5.5-Cyber 与 Patch the Planet:直接回应 Anthropic 的 Project Glasswing,将 AI 漏洞扫描嵌入 Codex,并承诺在 30 天内修复 cURL、Python、Linux 内核等 30 多个开源项目的安全漏洞。
  3. SpaceX 与 Reflection AI 签下 63 亿美元算力大单:每月 1.5 亿美元、为期三年的 GB300 算力租赁协议,使 SpaceX 的 AI 算力合同承诺收入超过 800 亿美元,成为全球最大商业 AI 基础设施提供商。
  4. Anthropic 把 Claude 智能体嵌入 Slack:Claude Tag 正式上线,企业用户可在任意频道 @Claude 调用智能体,Anthropic 内部称其已贡献产品团队 65% 的代码产出。
  5. 中国反制美国 AI 出口管制:6 月 24 日,中国将 56 家美国企业列入制裁清单,禁止部分企业参与政府采购并实施出口管制,标志 AI 技术出口战从单向限制转向双向对抗。

免费在线翻译工具是什么

免费在线翻译工具是一款纯前端的浏览器翻译工具,支持 MyMemory、Lingva、LibreTranslate 三种翻译源,无需注册、无需 API Key 即可使用。它采用左右分屏设计,输入内容后会实时翻译,并支持基于 Web Speech API 的本地语音朗读。所有设置与偏好都保存在浏览器本地,文本不会上传至任何服务端。

核心功能

  • 多翻译源可选:支持 MyMemory(免费在线)、Lingva(免费代理)、LibreTranslate(自托管)三种后端,可在设置中一键切换。
  • 实时翻译:输入内容 600ms 防抖后自动发起翻译,切换语言或翻译源时也会即时更新译文。
  • 语言标签页:源语言支持「检测语言」,目标语言覆盖中文、英语、日语、德语、法语、西班牙语等常用语言。
  • 一键互换语言:点击中间互换按钮即可交换源语言与目标语言,并自动重新翻译。
  • 语音朗读:基于 Web Speech API,支持朗读原文与译文;中英文自动检测,英文优先使用 Ava / Samantha 等高质量语音。
  • 朗读播放/停止切换:朗读按钮可一键停止当前播放,再次点击则重新朗读。
  • 长文本分句:朗读时按句末标点自动切分,避免单条语音过长被浏览器截断。
  • 复制译文:点击复制按钮即可将翻译结果复制到剪贴板。
  • 本地记忆偏好:使用 localStorage 自动保存源语言、目标语言、翻译源及服务地址,下次打开无需重新设置。
  • 响应式布局:桌面端左右分屏,窗口自适应高度;移动端自动上下堆叠,小屏也能流畅使用。

浏览器原生语音合成(TTS)开发经验

最近先后在站点上线了两个纯前端的朗读工具:Read Aloud智能朗读阅读器。两者都基于浏览器的 Web Speech API 实现,没有后端、没有上传、没有第三方语音服务。开发过程中踩了一些坑,也积累了一些可复用的经验,记录如下。

一、Web Speech API 基础

浏览器 TTS 的入口非常简洁:

const synth = window.speechSynthesis;
const utterance = new SpeechSynthesisUtterance(text);
synth.speak(utterance);

window.speechSynthesis 负责全局的语音队列,SpeechSynthesisUtterance 则是每一次发音的单元。在真正可用之前,建议先做兼容性判断:

if (!window.speechSynthesis) {
  alert('当前浏览器不支持 Web Speech API,无法使用朗读功能。');
  return;
}

目前 Safari、Chrome、Edge 等现代浏览器都支持该 API,但不同浏览器在语音质量、语音名、事件触发等方面差异明显,后面会详细说。

二、语音列表是异步加载的

第一次调用 speechSynthesis.getVoices() 时,返回的数组经常为空。这是因为浏览器需要异步加载系统语音包。

智能朗读阅读器是什么

智能朗读阅读器是一款基于 Web Speech API 的纯前端朗读工具。它采用左右分屏设计:左侧为阅读区,右侧为可折叠编辑区,适合朗读中文小说、英文范文、演讲稿等长文本。所有文本处理与语音合成都在浏览器本地完成,无需上传、无需后端。

核心功能

  • 左右分屏阅读:左侧阅读区、右侧可折叠编辑区,加载大文本后阅读区独立滚动,页面不再被撑高。
  • 自动分句与高亮:按中英文标点自动切分长文,朗读时当前句高亮显示,已读句子自动淡化。
  • 点击跳转朗读:在阅读区点击任意句子,即可从该句开始播放。
  • 语速 / 音调调节:语速支持 0.4x ~ 2.5x,音调支持 0.5 ~ 2.0。
  • 字号 / 行高调节:阅读区字号与行高可调,偏好自动保存到本地。
  • 语音选择:自动加载系统语音,英文文本默认优先使用 Ava 语音。
  • 上下句跳转:支持按钮或键盘 ← / → 快速切换到上一句 / 下一句。
  • 循环播放:支持单句循环与全文循环,适合重点句子跟读或反复听诵。
  • 朗读进度条:底部实时显示整体朗读进度。
  • 预设经典文本:内置《背影》、I Have a Dream、Gettysburg Address 等范文,一键体验。
  • 主题切换:支持浅色 / 深色模式,长时间阅读更护眼。
  • 文件导入:支持 .txt / .md 等文本导入,也支持拖拽文件到阅读区。
  • 快捷键:空格播放 / 暂停,Ctrl + Enter 加载文本,Esc 停止,← / → 切换句子。
  • 纯本地运行:无后端、无上传、无依赖,纯静态 HTML 页面。

JiuwenSwarm 架构设计、工作原理与核心模块深度剖析

JiuwenSwarm 是什么?

JiuwenSwarm 是一个华为云开源的分布式 AI 多智能体协同与能力自进化系统。简单说,它是一个让 AI 智能体像团队一样协作、并且越用越聪明的系统。

核心特色

1. 三种执行模式,适配不同场景

模式 怎么工作 适合
Plan 模式 单 Agent 深度推理,自带任务规划 Rail,边思考边执行 复杂任务、多步骤分析
Performance 模式 卸掉规划护栏,直问直答,延迟最低 快速问答、简单查询
Swarm 模式 Leader 拆解任务,组建多 Agent 团队并行协作,可跨机器 大型复杂工作、多角色分工
flowchart LR
    M["用户输入"] --> P{模式选择}
    P -->|agent.plan| A1["单 agent 深度规划<br/>+ task planning rail"]
    P -->|agent.fast| A2["单 agent 快速响应<br/>- heavy rail"]
    P -->|team| A3["leader 拆解任务<br/>+ teammate 分布式执行"]
    A1 --> R["输出结果"]
    A2 --> R
    A3 --> R

高中英语3500词是什么

高中英语3500词是一款纯前端、无需安装的浏览器背单词工具。它内置高考核心词汇,采用卡片式记忆设计,支持释义隐藏、朗读、收藏标记和进度统计,所有学习状态都保存在浏览器本地。

核心功能

  • 内置高考词汇库:覆盖高中英语 3500 核心词,打开即用,无需上传词表。
  • 卡片式记忆:大字显示单词,点击卡片或按空格即可显示/隐藏中文释义。
  • 顺序与随机模式:支持顺序背诵和随机抽词,一键切换复习方式。
  • 朗读发音:基于 Web Speech API,支持单词朗读、语速调节和语音选择。
  • 自动朗读设置:可开启切换单词时自动朗读、显示释义时自动朗读。
  • 收藏/标为不熟:遇到重点或不会的单词,按 S 或点击星标收藏,便于集中复习。
  • 仅看收藏过滤:开启过滤后只显示已收藏单词,针对性巩固薄弱词汇。
  • 显示释义后自动下一个:可设置延迟时间,自动推进到下一张卡片。
  • 单词列表与搜索:侧滑单词列表支持按英文或中文释义快速搜索跳转。
  • 进度统计:顶部显示当前进度条和第几个 / 总词数。
  • 学习状态本地保存:收藏、设置、释义显示状态均通过 localStorage 保存,刷新不丢失。
  • 快捷键支持:空格/点击显示释义、← → 翻页、R 随机、P 朗读、A 自动朗读、S 收藏、L 列表、G 设置。

使用方式

  1. 打开 高中英语3500词
  2. 点击卡片或按空格查看释义。
  3. 熟悉的词按 → 或点击"下一个 →"继续;不熟悉的词按 S 收藏。
  4. 需要听发音时,按 P 或点击 "🔊 朗读"。
  5. 想针对性复习时,打开设置开启"仅显示收藏"。

Read Aloud 是什么

Read Aloud 是一款纯前端、无需上传文本的浏览器朗读工具。它基于 Web Speech API 实现,全部文本处理与语音合成都在本地完成,适合朗读英文范文、中文小说、演讲稿、技术文档等长文本。

核心功能

  • 本地朗读:文本不离开浏览器,无上传、无服务端、保护隐私。
  • 自动分句:按段落和标点自动切分长文,避免单次文本过长被浏览器截断。
  • 当前句高亮:朗读时文本区切换为阅读视图,当前句子高亮并自动滚动到视野中央。
  • 点击跳转播放:在阅读视图中单击任意句子,即可从该句开始播放。
  • 语速与音调调节:支持 0.5x ~ 2.0x 语速调节,以及 0.5 ~ 2.0 的音调调节。
  • 多语音选择:自动根据语言选择系统语音,也支持手动切换。
  • 中英文支持:自动检测中英文比例,或手动指定中文 / 英文。
  • 进度与时间显示:实时显示当前句数、总句数和已用时间。

使用方式

  1. 打开 Read Aloud
  2. 将需要朗读的文本粘贴到编辑区。
  3. 点击 ▶ 朗读 开始播放。
  4. 需要暂停时点击 ⏸ 暂停,或点击 ⏹ 停止 结束朗读并恢复编辑。

快捷键

  • 在编辑区内按 Ctrl / ⌘ + Space:播放 / 暂停。
  • 焦点在编辑区外时,按 Space:快速播放 / 暂停。
  • Esc:关闭帮助窗口。

浏览器兼容性

Read Aloud 依赖 Web Speech API,建议使用 Safari、Chrome、Edge 等

极简长文朗读器是什么

极简长文朗读器是一款基于浏览器 Web Speech API 的本地文本朗读工具。它采用左右分屏的极简设计:左侧输入文本,右侧实时生成可朗读的阅读视图,全部处理都在浏览器内完成,无需上传、无需后端。

核心功能

  • 左右分屏实时同步:左侧编辑文本,右侧阅读视图即时解析渲染,边写边读。
  • 中英文智能识别:自动判断文本为中文还是英文,也可手动选择语种。
  • 按句高亮:朗读时当前句子以黄色高亮显示,并自动滚动到视野中央。
  • 点击跳转播放:点击阅读视图中的任意句子,即可从该句开始朗读。
  • 语速调节:支持 0.5x ~ 2.0x 语速调节,拖动滑块即可实时生效。
  • 发音人选择:自动加载系统语音,支持手动切换中英文发音人。
  • 防中断保活:针对部分浏览器长段朗读容易中断的问题,内置保活机制。
  • 内置范例:一键加载中英文示例文本,快速体验朗读效果。

与 Read Aloud 的区别

特性 极简长文朗读器 Read Aloud
界面 左右分屏,实时同步 编辑/阅读视图切换
分句 按中英文标点实时切分 段落 + 句子双层切分
音调调节 支持
进度显示 句数 / 时间
设计 极简 Tailwind 风格 卡片式工具风格

可以根据个人喜好选择更适合自己的一款,两者都是纯浏览器本地运行。