DeepSeek-OCR 研究与实测
DeepSeek-OCR:上下文光学压缩
DeepSeek-OCR 架构


训练数据
数据组成

数据标注

训练流程
训练 DeepEncoder
- 方法: 遵循
Vary,使用紧凑语言模型和下一词元预测(next token prediction)框架进行训练。 - 数据: 使用所有
OCR 1.0和OCR 2.0数据,以及从LAION数据集中采样的1 亿(100M)通用数据。 - 训练细节: 训练
2个 epoch,批次大小为1280,使用AdamW 优化器,配合余弦退火(cosine annealing)调度器,学习率为5e-5。训练序列长度为4096。
训练 DeepSeek-OCR
- 时机: DeepEncoder 准备好后进行。
- 数据: 使用训练数据。
- 并行策略: 采用
流水线并行(PP),模型被分为 4 部分:- DeepEncoder (PP0, PP1):
- PP0: 包含
SAM 和压缩器(作为视觉词元分析器),参数冻结。 - PP1: 包含
CLIP部分(作为输入嵌入层),权重不冻结,参与训练。
- PP0: 包含
- 语言模型 (PP2, PP3): DeepSeek3B-MoE 共有 12 层,PP2 和 PP3 各放置 6 层。
- DeepEncoder (PP0, PP1):
- 硬件与批次: 使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批次大小为
640。 - 优化器: 使用
AdamW 优化器,配合基于步数的调度器(step-based scheduler),初始学习率为3e-5。 - 训练速度: 纯文本数据:900 亿词元/天(90B tokens/day);多模态数据:700 亿词元/天(70B tokens/day)。


