1 篇文章带有标签 “DeepSeek-OCR”

DeepSeek-OCR 研究与实测

  • 方法: 遵循 Vary,使用紧凑语言模型和下一词元预测(next token prediction)框架进行训练。
  • 数据: 使用所有 OCR 1.0OCR 2.0 数据,以及从 LAION 数据集中采样的 1 亿(100M)通用数据。
  • 训练细节: 训练 2 个 epoch,批次大小为 1280,使用 AdamW 优化器,配合余弦退火(cosine annealing)调度器,学习率为 5e-5。训练序列长度为 4096

时机: DeepEncoder 准备好后进行。 数据: 使用训练数据。 并行策略: 采用流水线并行(PP),模型被分为 4 部分: DeepEncoder (PP0, PP1): PP0: 包含 SAM 和压缩器(作为视觉词元分析器),参数冻结。 PP1: 包含 CLIP 部分(作为输入嵌入层),权重不冻结,参与训练。 语言模型 (PP2, PP3): DeepSeek3B-MoE 共有 12 层,PP2 和 PP3 各放置 6 层。 硬件与批次: 使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批次大小为 640。 优化器: 使用 AdamW 优化器,配合基于步数的调度器(step-based scheduler),初始学习率为 3e-5。