DeepSeek-OCR - 标签 - 军舰的日志

DeepSeek-OCR 研究与实测

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

时机： DeepEncoder 准备好后进行。数据：使用训练数据。并行策略：采用流水线并行（PP），模型被分为 4 部分： DeepEncoder (PP0, PP1)： PP0：包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。 PP1：包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。硬件与批次：使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。优化器：使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。

2025年10月24日 1 分钟 375 字

1 篇文章带有标签 “DeepSeek-OCR”

2025年10月24日星期五

DeepSeek-OCR 研究与实测

1 篇文章带有标签 “DeepSeek-OCR”

2025年10月24日 星期五

DeepSeek-OCR 研究与实测

2025年10月24日星期五