transformers - 标签 - 军舰的日志

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型，专为全面的多模式感知设计，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

概览

简介

Qwen 2.5-Omni是一个端到端的多模态大语言模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式的方式生成文本和自然语音响应。

主要特点

全能创新架构：我们提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

2025-06-09 10:00

qwen2.5-omni qwen multimodal llm speech-recognition speech-synthesis transformers hugging-face thinker-talker tmrope

2024年9月3日星期二

大模型推理需要多少显存？

基于 Qwen2 效率评估计算大模型推理需要的显存.xlsx
这里计算的显存都是指使用 transformers 库进行推理，对于 vLLM，由于 GPU 显存预分配，实际显存使用难以评估。

计算加载模型需要的显存

模型参数（B）	参数使用的位数（bits）	加载需要显存（G）
0.5	16	1
1.5	16	3
7	16	14
9	16	18
22	16	44
72	16	144

计算支持不同长度的上下文需要的显存

2024-09-03 08:00

llm gpu vram inference qwen2 transformers 显存计算大模型推理

2024年4月19日星期五

Meta Llama 3

Llama3

模型

Meta-Llama-3-8b: 8B 基础模型
Meta-Llama-3-8b-instruct: 8B 基础模型的指令调优版
Meta-Llama-3-70b: 70B 基础模型
Meta-Llama-3-70b-instruct: 70B 基础模型的指令调优版
Llama Guard 2: Llama Guard 2 是基于 Llama 3 8B 微调的，为生产环境设计的，能够对大语言模型的输入（即提示）和响应进行分类，以便识别潜在的不安全内容。

下载

数据集

HuggingFaceH4/no_robots

No Robots 是由熟练的人类注释者创建的包含 10,000 条指令和演示的高质量数据集。该数据可用于监督微调（SFT），使语言模型更好地遵循指令。 No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集进行建模的。

介绍 Llama 3 最大的变化是采用了新的 Tokenizer，将词汇表大

2024-04-19 08:00

llama-3 meta ollama llm langchain transformers hugging-face llamaguard responsible-ai open-source

2024年3月16日星期六

Open Source Models with Hugging Face

Natural Language Processing (NLP)

安装依赖库

pip install transformers

Conversational

blenderbot-400M-distill

2024-03-16 08:00

huggingface transformers gradio nlp asr tts sentence-embeddings object-detection zero-shot-classification machine-learning

2024年2月15日星期四

Hugging Face NLP Course

NLP Course

1. TRANSFORMER 模型

自然语言处理

NLP 是语言学和机器学习交叉领域，专注于理解与人类语言相关的一切。 NLP 任务的目标不仅是单独理解单个单词，而且是能够理解这些单词的上下文。

以下是常见 NLP 任务的列表：

对整个句子进行分类:
- 获取评论的情绪
- 检测电子邮件是否为垃圾邮件
- 确定句子在语法上是否正确
- 确定两个句子在逻辑上是否相关
对句子中的每个词进行分类:
- 识别句子的语法成分（名词、动词、形容词）
- 识别句子的命名实体（人、地点、组织）
生成文本内容:
- 用自动生成的文本完成提示
- 用屏蔽词填充文本中的空白
从文本中提取答案:
- 给定问题和上下文，根据上下文中提供的信息提取问题的答案
从输入文本生成新句子:
- 将文本翻译成另一种语言
- 总结文本
语音识别:
- 生成音频样本的转录
计算机视觉:
- 生成图像描述
- 目标检测

Transformers 能做什么？

Transformers 库中最基本的对象是 pipeline() 函数。它将模型与其必要的预处理和后处理步骤连接起来，使我们能够通过直接输入任何文本并获得最终的答案：

2024-02-15 08:00

huggingface nlp transformers transfer-learning fine-tuning pretraining language-models text-generation machine-learning

2024年1月4日星期四

DeepSeek Coder: Let the Code Write Itself

DeepSeek Coder

Code LLM 排行榜

Leaderboard

Big Code Models Leaderboard

选择了两个通用基准来评估:

HumanEval: 用于测量从文档字符串合成程序的功能正确性的基准。它由 164 个 Python 编程问题组成。
MultiPL-E: 将 HumanEval 翻译为 18 种编程语言。

下面显示了 OctoCoder vs Base HumanEval prompt 的示例，在这里可以找到它。

CanAiCode Leaderboard

Coding LLMs Leaderboard

LLM 排行榜

Open LLM Leaderboard

LLM-Perf Leaderboard

介绍 DeepSeek Coder 由一系列代码语言模型组成，每个模型都在 2T 令牌上从头开始训练，其中 87% 是英文和中文的代码，13% 是自然语言。我们提供各种尺寸的代码模型，范围从 1B 到 33B 版本。

2024-01-04 08:00

deepseek-coder code-llm leaderboard humaneval multipl-e code-completion code-infilling fine-tuning quantization transformers

2023年12月20日星期三

Microsoft Phi-2

Phi-2: The surprising power of small language models

microsoft/phi-2

创建虚拟环境

conda create -n huggingface python==3.10.9
conda activate huggingface

安装依赖包

conda install pytorch torchvision -c pytorch
pip install transformers
pip install einops

下载模型

huggingface-cli download microsoft/phi-2 --local-dir microsoft/phi-2 --local-dir-use-symlinks False

代码 import torch from transformers import AutoModelForCausalLM, AutoTokenizer torch.set_default_device("mps") model = AutoModelForCausalLM.

2023-12-20 10:00

phi-2 llm hugging-face pytorch transformers microsoft apple-silicon mps small-language-models

2023年11月9日星期四

Transformers Pipeline

使用 Transformers 的 Pipeline 进行推理

安装依赖包

pip install datasets evaluate transformers[sentencepiece]

英文情感分类

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

2023-11-09 08:00

transformers pipeline inference python pytorch machine-learning sentiment-analysis quantization

2023年9月2日星期六

2023年7月18日星期二

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

ChatGLM2-6B

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B 引入了如下新特性：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。

2023-07-18 08:00

chatglm glm macos macbookpro apple hugging-face transformers pytorch apple-silicon quantization

2023年4月30日星期日

Hugging Face 快速入门

Hugging Face

Hugging Face 是所有机器学习任务的大本营。您可以在这里找到开始一项任务所需的内容：演示、用例、模型、数据集等等！

创建和托管很棒的机器学习演示

Solutions

Expert Acceleration Program（专家加速计划）- 加速您的 ML 路线图

从我们屡获殊荣的机器学习专家那里获得指导。我们组建了一个世界一流的团队，帮助客户更快地构建更好的 ML 解决方案。

机器学习的成功取决于为用例找到最佳架构、微调模型并将它们部署到生产环境中。所有这些都需要经验和技能的正确结合。我们的专家加速计划提供必要的技术专长，以实施最先进的技术、做出更好的决策并更快地进入市场。

如何为我的用例微调（fine-tune）模型？哪些基础架构（base architectures）？多少训练数据？

如何优化我的模型以获得最小延迟（latency）？蒸馏（Distillation）。汇编（Compilation）。量化（Quantization）。修剪（Pruning）。我们可以指导您完成每一步。

如何优化我的生产环境？调整您的 CPU、GPU 或 AI 加速器配置以获得最大性能。

如何在 SageMaker 中使用 Transformers？模型并行性（model parallelism）、数据并行性（data parallelism）、部署（deployment）等。

2023-04-30 08:00

hugging-face transformers model-deployment datasets computer-vision nlp audio machine-learning ai

2023年4月22日星期六

ChatGLM-6B 模型基于 P-Tuning v2 微调的自定义数据集

Electrical Safety Work Procedures (电力安全工作规程) 数据

2023-04-22 08:00

chatglm fine-tuning p-tuning-v2 安规 machine-learning llms transformers pytorch

2023年4月13日星期四

在 MacBook Pro M2 Max 上测试 ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。

聊天 ChatGLM-6B

下载

克隆

https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B

下载模型

从 Hugging Face Hub 下载模型

git clone https://huggingface.co/THUDM/chatglm-6b THUDM/chatglm-6b

在国内为了加快下载速度，模型文件可以单独从清华云下载。

2023-04-13 08:00

chatglm glm chatgpt macos macbookpro pytorch transformers fine-tuning local-llms apple

14 篇文章带有标签 “transformers”

2025年10月24日星期五

DeepSeek-OCR 研究与实测

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

2024年9月3日星期二

大模型推理需要多少显存？

2024年4月19日星期五

Meta Llama 3

2024年3月16日星期六

Open Source Models with Hugging Face

2024年2月15日星期四

Hugging Face NLP Course

2024年1月4日星期四

DeepSeek Coder: Let the Code Write Itself

2023年12月20日星期三

Microsoft Phi-2

2023年11月9日星期四

Transformers Pipeline

2023年9月2日星期六

Private GPT

2023年7月18日星期二

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

2023年4月30日星期日

Hugging Face 快速入门

2023年4月22日星期六

ChatGLM-6B 模型基于 P-Tuning v2 微调的自定义数据集

2023年4月13日星期四

在 MacBook Pro M2 Max 上测试 ChatGLM-6B

14 篇文章带有标签 “transformers”

2025年10月24日 星期五

2025年6月9日 星期一

2024年9月3日 星期二

2024年4月19日 星期五

2024年3月16日 星期六

2024年2月15日 星期四

2024年1月4日 星期四

2023年12月20日 星期三

2023年11月9日 星期四

2023年9月2日 星期六

2023年7月18日 星期二

2023年4月30日 星期日

2023年4月22日 星期六

2023年4月13日 星期四

2025年10月24日星期五

2025年6月9日星期一

2024年9月3日星期二

2024年4月19日星期五

2024年3月16日星期六

2024年2月15日星期四

2024年1月4日星期四

2023年12月20日星期三

2023年11月9日星期四

2023年9月2日星期六

2023年7月18日星期二

2023年4月30日星期日

2023年4月22日星期六

2023年4月13日星期四