5 篇文章带有标签 “vision-language-model”

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

2025年6月17日星期二

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南，涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本（如 3B 和 7B Instruct）的模型，还提供了安装和启动模型的命令行指令。此外，文档还展示了如何通过 cURL 命令测试模型，并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码，该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测，支持本地和网络图片。

Qwen2.5-VL

模型架构

Qwen2.5 VL

模型性能

Qwen2.5 VL Paper

魔搭下载

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.

2025-06-17 08:00

qwen2.5-vl qwen multimodal-llm vlm vllm modelscope openai-api vision-language-model 多模态安全检测

2025年2月23日星期日

Qwen2.5-VL Technical Report

Abstract（摘要）

We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately.

2025-02-23 10:00

qwen2.5-vl qwen 多模态 vision-language-model ocr document-parsing video-understanding visual-grounding agent

2025年2月18日星期二

构建自主答题的智能体

目标

这里想探索使用多模态大模型答题的技术方案，包含单选题、多选题、判断题，最终构建自主答题的智能体。

工作流程：🏞️ -> MLM（多模态大模型）-> 答案

📝思路一

直接使用多模态大模型读题（转成文字），然后检索答案，把题和答案组合的提示词输入给语言大模型。

我使用了 Ollama 调用多模态大模型 minicpm-v:8b 来生成文字。llava:7b 的效果不好。

代码示例：

import ollama

response = ollama.chat(
	model="minicpm-v:8b",
	messages=[
		{
			'role': 'user',
			'content': '读取图像中的题。',
			'images': ['ti.png']
		}
	]
)

print(response['message']['content'])

2025-02-18 10:00

安规 agent ollama 多模态 llm prompt-engineering minicpm-v vision-language-model

2024年6月11日星期二

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

总结

相比 CogVLM2 能力还是不如。

识别手写有问题
识别复杂表格有问题
识别化学的答案有问题

文字识别

识别中文

提示词：输出图像中的文字

贵公司被认为中标人。中标价格为：307.6万元。请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料（包括但不限于法定代表人授权书、技术规范、技术图纸等），并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。请贵公司收到本中标通知书后，签收并速回函确认。

❌ 漏了 确
👍 括号 （） 识别成全角

识别手写英文

提示词：识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

2024-06-11 08:00

glm-4v-9b glm multimodal vision-language-model ocr text-recognition table-recognition document-understanding llm

5 篇文章带有标签 “vision-language-model”

2025年10月24日 星期五

DeepSeek-OCR 研究与实测

2025年6月17日 星期二

探索多模态大模型 Qwen2.5-VL

2025年2月23日 星期日