7 篇文章带有标签 “vlm”

2026年6月27日星期六

MinerU - 高精度文档解析引擎，为 LLM / RAG / Agent 提供结构化数据

MinerU 是 OpenDataLab 开源的一款高精度文档解析引擎，能把 PDF、DOCX、PPTX、XLSX、图片和网页转换成结构化的 Markdown 或 JSON，方便下游 LLM、RAG 和 Agent 工作流直接消费。

What｜是什么

MinerU 的定位是“为 LLM 准备数据”的文档解析基础设施。它支持多种输入格式，输出则强调人类阅读顺序和语义结构：

输入：PDF、图片、DOCX、PPTX、XLSX、网页
输出：Markdown、JSON（按阅读顺序）、多模态 Markdown，以及可可视化的中间格式
核心能力：自动去除页眉页脚页码、识别多栏与复杂版式、提取表格/图片/公式、公式转 LaTeX、表格转 HTML、OCR 识别 109 种语言
提供 CLI、FastAPI、Gradio WebUI、Docker 和 mineru-router 等多种使用形态

Why｜为什么值得关注

MinerU 诞生于 InternLM 预训练过程中的实际需求，最初是为了解决科技文献中的符号转换问题。相比直接购买商业文档解析服务，它的几个亮点很突出：

VLM + OCR 双引擎：pipeline 后端快且省资源，vlm-engine / hybrid-engine 后端精度更高，可按场景选择
全格式原生解析：3.0 以后陆续加入 DOCX、PPTX、XLSX 原生解析，避免先转 PDF 再解析带来的信息损失
许可更友好：从 AGPLv3 切换到基于 Apache 2.0 的 MinerU Open Source License，降低了商业部署门槛
数据说话：pipeline 后端在 OmniDocBench v1.6 上整体得分 86.47，hybrid 后端可达 95.39（high 模式）

2026-06-27 09:09

2026年1月3日星期六

2026 年飞马图像生成

提示词（DeepSeek）

2026年新年来了，生成一张红色的飞马图像。以这个为基础写个生成图像的提示词

一只雄伟的飞马（天马）在绚烂的夜空中展翅翱翔，周围环绕着金色与橙红色的新年烟火，鬃毛与翅膀边缘散发柔和光芒，背景为深红色星空与闪烁的星光，风格融合奇幻艺术与节日喜庆，色彩以红色、金色为主，充满动态与希望感，4K高清，细节精致，史诗光影。

生成结果

ChatGPT

豆包

Gemini

Grok

可灵 2.1

龙猫

MiniMax

千问

元宝

2026-01-03 08:00

图像生成 vlm 飞马 image-generation chatgpt doubao gemini kling ai-image-generation

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

deepseek-ocr ocr document-understanding vlm vision-language-model image-to-markdown deepseek transformers

2025年9月6日星期六

Google Nano Banana

输入图像	Google AI Studio	Gemini 2.5 Flash
	Generate an image of a banana wearing a costume.	生成一张香蕉穿戏服的图片。

		这是一张有破损的绝缘子的图像，在其它部位生成类似的训练样本

		生成一个鸟窝在杆塔上

	生成一寸和两寸的学生照，要求蓝色背景，衣服换成校服

	1. 复古优雅风：想象一下，带有荷叶边和蕾丝的维多利亚时代风格长裙，搭配精致的头饰和手套。 2. 未来科技感：尝试一些银色或金属质感的服装，线条简洁，可能还有一些发光的元素，展现未来主义的时尚。 3. 波西米亚风情：飘逸的印花长裙，流苏点缀，配上宽檐帽和层叠的项链，打造自由奔放的感觉。 4. 街头潮流：宽松的连帽衫、破洞牛仔裤、时尚运动鞋，再搭配一顶棒球帽，展现酷炫的街头风格。 5. 古典仙气风：轻纱曼舞的汉服或仙女裙，色彩柔和，刺绣精致，营造出超凡脱俗的意境。 6. 职业干练风：修身的西装外套，搭配衬衫和铅笔裙，展现自信和专业的职场女性形象。 7. 运动休闲风：舒适的运动套装，搭配时尚的运动鞋，既适合健身，也适合日常休闲。 8. 哥特暗黑风：黑色蕾丝、丝绒材质的礼服，搭配银饰和深色妆容，营造出神秘而华丽的哥特式美感。 9. 异域民族风：尝试一些具有民族特色的服装，比如印度的纱丽，日本的和服，或者非洲的蜡染服装，展现多元文化的魅力。

2025-09-06 08:00

nano-banana google gemini-2.5-flash google-ai-studio vlm image-generation ai

2025年7月5日星期六

本文档介绍了多模态大模型GLM-4.1V-Thinking，这是一个基于 GLM-4-9B-0414 的开源视觉语言模型，通过强化学习显著提升了其性能。文档详细阐述了该模型在设计图转代码（Design2Code）任务上的卓越表现，能将设计图转换为高质量的HTML/CSS代码，并提供了与Qwen-2.5-VL-32B-Instruct的对比示例。此外，资源还展示了如何通过智谱API免费使用GLM-4.1V-Thinking进行图像识别，并给出了一个安全检测系统的代码示例，该系统能够识别图像中的火灾、烟雾以及人员安全帽佩戴情况，并进行坐标标注，强调了模型在实际应用中的潜力。

模型介绍

基于 GLM-4-9B-0414 基座模型，我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ，引入思考范式，通过课程采样强化学习 RLCS（Reinforcement Learning with Curriculum Sampling）全面提升模型能力，达到 10B 参数级别的视觉语言模型的最强性能，在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 论文 GLM-4.1V-Thinking：通过可扩展强化学习实现通用多模态推理

模型文件

在线体验

基准性能

2025-07-05 10:00

glm-4.1v-thinking glm-4v multimodal vlm design2code zhipuai python safety-detection 火灾安全帽

2025年6月17日星期二

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南，涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本（如 3B 和 7B Instruct）的模型，还提供了安装和启动模型的命令行指令。此外，文档还展示了如何通过 cURL 命令测试模型，并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码，该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测，支持本地和网络图片。

Qwen2.5-VL

模型架构

Qwen2.5 VL

模型性能

Qwen2.5 VL Paper

魔搭下载

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.

2025-06-17 08:00

qwen2.5-vl qwen multimodal-llm vlm vllm modelscope openai-api vision-language-model 多模态安全检测

2025年1月31日星期五

OSWorld：在真实计算机环境中为开放式任务进行多模态代理基准测试

参考

Abstract（摘要）

Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability.

2025-01-31 10:00

osworld benchmark agent multimodal-agent vlm llm gui cli pyautogui

7 篇文章带有标签 “vlm”

2026年6月27日 星期六

MinerU - 高精度文档解析引擎，为 LLM / RAG / Agent 提供结构化数据 🔗

2026年1月3日 星期六

2026 年飞马图像生成

2025年10月24日 星期五