9 篇文章带有标签 “ocr”

2026年6月27日星期六

MinerU - 高精度文档解析引擎，为 LLM / RAG / Agent 提供结构化数据

MinerU 是 OpenDataLab 开源的一款高精度文档解析引擎，能把 PDF、DOCX、PPTX、XLSX、图片和网页转换成结构化的 Markdown 或 JSON，方便下游 LLM、RAG 和 Agent 工作流直接消费。

What｜是什么

MinerU 的定位是“为 LLM 准备数据”的文档解析基础设施。它支持多种输入格式，输出则强调人类阅读顺序和语义结构：

输入：PDF、图片、DOCX、PPTX、XLSX、网页
输出：Markdown、JSON（按阅读顺序）、多模态 Markdown，以及可可视化的中间格式
核心能力：自动去除页眉页脚页码、识别多栏与复杂版式、提取表格/图片/公式、公式转 LaTeX、表格转 HTML、OCR 识别 109 种语言
提供 CLI、FastAPI、Gradio WebUI、Docker 和 mineru-router 等多种使用形态

Why｜为什么值得关注

MinerU 诞生于 InternLM 预训练过程中的实际需求，最初是为了解决科技文献中的符号转换问题。相比直接购买商业文档解析服务，它的几个亮点很突出：

VLM + OCR 双引擎：pipeline 后端快且省资源，vlm-engine / hybrid-engine 后端精度更高，可按场景选择
全格式原生解析：3.0 以后陆续加入 DOCX、PPTX、XLSX 原生解析，避免先转 PDF 再解析带来的信息损失
许可更友好：从 AGPLv3 切换到基于 Apache 2.0 的 MinerU Open Source License，降低了商业部署门槛
数据说话：pipeline 后端在 OmniDocBench v1.6 上整体得分 86.47，hybrid 后端可达 95.39（high 模式）

2026-06-27 09:09

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

deepseek-ocr ocr document-understanding vlm vision-language-model image-to-markdown deepseek transformers

2025年2月23日星期日

We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately.

2025-02-23 10:00

qwen2.5-vl qwen 多模态 vision-language-model ocr document-parsing video-understanding visual-grounding agent

2024年6月11日星期二

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

总结

相比 CogVLM2 能力还是不如。

识别手写有问题
识别复杂表格有问题
识别化学的答案有问题

文字识别

识别中文

提示词：输出图像中的文字

贵公司被认为中标人。中标价格为：307.6万元。请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料（包括但不限于法定代表人授权书、技术规范、技术图纸等），并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。请贵公司收到本中标通知书后，签收并速回函确认。

❌ 漏了 确
👍 括号 （） 识别成全角

识别手写英文

提示词：识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

2024-06-11 08:00

glm-4v-9b glm multimodal vision-language-model ocr text-recognition table-recognition document-understanding llm

2024年5月24日星期五

Phi-3-vision-128k-instruct 微软开源多模态大模型

Phi-3-vision-128k-instruct

Phi-3 Vision 是一个轻量级、最先进的开放多模态模型，基于数据集构建，其中包括合成数据和经过过滤的公开网站，重点关注文本和视觉方面的高质量推理密集数据。该模型属于 Phi-3 模型系列，多模式版本可支持 128K 上下文长度（以 Token 为单位）。该模型经历了严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。

模型参数 4B。

预期用途

主要用例

该模型旨在广泛用于英语商业和研究用途。该模型为通用人工智能系统和应用程序提供了视觉和文本输入功能，这些系统和应用程序需要

内存/计算受限的环境；
延迟限制场景；
一般图像理解；
光学字符识别；
图表和表格的理解。

我们的模型旨在加速对高效语言和多模态模型的研究，作为生成人工智能驱动功能的构建块。

用例注意事项

我们的模型并非针对所有下游目的而专门设计或评估。开发人员在选择用例时应考虑语言模型的常见限制，并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性，特别是对于高风险场景。开发人员应了解并遵守与其用例相关的适用法律或法规（包括隐私、贸易合规法等）。

Microsoft_Phi-3-Vision-128k Space

手写文字识别

提示词：对图像文字进行识别

这段文字是一个人的自己写作，表达了对学生在学校和家庭生活中的看法。

提示词：这张图片上写了什么？

2024-05-24 08:00

phi3 phi-3-vision ocr llm mllm microsoft vision-language image-understanding

2024年5月23日星期四

MiniCPM-Llama3-V 2.5 端侧可用的 GPT-4V 级多模态大模型

MiniCPM-Llama3-V 2.5

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本模型，基于 SigLip-400M 和 Llama3-8B-Instruct 构建，共 8B 参数量，相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括：

🔥 领先的性能。 MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。

💪 优秀的 OCR 能力。 MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。基于近期用户反馈建议，MiniCPM-Llama3-V 2.5 增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。

2024-05-23 08:00

minicpm-v ocr llama3 llm mllm openbmb 端侧部署 vision-language multimodal

2024年5月22日星期三

CogVLM2 智谱开源多模态大模型

CogVLM2

在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。
支持 8K 文本长度。
支持高达 1344 * 1344 的图像分辨率。
提供支持中英文双语的开源模型版本。

您可以在下表中看到 CogVLM2 系列开源模型的详细信息：

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model
体验链接	📙 Official Page	📙 Official Page 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2-Llama3中文问答

总结能力非常强大 👍 OCR 已经成为基础能力。包含印刷、手写、中文、英文。图像描述。基于图像问答。信息提取。包含保单、车牌、火车票、手机充值。表格识别。包含复杂表格。

2024-05-22 08:00

cogvlm2 ocr llama3 llm mllm vision-language zhipu image-understanding text-recognition

2023年10月9日星期一

开源 OCR 引擎基准测试

OCR 引擎

EasyOCR

EasyOCR 支持 80+ 语言。

Abaza = 'abq'
Adyghe = 'ady'
Afrikaans = 'af'
Angika = 'ang'
Arabic = 'ar'
Assamese = 'as'
Avar = 'ava'
Azerbaijani = 'az'
Belarusian = 'be'
Bulgarian = 'bg'
Bihari = 'bh'
Bhojpuri = 'bho'
Bengali = 'bn'
Bosnian = 'bs'
Simplified_Chinese = 'ch_sim'
// ...

安装

pip install torch==2.0.1 torchvision==0.15.2 -i https://download.pytorch.org/whl/cpu
pip install easyocr

代码示例 import easyocr languages = ['ch_sim', 'en'] model = easyocr.

2023-10-09 08:00

ocr computer-vision easyocr paddleocr tesseract benchmarks docker python debugging

2021年9月17日星期五

使用PaddleOCR进行文字识别

安装

pip install paddleocr

测试

import cv2
import numpy as np

from paddleocr import PaddleOCR


ocr = PaddleOCR(use_angle_cls=True)
image_path = 'test.jpg'
img = cv2.imread(image_path)

img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
img_gray1 = img_gray[:,:, np.newaxis]
img_gray3 = np.concatenate([img_gray1, img_gray1, img_gray1], axis=-1)

texts = ocr.ocr(img_gray3)
for text in texts:
    """
    box   坐标1　　　　　　　　　坐标2
          坐标4　　　　　　　　　坐标3
    """
    box = text[0]
    t = text[1][0]
    score = text[1][1]

可视化（图像上画出文本和得分） import os import shutil import cv2 import numpy as np import uuid from PIL import ImageFo

2021-09-17 00:00

python paddleocr paddlepaddle opencv computer-vision ocr image-processing deep-learning inference

9 篇文章带有标签 “ocr”

2026年6月27日 星期六

2025年10月24日 星期五

2025年2月23日 星期日

2024年6月11日 星期二

2024年5月24日 星期五

2024年5月23日 星期四

2024年5月22日 星期三

2023年10月9日 星期一

2021年9月17日 星期五