DeepSeek-OCR

已发布

专注于文档理解和 OCR 的视觉语言模型

发布于 2025.10.20

概述

DeepSeek-OCR 是一个专为视觉文本压缩和文档理解设计的视觉语言模型。它在文档转 Markdown、OCR 任务、图表解析和图像描述方面表现出色，具有高精度和高效率。

主要特性

文档转 Markdown
高精度 OCR，保留布局
图表解析
多分辨率模式（512-1280px）
文本定位能力
A100 上约 2500 tokens/s 推理速度

技术规格

架构: Vision-Language Model
上下文长度: 8K tokens
许可证: MIT License

资源

GitHub Hugging Face