DeepSeek-OCR
已发布专注于文档理解和 OCR 的视觉语言模型
发布于 2025.10.20
概述
DeepSeek-OCR 是一个专为视觉文本压缩和文档理解设计的视觉语言模型。它在文档转 Markdown、OCR 任务、图表解析和图像描述方面表现出色,具有高精度和高效率。
主要特性
- 文档转 Markdown
- 高精度 OCR,保留布局
- 图表解析
- 多分辨率模式(512-1280px)
- 文本定位能力
- A100 上约 2500 tokens/s 推理速度
技术规格
- 架构
- Vision-Language Model
- 上下文长度
- 8K tokens
- 许可证
- MIT License