DeepSeek-OCR

已发布

专注于文档理解和 OCR 的视觉语言模型

发布于 2025.10.20

概述

DeepSeek-OCR 是一个专为视觉文本压缩和文档理解设计的视觉语言模型。它在文档转 Markdown、OCR 任务、图表解析和图像描述方面表现出色,具有高精度和高效率。

主要特性

  • 文档转 Markdown
  • 高精度 OCR,保留布局
  • 图表解析
  • 多分辨率模式(512-1280px)
  • 文本定位能力
  • A100 上约 2500 tokens/s 推理速度

技术规格

架构
Vision-Language Model
上下文长度
8K tokens
许可证
MIT License

资源