DeepSeek-R1

已发布精选

通过纯强化学习达到 OpenAI o1 级别推理能力

发布于 2025.01.20

概述

DeepSeek-R1 是一个革命性的推理模型,通过纯强化学习达到了 OpenAI o1 的性能水平,无需在思维链数据上进行监督微调。它代表了 AI 推理能力的重大突破。

主要特性

  • 推理基准测试媲美 OpenAI o1
  • 纯强化学习,无需 CoT 数据 SFT
  • MIT 许可证开源
  • 提供蒸馏版本(1.5B 到 70B)
  • 涌现推理行为

技术规格

参数量
671B (based on V3)
架构
MoE + RL Reasoning
上下文长度
128K tokens
基准测试
AIME 2024: 79.8%, MATH-500: 97.3%
许可证
MIT License

资源