DeepSeek-R1
已发布精选通过纯强化学习达到 OpenAI o1 级别推理能力
发布于 2025.01.20
概述
DeepSeek-R1 是一个革命性的推理模型,通过纯强化学习达到了 OpenAI o1 的性能水平,无需在思维链数据上进行监督微调。它代表了 AI 推理能力的重大突破。
主要特性
- 推理基准测试媲美 OpenAI o1
- 纯强化学习,无需 CoT 数据 SFT
- MIT 许可证开源
- 提供蒸馏版本(1.5B 到 70B)
- 涌现推理行为
技术规格
- 参数量
- 671B (based on V3)
- 架构
- MoE + RL Reasoning
- 上下文长度
- 128K tokens
- 基准测试
- AIME 2024: 79.8%, MATH-500: 97.3%
- 许可证
- MIT License