DeepSeek-R1

已发布精选

通过纯强化学习达到 OpenAI o1 级别推理能力

发布于 2025.01.20

概述

DeepSeek-R1 是一个革命性的推理模型，通过纯强化学习达到了 OpenAI o1 的性能水平，无需在思维链数据上进行监督微调。它代表了 AI 推理能力的重大突破。

主要特性

推理基准测试媲美 OpenAI o1
纯强化学习，无需 CoT 数据 SFT
MIT 许可证开源
提供蒸馏版本（1.5B 到 70B）
涌现推理行为

技术规格

参数量: 671B (based on V3)
架构: MoE + RL Reasoning
上下文长度: 128K tokens
基准测试: AIME 2024: 79.8%, MATH-500: 97.3%
许可证: MIT License

资源

研究论文 GitHub Hugging Face API