DeepSeek-V3
已发布精选革命性 6710 亿 MoE 模型,以极低成本媲美 GPT-4o
发布于 2024.12.26
概述
DeepSeek-V3 是一个突破性的 6710 亿参数 MoE 模型,以极低的训练成本达到了与领先闭源模型相当的性能。它引入了无辅助损失的负载均衡和多 token 预测技术。
主要特性
- 6710 亿总参数(370 亿激活)
- 训练成本仅 558 万美元
- 无辅助损失负载均衡
- 多 token 预测(MTP)
- FP8 混合精度训练
- 多项基准超越 Claude 3.5 Sonnet
技术规格
- 参数量
- 671B (37B activated)
- 架构
- MoE + MLA + MTP
- 上下文长度
- 128K tokens
- 训练数据量
- 14.8T tokens
- 基准测试
- MMLU 88.5%, HumanEval 82.6%