DeepSeek-V3

已发布精选

革命性 6710 亿 MoE 模型，以极低成本媲美 GPT-4o

发布于 2024.12.26

概述

DeepSeek-V3 是一个突破性的 6710 亿参数 MoE 模型，以极低的训练成本达到了与领先闭源模型相当的性能。它引入了无辅助损失的负载均衡和多 token 预测技术。

主要特性

6710 亿总参数（370 亿激活）
训练成本仅 558 万美元
无辅助损失负载均衡
多 token 预测（MTP）
FP8 混合精度训练
多项基准超越 Claude 3.5 Sonnet

技术规格

参数量: 671B (37B activated)
架构: MoE + MLA + MTP
上下文长度: 128K tokens
训练数据量: 14.8T tokens
基准测试: MMLU 88.5%, HumanEval 82.6%

资源

研究论文 GitHub Hugging Face API