DeepSeek-V3

已发布精选

革命性 6710 亿 MoE 模型,以极低成本媲美 GPT-4o

发布于 2024.12.26

概述

DeepSeek-V3 是一个突破性的 6710 亿参数 MoE 模型,以极低的训练成本达到了与领先闭源模型相当的性能。它引入了无辅助损失的负载均衡和多 token 预测技术。

主要特性

  • 6710 亿总参数(370 亿激活)
  • 训练成本仅 558 万美元
  • 无辅助损失负载均衡
  • 多 token 预测(MTP)
  • FP8 混合精度训练
  • 多项基准超越 Claude 3.5 Sonnet

技术规格

参数量
671B (37B activated)
架构
MoE + MLA + MTP
上下文长度
128K tokens
训练数据量
14.8T tokens
基准测试
MMLU 88.5%, HumanEval 82.6%

资源