DeepSeek-V2

已发布

革命性的 MoE 模型,2360 亿参数,采用 MLA 架构

发布于 2024.05.06

概述

DeepSeek-V2 是一个强大的混合专家(MoE)语言模型,总参数量 2360 亿,每个 token 激活 210 亿参数。它引入了创新的多头潜在注意力(MLA)架构,实现高效推理。

主要特性

  • 2360 亿总参数(210 亿激活)
  • 多头潜在注意力(MLA)
  • DeepSeekMoE 架构
  • 128K 上下文长度
  • 推理成本大幅降低

技术规格

参数量
236B (21B activated)
架构
MoE + MLA
上下文长度
128K tokens
训练数据量
8.1T tokens
许可证
DeepSeek License

资源