DeepSeek-V2
已发布革命性的 MoE 模型,2360 亿参数,采用 MLA 架构
发布于 2024.05.06
概述
DeepSeek-V2 是一个强大的混合专家(MoE)语言模型,总参数量 2360 亿,每个 token 激活 210 亿参数。它引入了创新的多头潜在注意力(MLA)架构,实现高效推理。
主要特性
- 2360 亿总参数(210 亿激活)
- 多头潜在注意力(MLA)
- DeepSeekMoE 架构
- 128K 上下文长度
- 推理成本大幅降低
技术规格
- 参数量
- 236B (21B activated)
- 架构
- MoE + MLA
- 上下文长度
- 128K tokens
- 训练数据量
- 8.1T tokens
- 许可证
- DeepSeek License