DeepSeek-V2

已发布

革命性的 MoE 模型，2360 亿参数，采用 MLA 架构

发布于 2024.05.06

概述

DeepSeek-V2 是一个强大的混合专家（MoE）语言模型，总参数量 2360 亿，每个 token 激活 210 亿参数。它引入了创新的多头潜在注意力（MLA）架构，实现高效推理。

主要特性

2360 亿总参数（210 亿激活）
多头潜在注意力（MLA）
DeepSeekMoE 架构
128K 上下文长度
推理成本大幅降低

技术规格

参数量: 236B (21B activated)
架构: MoE + MLA
上下文长度: 128K tokens
训练数据量: 8.1T tokens
许可证: DeepSeek License

资源

研究论文 GitHub Hugging Face API