MoE 混合专家模型(Mixture of Experts),由门控网络(GateNet)和多个专家网络(Experts)组成。每个专家都是一个单独的神经网络模型。训练中,输入数据由门控网络分配给最适合的专家模型,因此每个阶段只有部分专家的参数被激活,从而减少了算力的消耗。例如,DeepSeek-V2-Lite 模型参数量为 16B,但每个 token 仅激活 2.4B 个参数;MiniMax-01 模型内使用 32 个专家模块,虽然总参数量达到了 4560 亿,但每个 token 激活的参数仅为 45.9 亿。