模型。评估结果表明,蒸馏的较小密集模型在基准上表现非常出色。DeepSeekR1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分为 72.6%,在 MATH-500 上为 94.3%,在 LiveCodeBench 上为 57.2%。这些结果明显优于以前的开源模型,可与 o1-mini 相媲美。DeepSeek 开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点给社区。