Scaling Law 向后训练、推理阶段转移。英伟达 CEO 黄仁勋在 CES 2025 大会中提出,大模型主要有三个阶段:预训练、后训练和推理(inference)。其中,预训练阶段的 Scaling Law 是前文所讨论的内容。OpenAI 的 o1 推理模型的推出带来了LLM 推理能力的重大飞跃,让研究者开始关注大模型另外两个阶段的 Scaling Law,分别为:后训练阶段的强化学习 Scaling Law(RL Scaling Law)和推理阶段的Inference Scaling Law(也称为 Test-Time Compute)。在论文《Chain-of-thought prompting elicits reasoning in large language models》中,研究者发现,随着强化学习的 增加(训练时间计算)和思考时间的增加(测试时间计算),o1 的性能会持续提高。这意味着强化学习(RL)与测试时间(Test time)也存在 Scaling Law。