展到三维关系,对 Scaling Law 的 数项进行优化;部分算法的改进路线为 LLM 组件的优化,例如 Kimi 使用 Muon 替代一般的 AdamW 优化器, 升优化速率;部分算法尝决 LLM 的遗忘问题,例如 Google 参考大脑 忆过程 出嵌套学习方案,将模型结构和模型参数 练用嵌套学习的 统一化,尝 缓 LLM 的顺行性遗忘,而 DeepSeek 则用视 方案的模糊去平滑 LLM 的遗忘过程, 出 DeepSeek-OCR 模型。算法的改进也是Scaling Law 继续有效的重要原因。