这里存在 2 个问题:1)线性外推的思维定式。2)业界研究的思维习惯:追求效率,聚焦更具体的问题。首先是 1)线性外推的思 维定式,多数研究团队选择优先调整模型结构 和训练方法等路线的隐含假设是,规模扩张不会对技术路线的效率产生明显影响,或者即使产生影响,但相比规模扩张带来的成本,其投入难度很难同比扩大。例如,OpenAI 的团队在 2020 年 1 月发现模型参数规模与效果存在幂律关系,即模型参数呈指数增长时,性能会线性增加,但 GPT-3 规模大于 BERT large 几个数量级,Zero-Shot/One-Shot 下效果也没有明显优势。这意味着 Fine-tuned 的效率提升优于参数规模扩大所带来的影响。2022 年 1 月,Google 和 DeepMind 研究团队发现 Fine-tuning 也存在幂律关系2,因此行业主要聚焦既定规模模型的效率提升。