(1)随着当前 AI 大模型的迭代以及性能的提升,其参数量的指数级上升使得大模型训练所需算力同样迅速增长。根据大模型的预训练第一性原理“Scaling Law”,在机器学习领域,特别是对于大语言模型而言,模型性能(L,模型在测试集上的交叉熵损失)与模型的参数量大小(N)、训练模型的数据大小(D)以及训练模型使用的计算量(C)之间存在一种可预测的关系。这种关系通常表现为随着这些因素的增长,模型性能会按照一定的幂律进行改善,说明当在模型训练阶段提高算力投入,模型性能会显著增长。根据《Scaling Laws for Neural Language Models》,对于每个训练 Token、每个模型参数,约需要进行 6 次浮点运算。以 GPT 系列模型为例,GPT-2 参数规模为 15 亿,GPT-3 来到了 1750 亿,GPT-4 更是约为 1.8 万亿,随着模型迭代和性能提高,参数规模以指数级级别增长,以 GPT-3 大模型训练为例,模型参数量为 1750 亿,训练 Token 数量为 3000 亿,其需要的训练总算力为175B×300B×6 = 3.15*10^23 FLOPs。