AI 大模型发展过程中,通常伴随着模型参数量增大、训练数据增多的趋势,对于芯片的算力需求持续增长。根据《AI算力集群方案设计与优化》总结的过去 4 年全球主要 NLP(自然语言处理)模型,模型的参数量从 ELMo 的 9400 万增长至 Megatron-Turing NLG 的 5300 亿,增长了近 5600 倍。以 GPT-1 到 GPT-3 的发展过程为例,2018 年 6 月GPT-1 发布,GPT-1 预训练过程是无监督的,采用了 BooksCorpus 数据集,微调过程是有监督的,主要针对语言模型,整个模型参数量达到 1.17 亿,其中预训练数据量达到 5GB。GPT-2 于 2019 年 2 月发布,预训练过程同样是无监督的,采用多任务学习的方式,参数量提升至 15 亿,预训练数据量提升至 40GB。GPT-3 于 2020 年 5 月发布,通过更为海量的参数来进行训练和学习,参数量进一步提升至 1750 亿,预训练数据量提升数个数量级至 45TB。AI模型的发展在目前阶段来看,更好的性能获取通常意味着更多的参数量和更大的数据集,AI 模型的迅猛发展与芯片层面的算力进步密不可分,以 GPU 为代表的加速芯片快速迭代发展为大模型更替奠定了良好的硬件基础。