Transformer模型可以替代当前的递归模型,消减对输入输出的顺序依赖。Transformer 模型作为完全基于注意力机制的新神经网络架构,在技术特征上主要体现为可以并行、速度更快。过往要训练一个深度学习模型,必须使用大规模的标记好的数据集合来训练,这些数据集合需要人工标注,成本极高。在 Transformer 下,通过 Mask 机制,遮挡已有文章中的句段,让 AI 去填空,从而使很多现成的文章、网页等信息就成为天然的标注数据集,成本节省极为明显;同时,RNN 的顺序计算、单一流水线的问题在 Transformer 的并行机制下也能得到有效解决。Transformer 问世后,迅速取代循环神经网络 RNN 的系列变种,可以满足市面上几乎所有的自然语言处理的需求,成为主流的模型架构基础。openAI、谷歌、百度等都是基于 Transformer 模型进行大模型研发和应用。