无监督训练采用大数据集,有监督微调采用针对任务的数据集。在无监督训练阶段,采用了 12 层解码器(Decoder)堆叠的 Transformer 模型,共包含 12 个掩蔽自注意力头(masked self-attention head)。训练数据集方面,采用 BooksCorpus 数据集,该数据集包括 7000多本来自风格不同的未出版书籍,内含长段的连续文本。也可使用备选数据集 1B Word Benchmark。在无监督训练阶段,提高解码器的层数能够有效提高训练效果。在有监督微调阶段,可根据不同任务类型选择不同的数据集。