2018 年,谷歌推出自然语言预训练模型 BERT。BERT(Bidirectional Encoder Representations from Transformers)和ChatGPT同样以Transformers为基础模型,BERT采用双向编码器表示技术,在理解上下文方面有更好的表现。数据方面,BERT训练数据采用了开源语料 BooksCropus以及英文维基百科数据,共有约 33亿个词。参数方面,基础版本(base)参数量为 1.1亿,大号版本(large)参数量达 3.4亿。训练方面,大号版本 BERT一次训练需要 16个 TPU集群(约 64TPU)训练 5天。