训练参数与 GPT-3 相比降低了超 100 倍。InstructGPT 训练参数最大为 13 亿,与 GPT-3的 1750 亿相比减少了 100 倍之多,且 InstructGPT 输出的训练结果更符合人类的要求。InstructGPT 证明了对人类反馈进行微调是使语言模型与人类意图保持一致的重要发展方向,且基于 RLHF 的训练方法能够大大减少对模型参数量的要求,提高训练速度,降低训练成本。此外,由于 InstructGPT 是在 GPT-3 基础上做的微调,且涉及了人工标注,数据集总量并不大,总计 77K,其中涉及人工的为 46K。