此外,o1 使用的“思维链条(CoT,Chain of Thought)”推理为模型的对齐和安全性带来了新的契机。OpenAI 发现,将模型行为的政策融入推理模型的思维链中,是一种有效且稳健的方式,可以传授人类的价值观和原则。通过教导模型在具体情境中推理并遵循 OpenAI 的安全规则,OpenAI 的研究表明,推理能力直接提升了模型的稳健性:o1-preview 在关键的绕过安全限制评估和我们最严格的内部安全边界测试中表现显著提升。OpenAI 认为,使用链式思维推理能够为安全性和对齐带来重大进展,因为它一方面使 OpenAI 能够以可解释的方式观察模型的思维过程,另一方面使模型对安全规则的推理在处理分布外情况时更加稳健。