(4)Open AI 于 2024 年 9 月发布 OpenAI o1 模型,可以执行复杂的推理任务,MMLU评分超越一众大模型。o1 模型在回答问题之前会形成一条内部思维链(Chain of Thought),模拟人类的思考过程,其在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似,在数学和编码方面表现同样出色。他的 MMLU(知识问答,评估 LLM 的知识和推理能力)评分、Math(含代数、微积分、几何、概率等多个领域)评分、GPQA Diamond(全面的框架,测试模型在多种推理场景下的能力)评分均超过了当时的主流大模型,如 Gemini 2.0 Pro Experimental、Hunyuan-TurboS、Claude 3.5 Sonnet 等,对比 GPT-4o 也有显著提升。